LinkedIn 資料探勘軟體開源

商業社交網站 LinkedIn 宣布,將旗下資料探勘軟體 WhereHows 開源,從各資料來源蒐集元資料,作為整合元資料的儲存庫,主要用於企業資訊分析,未來計畫整合其他資料工具,如Kafka、Samza、Gobblin、Nuage等。現在已放於 GitHub 上。

LinkedIn 表示 WhereHows 是整合所有 LinkedIn 的資料處理環境,並且從中萃取 Metadata,並加以管理,主要用於挖掘企業資訊。

WhereHows從各種資料來源蒐集元資料,並且標準化和模型化這些 Metadata,以及作為一種整合 Metadata 的儲存庫(Repository),用於多種分析目的。

LinkedIn表示,WhereHows 已經獲取5萬個資料集的狀態、1.4萬個評論和3.5千萬個工作實行和關聯性資訊,而這些資料分別儲存在 Hadoop、Teradata 或其他叢集,且佔了超過 15PB 的儲存空間。

WhereHows 提供開發者從 API 或 Web 應用程式存取資料,其中API提供其他資料處理和應用程式的自動化,而 Web 應用程式則提供搜尋、視覺化資料集間的關係、註解、討論、社群參與等功能。

WhereHows 完整架構圖
WhereHows 完整架構圖

而 WhereHows 主要由資料儲存庫、Web 伺服器和後端伺服器所組成,其中資料儲存庫用來儲存所有 Metadata 內容,Web 伺服器則是透過 UI 和 API 來呈現資料,另外,後端伺服器則會定期從其他系統抓取 Metadata。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。