Apache Hadoop 3.0.0 GA 正式發佈

12 月 13 日 Apache Hadoop 3.0.0 GA 版本正式發佈,這意味著用戶可以正式在線上使用 Hadoop 3.0.0 。這個版本是 Apache Hadoop 3.0.0 的第一個穩定版本,有很多重大的改進,比如支援
EC、支援多於 2 個的 NameNodes、Intra-datanode 均衡器等等。

只能使用 Java 8
所有的 Hadoop JARs 都是針對 Java 8 編譯的。仍在使用 Java 7 或更低版本的用戶必須升級至 Java 8。

HDFS 支援糾刪碼 (Erasure Coding)
與副本相比糾刪碼是一種更節省空間的數據持久化儲存方法。標準編碼 (比如Reed-Solomon(10,4)) 會有1.4 倍的空間消耗;然而 HDFS 副本則會有 3 倍的空間消耗。糾刪碼的額外消耗主要是在重建和執行遠程讀取,它傳統用於儲存冷數據,即不經常訪問的數據。當部署這個新特性時用戶應該考慮糾刪碼的網路和 CPU 消耗。

支援 Microsoft Azure Data Lake filesystem 連接器 Hadoop 現在支援集成 Microsoft Azure Data Lake,並作為替代 Hadoop 預設的文件系統。

基於 API 來配置 Capacity Scheduler 隊列的配置 OrgQueue 擴展了 capacity scheduler,通過 REST API 提供了以編程的方式來改變隊列的配置。

關於更詳細 Hadoop 3.0.0 GA 的內容請參考 Hadoop 官方網站

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *