分散式資料處理平台Apache Hadoop 3.3發布

經過一年半的開發,Apache 軟體基金會 опубликовала 釋放 阿帕契Hadoop 3.3.0,一個免費平台,用於使用範例組織大量資料的分散式處理 映射/減少,其中任務被分成許多較小的單獨片段,每個片段都可以在單獨的叢集節點上啟動。 基於 Hadoop 的儲存可以跨越數千個節點並包含 EB 級資料。

Hadoop 包含 Hadoop 分散式檔案系統 (HDFS) 的實現,它自動提供資料備份並針對 MapReduce 應用程式進行了最佳化。 為了簡化對 Hadoop 儲存中資料的訪問​​,開發了 HBase 資料庫和類 SQL 語言 Pig,它是一種用於 MapReduce 的 SQL,其查詢可以由多個 Hadoop 平台並行化和處理。 經評估,該專案完全穩定,具備工業化運作條件。 Hadoop 積極應用於大型工業項目,提供類似 Google Bigtable/GFS/MapReduce 平台的功能,同時 Google 已正式 委託的 Hadoop和其他Apache專案有權使用與MapReduce方法相關的專利所涵蓋的技術。

就更改數量而言,Hadoop 在 Apache 儲存庫中排名第一,就程式碼庫大小(約 4 萬行程式碼)而言排名第五。 主要的 Hadoop 實作包括 Netflix(每天儲存超過 500 億個事件)、Twitter(一個由 10 萬個節點組成的集群,即時儲存超過 5 ZB 的數據,每天處理超過 4 億個會話)、Facebook(一個集群) 300 個節點儲存超過4 PB,並且每天以XNUMX PB 的速度增加)。

主要的 變化 在 Apache Hadoop 3.3 中:

  • 增加了對基於ARM架構平台的支援。
  • 格式的實施 原始緩衝區 由於 protobuf-3.7.1 分支生命週期的結束,用於序列化結構化資料的(協定緩衝區)已更新至版本 2.5.0。
  • S3A 連接器的功能已擴展:新增了對使用令牌進行身份驗證的支援(委託代幣),改進了對代碼 404 快取響應的支持,提高了 S3guard 性能並提高了操作可靠性。
  • 自動調整的問題已在 ABFS 檔案系統中解決。
  • 新增對騰訊雲 COS 檔案系統的原生支持,用於存取 COS 物件儲存。
  • 新增了對 Java 11 的全面支援。
  • HDFS RBF(基於路由器的聯邦)的實作已經穩定。 HDFS 路由器中新增了安全控制。
  • 新增了 DNS 解析服務,讓用戶端可以透過主機名稱透過 DNS 確定伺服器,因此無需在設定中列出所有主機。
  • 添加了啟動計劃支持 機會主義容器 透過集中式資源管理器(ResourceManager),包括考慮到每個節點的負載來分配容器的能力。
  • 新增了可搜尋的 YARN(Yet Another Resource Negotiator)應用程式目錄。

來源: opennet.ru

添加評論