分散データ処理プラットフォーム「Apache Hadoop 3.3」をリリース

XNUMX 年半の開発を経て、Apache Software Foundation は опубликовала 解放する Apache Hadoop 3.3.0、パラダイムを使用して大量のデータの分散処理を組織化するための無料のプラットフォーム map / reduce、タスクは多くの小さな個別のフラグメントに分割され、それぞれが個別のクラスター ノードで起動できます。 Hadoop ベースのストレージは数千のノードにまたがり、エクサバイト規模のデータを含むことができます。

Hadoop には、データのバックアップを自動的に提供し、MapReduce アプリケーション用に最適化された Hadoop 分散ファイルシステム (HDFS) の実装が含まれています。 Hadoop ストレージ内のデータへのアクセスを簡素化するために、HBase データベースと SQL に似た言語 Pig が開発されました。Pig は、MapReduce 用の SQL の一種であり、そのクエリは複数の Hadoop プラットフォームで並列化して処理できます。 このプロジェクトは完全に安定しており、産業運営の準備が整っていると評価されています。 Hadoop は大規模な産業プロジェクトで積極的に使用されており、Google Bigtable/GFS/MapReduce プラットフォームと同様の機能を提供します。 委任された Hadoop およびその他の Apache プロジェクトには、MapReduce メソッドに関連する特許でカバーされるテクノロジを使用する権利があります。

Hadoop は、行われた変更数の点で Apache リポジトリの中で 4 位、コードベースのサイズ (コード約 500 万行) の点で 10 位にランクされています。 主な Hadoop 実装には、Netflix (5 日あたり 4 億以上のイベントが保存されます)、Twitter (300 ノードのクラスターが 4 ゼタバイト以上のデータをリアルタイムで保存し、XNUMX 日あたり XNUMX 億以上のセッションを処理します)、Facebook (クラスターXNUMX ノードのノードには XNUMX ペタバイト以上が保存されており、毎日 XNUMX PB ずつ増加しています。

メイン 変更 Apache Hadoop 3.3 の場合:

  • ARM アーキテクチャに基づくプラットフォームのサポートが追加されました。
  • フォーマットの実装 プロトブフ 構造化データのシリアル化に使用される (プロトコル バッファー) は、protobuf-3.7.1 ブランチのライフサイクルの終了により、リリース 2.5.0 に更新されました。
  • S3A コネクタの機能が拡張されました。トークンを使用した認証のサポートが追加されました (委任トークン)、コード 404 による応答のキャッシュのサポートが改善され、S3guard のパフォーマンスが向上し、運用の信頼性が向上しました。
  • 自動チューニングに関する問題は、ABFS ファイル システムで解決されました。
  • COS オブジェクト ストレージにアクセスするための Tencent Cloud COS ファイル システムのネイティブ サポートが追加されました。
  • Java 11 の完全サポートが追加されました。
  • HDFS RBF (Router-based Federation) の実装が安定しました。 セキュリティ制御が HDFS ルーターに追加されました。
  • クライアントがホスト名によって DNS 経由でサーバーを決定するための DNS 解決サービスを追加しました。これにより、設定にすべてのホストをリストしなくても実行できるようになりました。
  • 起動スケジュールのサポートを追加しました 日和見的なコンテナ 集中リソース マネージャー (ResourceManager) を介して、各ノードの負荷を考慮してコンテナーを分散する機能が含まれます。
  • 検索可能な YARN (Yet Another Resource Negotiator) アプリケーション ディレクトリを追加しました。

出所: オープンネット.ru

コメントを追加します