Keluaran platform untuk pemprosesan data teragih Apache Hadoop 3.3

Selepas satu setengah tahun pembangunan, Yayasan Perisian Apache ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π»Π° melepaskan Apache Hadoop 3.3.0, platform percuma untuk mengatur pemprosesan teragih bagi volum data yang besar menggunakan paradigma peta/kurangkan, di mana tugas itu dibahagikan kepada banyak serpihan berasingan yang lebih kecil, setiap satunya boleh dilancarkan pada nod kelompok yang berasingan. Storan berasaskan Hadoop boleh menjangkau ribuan nod dan mengandungi exabait data.

Hadoop termasuk pelaksanaan Hadoop Distributed Filesystem (HDFS), yang menyediakan sandaran data secara automatik dan dioptimumkan untuk aplikasi MapReduce. Untuk memudahkan akses kepada data dalam storan Hadoop, pangkalan data HBase dan bahasa seperti SQL Pig telah dibangunkan, yang merupakan sejenis SQL untuk MapReduce, pertanyaan yang boleh disejajarkan dan diproses oleh beberapa platform Hadoop. Projek ini dinilai sebagai stabil sepenuhnya dan sedia untuk operasi perindustrian. Hadoop digunakan secara aktif dalam projek perindustrian besar, menyediakan keupayaan yang serupa dengan platform Google Bigtable/GFS/MapReduce, manakala Google secara rasmi diwakilkan Hadoop dan projek Apache lain mempunyai hak untuk menggunakan teknologi yang dilindungi oleh paten yang berkaitan dengan kaedah MapReduce.

Hadoop menduduki tempat pertama di kalangan repositori Apache dari segi bilangan perubahan yang dibuat dan kelima dari segi saiz pangkalan kod (kira-kira 4 juta baris kod). Pelaksanaan utama Hadoop termasuk Netflix (lebih daripada 500 bilion acara sehari disimpan), Twitter (sekumpulan 10 ribu nod menyimpan lebih daripada zettabait data dalam masa nyata dan memproses lebih daripada 5 bilion sesi setiap hari), Facebook (sekumpulan daripada 4 ribu nod menyimpan lebih daripada 300 petabait dan meningkat setiap hari sebanyak 4 PB sehari).

Utama perubahan dalam Apache Hadoop 3.3:

  • Menambah sokongan untuk platform berdasarkan seni bina ARM.
  • Pelaksanaan format Protobuf (Penimbal Protokol), yang digunakan untuk mensiri data berstruktur, telah dikemas kini untuk mengeluarkan 3.7.1 disebabkan oleh penghujung kitaran hayat cawangan protobuf-2.5.0.
  • Keupayaan penyambung S3A telah diperluaskan: sokongan untuk pengesahan menggunakan token telah ditambah (Token Delegasi), sokongan yang lebih baik untuk respons caching dengan kod 404, peningkatan prestasi S3guard dan peningkatan kebolehpercayaan operasi.
  • Masalah dengan penalaan automatik telah diselesaikan dalam sistem fail ABFS.
  • Menambah sokongan asli untuk sistem fail Tencent Cloud COS untuk mengakses storan objek COS.
  • Menambah sokongan penuh untuk Java 11.
  • Pelaksanaan HDFS RBF (Persekutuan berasaskan Router) telah distabilkan. Kawalan keselamatan telah ditambahkan pada Penghala HDFS.
  • Menambah perkhidmatan Resolusi DNS untuk pelanggan untuk menentukan pelayan melalui DNS dengan nama hos, membolehkan anda melakukannya tanpa menyenaraikan semua hos dalam tetapan.
  • Menambahkan sokongan penjadualan pelancaran bekas oportunistik melalui pengurus sumber berpusat (ResourceManager), termasuk keupayaan untuk mengedarkan bekas dengan mengambil kira beban setiap nod.
  • Menambahkan direktori aplikasi YARN (Yet Another Resource Negotiator) yang boleh dicari.

Sumber: opennet.ru

Tambah komen