Rilis platform untuk pemrosesan data terdistribusi Apache Hadoop 3.3

Setelah satu setengah tahun pengembangan, Apache Software Foundation ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π»Π° melepaskan Apache Hadoop 3.3.0, sebuah platform gratis untuk mengatur pemrosesan terdistribusi data dalam jumlah besar menggunakan paradigma memetakan/mengurangi, di mana tugas dibagi menjadi beberapa fragmen kecil yang terpisah, yang masing-masing dapat diluncurkan pada node cluster terpisah. Penyimpanan berbasis Hadoop dapat menjangkau ribuan node dan berisi data berukuran exabyte.

Hadoop menyertakan implementasi Hadoop Distributed Filesystem (HDFS), yang secara otomatis menyediakan cadangan data dan dioptimalkan untuk aplikasi MapReduce. Untuk menyederhanakan akses ke data dalam penyimpanan Hadoop, database HBase dan bahasa mirip SQL Pig telah dikembangkan, yang merupakan sejenis SQL untuk MapReduce, yang kuerinya dapat diparalelkan dan diproses oleh beberapa platform Hadoop. Proyek ini dinilai sepenuhnya stabil dan siap untuk operasi industri. Hadoop secara aktif digunakan dalam proyek industri besar, memberikan kemampuan yang mirip dengan platform Google Bigtable/GFS/MapReduce, sementara Google secara resmi telah didelegasikan Hadoop dan proyek Apache lainnya berhak menggunakan teknologi yang tercakup dalam paten terkait metode MapReduce.

Hadoop menempati urutan pertama di antara repositori Apache dalam hal jumlah perubahan yang dilakukan dan kelima dalam hal ukuran basis kode (sekitar 4 juta baris kode). Implementasi utama Hadoop mencakup Netflix (lebih dari 500 miliar peristiwa per hari disimpan), Twitter (sekelompok 10 ribu node menyimpan lebih dari satu zettabyte data secara real-time dan memproses lebih dari 5 miliar sesi per hari), Facebook (sebuah cluster dari 4 ribu node menyimpan lebih dari 300 petabyte dan meningkat setiap hari sebesar 4 PB per hari).

Utama perubahan di Apache Hadoop 3.3:

  • Menambahkan dukungan untuk platform berdasarkan arsitektur ARM.
  • Implementasi format Protobuf (Buffer protokol), yang digunakan untuk membuat serial data terstruktur, telah diperbarui ke rilis 3.7.1 karena berakhirnya siklus hidup cabang protobuf-2.5.0.
  • Kemampuan konektor S3A telah diperluas: dukungan untuk otentikasi menggunakan token telah ditambahkan (Token Delegasi), peningkatan dukungan untuk respons caching dengan kode 404, peningkatan kinerja S3guard, dan peningkatan keandalan operasional.
  • Masalah dengan penyetelan otomatis telah diselesaikan di sistem file ABFS.
  • Menambahkan dukungan asli untuk sistem file Tencent Cloud COS untuk mengakses penyimpanan objek COS.
  • Menambahkan dukungan penuh untuk Java 11.
  • Implementasi HDFS RBF (Federasi Berbasis Router) telah distabilkan. Kontrol keamanan telah ditambahkan ke Router HDFS.
  • Menambahkan layanan Resolusi DNS bagi klien untuk menentukan server melalui DNS berdasarkan nama host, memungkinkan Anda melakukannya tanpa mencantumkan semua host dalam pengaturan.
  • Menambahkan dukungan penjadwalan peluncuran wadah oportunistik melalui manajer sumber daya terpusat (ResourceManager), termasuk kemampuan untuk mendistribusikan kontainer dengan mempertimbangkan beban setiap node.
  • Menambahkan direktori aplikasi YARN (Yet Another Resource Negotiator) yang dapat dicari.

Sumber: opennet.ru

Tambah komentar