Rilascio della piattaforma per l'elaborazione distribuita dei dati Apache Hadoop 3.3

Dopo un anno e mezzo di sviluppo, la Apache Software Foundation pubblicato rilasciare Apache Hadoop 3.3.0, una piattaforma gratuita per organizzare l'elaborazione distribuita di grandi volumi di dati utilizzando il paradigma Riduci mappa, in cui l'attività è divisa in tanti frammenti separati più piccoli, ognuno dei quali può essere avviato su un nodo del cluster separato. Lo storage basato su Hadoop può estendersi su migliaia di nodi e contenere exabyte di dati.

Hadoop include un'implementazione di Hadoop Distributed Filesystem (HDFS), che fornisce automaticamente il backup dei dati ed è ottimizzato per le applicazioni MapReduce. Per semplificare l'accesso ai dati nello storage Hadoop sono stati sviluppati il ​​database HBase e il linguaggio simile a SQL Pig, che è una sorta di SQL per MapReduce, le cui query possono essere parallelizzate ed elaborate da diverse piattaforme Hadoop. Il progetto è valutato come completamente stabile e pronto per l'esercizio industriale. Hadoop viene utilizzato attivamente in grandi progetti industriali, fornendo funzionalità simili alla piattaforma Google Bigtable/GFS/MapReduce, mentre Google ha ufficialmente delegato Hadoop e altri progetti Apache hanno il diritto di utilizzare le tecnologie coperte da brevetti relativi al metodo MapReduce.

Hadoop è al primo posto tra i repository Apache in termini di numero di modifiche apportate e al quinto in termini di dimensione della base di codice (circa 4 milioni di righe di codice). Le principali implementazioni di Hadoop includono Netflix (vengono archiviati più di 500 miliardi di eventi al giorno), Twitter (un cluster di 10mila nodi memorizza più di uno zettabyte di dati in tempo reale ed elabora più di 5 miliardi di sessioni al giorno), Facebook (un cluster di 4mila nodi memorizza più di 300 petabyte e aumenta ogni giorno di 4 PB al giorno).

Il principale modifiche in Apache Hadoop 3.3:

  • Aggiunto il supporto per piattaforme basate su architettura ARM.
  • Implementazione del formato Protobuff (Buffer di protocollo), utilizzato per serializzare i dati strutturati, è stato aggiornato alla versione 3.7.1 a causa della fine del ciclo di vita del ramo protobuf-2.5.0.
  • Le funzionalità del connettore S3A sono state ampliate: è stato aggiunto il supporto per l'autenticazione tramite token (Gettone di delega), supporto migliorato per la memorizzazione nella cache delle risposte con il codice 404, prestazioni S3guard migliorate e maggiore affidabilità operativa.
  • I problemi con l'ottimizzazione automatica sono stati risolti nel file system ABFS.
  • Aggiunto supporto nativo per il file system COS Tencent Cloud per l'accesso all'archiviazione di oggetti COS.
  • Aggiunto il supporto completo per Java 11.
  • L'implementazione di HDFS RBF (Router-based Federation) è stata stabilizzata. Sono stati aggiunti controlli di sicurezza al router HDFS.
  • Aggiunto il servizio di risoluzione DNS per consentire al client di determinare i server tramite DNS in base ai nomi host, consentendoti di fare a meno dell'elenco di tutti gli host nelle impostazioni.
  • Aggiunto supporto per la pianificazione del lancio contenitori opportunistici attraverso un gestore di risorse centralizzato (ResourceManager), inclusa la possibilità di distribuire i contenitori tenendo conto del carico di ciascun nodo.
  • Aggiunta la directory dell'applicazione YARN (Yet Another Resource Negotiator) ricercabile.

Fonte: opennet.ru

Aggiungi un commento