Veröffentlichung der Plattform für verteilte Datenverarbeitung Apache Hadoop 3.3

Nach anderthalb Jahren Entwicklungszeit gründete die Apache Software Foundation опубликовала freigeben Apache Hadoop 3.3.0, eine kostenlose Plattform zur Organisation der verteilten Verarbeitung großer Datenmengen mithilfe des Paradigmas Karte verkleinern, bei dem die Aufgabe in viele kleinere separate Fragmente unterteilt ist, die jeweils auf einem separaten Clusterknoten gestartet werden können. Hadoop-basierter Speicher kann Tausende von Knoten umfassen und Exabytes an Daten enthalten.

Hadoop beinhaltet eine Implementierung des Hadoop Distributed Filesystem (HDFS), das automatisch eine Datensicherung bereitstellt und für MapReduce-Anwendungen optimiert ist. Um den Zugriff auf Daten im Hadoop-Speicher zu vereinfachen, wurden die HBase-Datenbank und die SQL-ähnliche Sprache Pig entwickelt, eine Art SQL für MapReduce, deren Abfragen von mehreren Hadoop-Plattformen parallelisiert und verarbeitet werden können. Das Projekt wird als völlig stabil und industrietauglich bewertet. Hadoop wird aktiv in großen Industrieprojekten eingesetzt und bietet ähnliche Funktionen wie die Google Bigtable/GFS/MapReduce-Plattform, während Google dies offiziell getan hat delegiert Hadoop und andere Apache-Projekte haben das Recht, Technologien zu nutzen, die durch Patente im Zusammenhang mit der MapReduce-Methode geschützt sind.

Hadoop belegt unter den Apache-Repositorys den ersten Platz in Bezug auf die Anzahl der vorgenommenen Änderungen und den fünften Platz in Bezug auf die Codebasisgröße (ca. 4 Millionen Codezeilen). Zu den wichtigsten Hadoop-Implementierungen gehören Netflix (mehr als 500 Milliarden Ereignisse pro Tag werden gespeichert), Twitter (ein Cluster aus 10 Knoten speichert mehr als ein Zettabyte an Daten in Echtzeit und verarbeitet mehr als 5 Milliarden Sitzungen pro Tag), Facebook (ein Cluster). von 4 Knoten speichert mehr als 300 Petabyte und wächst täglich um 4 PB pro Tag).

Haupt- Veränderungen in Apache Hadoop 3.3:

  • Unterstützung für Plattformen hinzugefügt, die auf der ARM-Architektur basieren.
  • Implementierung des Formats Protobuf (Protokollpuffer), die zum Serialisieren strukturierter Daten verwendet werden, wurden aufgrund des Endes des Lebenszyklus des protobuf-3.7.1-Zweigs auf Version 2.5.0 aktualisiert.
  • Die Fähigkeiten des S3A-Connectors wurden erweitert: Unterstützung für die Authentifizierung mithilfe von Token wurde hinzugefügt (Delegationstoken), verbesserte Unterstützung für das Caching von Antworten mit Code 404, erhöhte S3guard-Leistung und erhöhte Betriebszuverlässigkeit.
  • Im ABFS-Dateisystem wurden Probleme mit der automatischen Optimierung behoben.
  • Native Unterstützung für das Tencent Cloud COS-Dateisystem für den Zugriff auf den COS-Objektspeicher hinzugefügt.
  • Vollständige Unterstützung für Java 11 hinzugefügt.
  • Die Implementierung von HDFS RBF (Router-based Federation) wurde stabilisiert. Dem HDFS-Router wurden Sicherheitskontrollen hinzugefügt.
  • Der DNS-Auflösungsdienst für den Client wurde hinzugefügt, um Server über DNS anhand von Hostnamen zu ermitteln, sodass Sie auf die Auflistung aller Hosts in den Einstellungen verzichten können.
  • Unterstützung für die Startplanung hinzugefügt opportunistische Container über einen zentralen Ressourcenmanager (ResourceManager), einschließlich der Möglichkeit, Container unter Berücksichtigung der Auslastung jedes Knotens zu verteilen.
  • Durchsuchbares YARN-Anwendungsverzeichnis (Yet Another Resource Negotiator) hinzugefügt.

Source: opennet.ru

Kommentar hinzufügen