Κυκλοφορία της πλατφόρμας για την επεξεργασία κατανεμημένων δεδομένων Apache Hadoop 3.3

Μετά από ενάμιση χρόνο ανάπτυξης, το Apache Software Foundation опубликовала απελευθέρωση Apache Hadoop 3.3.0, μια δωρεάν πλατφόρμα για την οργάνωση κατανεμημένης επεξεργασίας μεγάλου όγκου δεδομένων χρησιμοποιώντας το παράδειγμα ΜΕΙΩΣΗ ΧΑΡΤΗ, στο οποίο η εργασία χωρίζεται σε πολλά μικρότερα ξεχωριστά τμήματα, καθένα από τα οποία μπορεί να εκκινηθεί σε ξεχωριστό κόμβο συμπλέγματος. Η αποθήκευση που βασίζεται σε Hadoop μπορεί να εκτείνεται σε χιλιάδες κόμβους και να περιέχει exabyte δεδομένων.

Το Hadoop περιλαμβάνει μια υλοποίηση του Hadoop Distributed Filessystem (HDFS), το οποίο παρέχει αυτόματα αντίγραφα ασφαλείας δεδομένων και είναι βελτιστοποιημένο για εφαρμογές MapReduce. Για να απλοποιηθεί η πρόσβαση σε δεδομένα στο χώρο αποθήκευσης Hadoop, έχουν αναπτυχθεί η βάση δεδομένων HBase και η γλώσσα τύπου SQL Pig, η οποία είναι ένα είδος SQL για το MapReduce, τα ερωτήματα του οποίου μπορούν να παραλληλιστούν και να υποβληθούν σε επεξεργασία από πολλές πλατφόρμες Hadoop. Το έργο αξιολογείται ως απολύτως σταθερό και έτοιμο για βιομηχανική λειτουργία. Το Hadoop χρησιμοποιείται ενεργά σε μεγάλα βιομηχανικά έργα, παρέχοντας δυνατότητες παρόμοιες με την πλατφόρμα Google Bigtable/GFS/MapReduce, ενώ η Google έχει επίσημα κατ 'εξουσιοδότηση Το Hadoop και άλλα έργα Apache έχουν το δικαίωμα να χρησιμοποιούν τεχνολογίες που καλύπτονται από διπλώματα ευρεσιτεχνίας που σχετίζονται με τη μέθοδο MapReduce.

Το Hadoop κατέχει την πρώτη θέση μεταξύ των αποθετηρίων Apache ως προς τον αριθμό των αλλαγών που έγιναν και την πέμπτη ως προς το μέγεθος της βάσης κώδικα (περίπου 4 εκατομμύρια γραμμές κώδικα). Οι κύριες εφαρμογές Hadoop περιλαμβάνουν το Netflix (περισσότερα από 500 δισεκατομμύρια συμβάντα την ημέρα αποθηκεύονται), το Twitter (ένα σύμπλεγμα 10 χιλιάδων κόμβων αποθηκεύει περισσότερα από ένα zettabyte δεδομένων σε πραγματικό χρόνο και επεξεργάζεται περισσότερες από 5 δισεκατομμύρια συνεδρίες ανά ημέρα), το Facebook (ένα σύμπλεγμα των 4 χιλιάδων κόμβων αποθηκεύει περισσότερα από 300 petabyte και αυξάνεται καθημερινά κατά 4 PB την ημέρα).

Ο κύριος αλλαγές στο Apache Hadoop 3.3:

  • Προστέθηκε υποστήριξη για πλατφόρμες που βασίζονται στην αρχιτεκτονική ARM.
  • Εφαρμογή της μορφής Protobuf (Protocol buffers), που χρησιμοποιούνται για τη σειριοποίηση δομημένων δεδομένων, έχει ενημερωθεί στην έκδοση 3.7.1 λόγω του τέλους του κύκλου ζωής του κλάδου protobuf-2.5.0.
  • Οι δυνατότητες της υποδοχής S3A έχουν επεκταθεί: προστέθηκε υποστήριξη για έλεγχο ταυτότητας με χρήση διακριτικών (Διακριτικό αντιπροσωπείας), βελτιωμένη υποστήριξη για αποκρίσεις προσωρινής αποθήκευσης με κωδικό 404, αυξημένη απόδοση S3guard και αυξημένη λειτουργική αξιοπιστία.
  • Τα προβλήματα με τον αυτόματο συντονισμό έχουν επιλυθεί στο σύστημα αρχείων ABFS.
  • Προστέθηκε εγγενής υποστήριξη για το σύστημα αρχείων Tencent Cloud COS για πρόσβαση στην αποθήκευση αντικειμένων COS.
  • Προστέθηκε πλήρης υποστήριξη για Java 11.
  • Η εφαρμογή του HDFS RBF (Router-based Federation) έχει σταθεροποιηθεί. Τα στοιχεία ελέγχου ασφαλείας έχουν προστεθεί στο δρομολογητή HDFS.
  • Προστέθηκε η υπηρεσία Ανάλυσης DNS για τον πελάτη για να προσδιορίζει διακομιστές μέσω DNS με ονόματα κεντρικών υπολογιστών, επιτρέποντάς σας να κάνετε χωρίς να καταχωρείτε όλους τους κεντρικούς υπολογιστές στις ρυθμίσεις.
  • Προστέθηκε υποστήριξη προγραμματισμού εκκίνησης ευκαιριακά δοχεία μέσω ενός κεντρικού διαχειριστή πόρων (ResourceManager), συμπεριλαμβανομένης της δυνατότητας διανομής κοντέινερ λαμβάνοντας υπόψη το φορτίο κάθε κόμβου.
  • Προστέθηκε ο κατάλογος εφαρμογών YARN (Ένας Άλλος Διαπραγματευτής Πόρων) με δυνατότητα αναζήτησης.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο