Sortie de la plateforme de traitement distribué des données Apache Hadoop 3.3

Après un an et demi de développement, l'Apache Software Foundation опубликовала libération Apache Hadoop 3.3.0, une plateforme gratuite pour organiser le traitement distribué de gros volumes de données selon le paradigme cartographier/réduire, dans lequel la tâche est divisée en plusieurs fragments distincts plus petits, chacun pouvant être lancé sur un nœud de cluster distinct. Le stockage basé sur Hadoop peut s'étendre sur des milliers de nœuds et contenir des exaoctets de données.

Hadoop inclut une implémentation du système de fichiers distribué Hadoop (HDFS), qui fournit automatiquement une sauvegarde des données et est optimisé pour les applications MapReduce. Pour simplifier l'accès aux données dans le stockage Hadoop, la base de données HBase et le langage de type SQL Pig ont été développés, qui est une sorte de SQL pour MapReduce, dont les requêtes peuvent être parallélisées et traitées par plusieurs plateformes Hadoop. Le projet est évalué comme étant complètement stable et prêt pour une exploitation industrielle. Hadoop est activement utilisé dans de grands projets industriels, offrant des fonctionnalités similaires à la plateforme Google Bigtable/GFS/MapReduce, tandis que Google a officiellement délégué Hadoop et d'autres projets Apache ont le droit d'utiliser des technologies couvertes par des brevets liés à la méthode MapReduce.

Hadoop se classe au premier rang des référentiels Apache en termes de nombre de modifications apportées et au cinquième en termes de taille de base de code (environ 4 millions de lignes de code). Les principales implémentations Hadoop incluent Netflix (plus de 500 milliards d'événements sont stockés par jour), Twitter (un cluster de 10 5 nœuds stocke plus d'un zettaoctet de données en temps réel et traite plus de 4 milliards de sessions par jour), Facebook (un cluster de 300 mille nœuds stocke plus de 4 pétaoctets et augmente quotidiennement de XNUMX Po par jour).

principal changements dans Apache Hadoop 3.3 :

  • Ajout de la prise en charge des plates-formes basées sur l'architecture ARM.
  • Mise en œuvre du format Protobuf (Tampons de protocole), utilisés pour sérialiser les données structurées, ont été mis à jour vers la version 3.7.1 en raison de la fin du cycle de vie de la branche protobuf-2.5.0.
  • Les capacités du connecteur S3A ont été étendues : la prise en charge de l'authentification par tokens a été ajoutée (Jeton de délégation), prise en charge améliorée de la mise en cache des réponses avec le code 404, performances accrues de S3guard et fiabilité opérationnelle accrue.
  • Les problèmes de réglage automatique ont été résolus dans le système de fichiers ABFS.
  • Ajout de la prise en charge native du système de fichiers Tencent Cloud COS pour accéder au stockage d'objets COS.
  • Ajout du support complet pour Java 11.
  • La mise en œuvre de HDFS RBF (Router-based Federation) a été stabilisée. Des contrôles de sécurité ont été ajoutés au routeur HDFS.
  • Ajout du service de résolution DNS pour que le client détermine les serveurs via DNS par noms d'hôtes, vous permettant de vous passer de lister tous les hôtes dans les paramètres.
  • Ajout du support de planification de lancement conteneurs opportunistes via un gestionnaire de ressources centralisé (ResourceManager), incluant la possibilité de distribuer des conteneurs en tenant compte de la charge de chaque nœud.
  • Ajout du répertoire d'applications YARN (Yet Another Resource Négociateur) consultable.

Source: opennet.ru

Ajouter un commentaire