Пускане на платформата за разпределена обработка на данни Apache Hadoop 3.3

След година и половина разработка, Apache Software Foundation публикувано освобождаване Apache Hadoop 3.3.0, безплатна платформа за организиране на разпределена обработка на големи обеми данни с помощта на парадигмата карта/намаляване, в който задачата е разделена на много по-малки отделни фрагменти, всеки от които може да бъде стартиран на отделен клъстерен възел. Базираното на Hadoop хранилище може да обхваща хиляди възли и да съдържа екзабайти данни.

Hadoop включва внедряване на разпределената файлова система Hadoop (HDFS), която автоматично осигурява архивиране на данни и е оптимизирана за приложения MapReduce. За да се опрости достъпът до данни в хранилището на Hadoop, са разработени базата данни HBase и SQL-подобният език Pig, който е вид SQL за MapReduce, чиито заявки могат да бъдат паралелизирани и обработвани от няколко Hadoop платформи. Проектът се оценява като напълно стабилен и готов за промишлена експлоатация. Hadoop се използва активно в големи индустриални проекти, предоставяйки възможности, подобни на платформата Google Bigtable/GFS/MapReduce, докато Google официално делегиран Hadoop и други проекти на Apache имат право да използват технологии, обхванати от патенти, свързани с метода MapReduce.

Hadoop се нарежда на първо място сред хранилищата на Apache по отношение на броя направени промени и на пето по отношение на размера на кодовата база (около 4 милиона реда код). Основните реализации на Hadoop включват Netflix (съхранява повече от 500 милиарда събития на ден), Twitter (клъстер от 10 хиляди възли съхранява повече от зетабайт данни в реално време и обработва повече от 5 милиарда сесии на ден), Facebook (клъстер от 4 хиляди възли съхраняват повече от 300 петабайта и се увеличават ежедневно с 4 PB на ден).

Основната промени в Apache Hadoop 3.3:

  • Добавена е поддръжка за платформи, базирани на ARM архитектура.
  • Изпълнение на формата Протобуф (Протоколни буфери), използвани за сериализиране на структурирани данни, е актуализиран до версия 3.7.1 поради края на жизнения цикъл на клона protobuf-2.5.0.
  • Възможностите на S3A конектора са разширени: добавена е поддръжка за удостоверяване с помощта на токени (Токен за делегиране), подобрена поддръжка за кеширане на отговори с код 404, повишена производителност на S3guard и повишена оперативна надеждност.
  • Проблемите с автоматичната настройка са разрешени във файловата система ABFS.
  • Добавена е естествена поддръжка за Tencent Cloud COS файлова система за достъп до хранилище на COS обекти.
  • Добавена е пълна поддръжка за Java 11.
  • Внедряването на HDFS RBF (базирана на рутер федерация) е стабилизирано. Контролите за сигурност са добавени към HDFS рутера.
  • Добавена е услугата DNS Resolution за клиента за определяне на сървъри чрез DNS по имена на хостове, което ви позволява да правите без да изброявате всички хостове в настройките.
  • Добавена поддръжка за планиране на стартиране опортюнистични контейнери чрез централизиран мениджър на ресурси (ResourceManager), включително възможност за разпределяне на контейнери, като се вземе предвид натоварването на всеки възел.
  • Добавена е директория с приложения за търсене YARN (Още един преговарящ за ресурси).

Източник: opennet.ru

Добавяне на нов коментар