Реліз платформи для розподіленої обробки даних Apache Hadoop 3.3

Після півтора року розробки організація Apache Software Foundation опублікувала реліз Apache Hadoop 3.3.0вільної платформи для організації розподіленої обробки великих обсягів даних з використанням парадигми карта/зменшення, при якій завдання ділиться на безліч дрібніших відокремлених фрагментів, кожен з яких може бути запущений на окремому вузлі кластера. Сховище на базі Hadoop може охоплювати тисячі вузлів та містити ексабайти даних.

До складу Hadoop входить реалізація розподіленої файлової системи Hadoop Distributed Filesystem (HDFS), що автоматично забезпечує резервування даних та оптимізована для роботи MapReduce-додатків. Для спрощення доступу до даних у Hadoop сховище розроблено БД HBase та SQL-подібну мову Pig, яка є свого роду SQL для MapReduce, запити якого можуть бути розпаралелені та оброблені кількома Hadoop-платформами. Проект оцінюється як повністю стабільний та готовий для промислової експлуатації. Hadoop активно використовується у великих промислових проектах, надаючи можливості, аналогічні платформі Google Bigtable/GFS/MapReduce, при цьому компанія Google офіційно делегувала Hadoop та інші проекти Apache мають право використовувати технології, на які поширюються патенти, пов'язані з методом MapReduce.

Hadoop займає перше місце серед репозиторіїв Apache за кількістю змін, що вносяться, і п'яте місце за розміром кодової бази (близько 4 млн рядків коду). З великих впроваджень Hadoop відзначаються сховища Netflix (зберігається понад 500 мільярдів подій на день), Twitter (кластер з 10 тисяч вузлів у режимі реального часу зберігає більше зетабайту даних та обробляє понад 5 мільярдів сеансів на день), Facebook (кластер із 4 тисяч вузлів зберігає більше 300 петабайт і щодня збільшується на 4 Пб на день).

Основні зміни в Apache Hadoop 3.3:

  • Додано підтримку платформ на основі архітектури ARM.
  • Реалізація формату Протобуф (Protocol buffers), який використовується для серіалізації структурованих даних, оновлено до випуску 3.7.1 у зв'язку із закінченням життєвого циклу гілки protobuf-2.5.0.
  • Розширені можливості конектора S3A: додано підтримку аутентифікації за допомогою токенів (Delegation Token), покращено підтримку кешування відповідей з кодом 404, збільшено продуктивність S3guard, підвищено надійність роботи.
  • У файловій системі ABFS вирішено проблеми з автоматичним тюнінгом.
  • Додано вбудовану підтримку файлової системи Tencent Cloud COS для доступу до об'єктного сховища COS.
  • Додано повну підтримку Java 11.
  • Стабілізовано реалізацію HDFS RBF (Router-based Federation). У HDFS Router додані засоби керування безпекою.
  • Додано сервіс DNS Resolution для визначення клієнтом серверів через DNS за іменами вузлів, що дозволяє обійтися без перерахування всіх хостів у налаштуваннях.
  • Додано підтримку планування запуску опортуністичних контейнерів через централізований менеджер ресурсів (ResourceManager), зокрема з можливістю розподілу контейнерів з урахуванням навантаження кожного вузла.
  • Додано каталог програм YARN (Yet Another Resource Negotiator) з можливістю пошуку.

Джерело: opennet.ru

Додати коментар або відгук