Рэліз платформы для размеркаванай апрацоўкі дадзеных Apache Hadoop 3.3

Пасля паўтара года распрацоўкі арганізацыя Apache Software Foundation апублікавала рэліз Apache Hadoop 3.3.0, свабоднай платформы для арганізацыі размеркаванай апрацоўкі вялікіх аб'ёмаў дадзеных з выкарыстаннем парадыгмы map/reduce, пры якой задача дзеліцца на мноства драбнейшых адасобленых фрагментаў, кожны з якіх можа быць запушчаны на асобным вузле кластара. Сховішча на базе Hadoop можа ахопліваць тысячы вузлоў і змяшчаць эксабайты дадзеных.

У склад Hadoop уваходзіць рэалізацыя размеркаванай файлавай сістэмы Hadoop Distributed Filesystem (HDFS), аўтаматычна якая забяспечвае рэзерваванне дадзеных і аптымізаванай для працы MapReduce-прыкладанняў. Для спрашчэння доступу да дадзеных у Hadoop сховішча распрацавана БД HBase і SQL-падобная мова Pig, які з'яўляецца свайго роду SQL для MapReduce, запыты якога могуць быць распаралелены і апрацаваны некалькімі Hadoop-платформамі. Праект ацэньваецца як поўнасцю стабільны і гатовы для прамысловай эксплуатацыі. Hadoop актыўна выкарыстоўваецца ў буйных прамысловых праектах, падаючы магчымасці, аналагічныя платформе Google Bigtable/GFS/MapReduce, пры гэтым кампанія Google афіцыйна дэлегавала Hadoop і іншым праектам Apache права выкарыстанні тэхналогій, на якія распаўсюджваюцца патэнты, злучаныя з метадам MapReduce.

Hadoop займае першае месца сярод рэпазітароў Apache па колькасці якія ўносяцца змен і пятае месца па памеры кодавай базы (каля 4 млн радкоў кода). З буйных укараненняў Hadoop адзначаюцца сховішчы Netflix (захоўваецца больш за 500 мільярдаў падзей у дзень), Twitter (кластар з 10 тысяч вузлоў у рэжыме рэальнага часу захоўвае больш зэтабайта дадзеных і апрацоўвае больш за 5 мільярдаў сеансаў у дзень), Facebook (кластар з 4 тысяч вузлоў захоўвае больш за 300 петабайт і штодня павялічваецца на 4 Пб у дзень).

Асноўныя змены у Apache Hadoop 3.3:

  • Дададзена падтрымка платформаў на аснове архітэктуры ARM.
  • Рэалізацыя фармату Protobuf (Protocol buffers), выкарыстоўванага для серыялізацыі структураваных дадзеных, абноўлена да выпуску 3.7.1 у сувязі з канчаткам жыццёвага цыклу галінкі protobuf-2.5.0.
  • Пашыраныя магчымасці канектара S3A: дададзеная падтрымка аўтэнтыфікацыі пры дапамозе токенаў (Delegation Token), палепшана падтрымка кэшавання адказаў з кодам 404, павялічана прадукцыйнасць S3guard, падвышаная надзейнасць працы.
  • У файлавай сістэме ABFS вырашаны праблемы з аўтаматычным цюнінгам.
  • Дададзена ўбудаваная падтрымка файлавай сістэмы Tencent Cloud COS для доступу да аб'ектнага сховішча COS.
  • Дададзена поўная падтрымка Java 11.
  • Стабілізаваная рэалізацыя HDFS RBF (Router-based Federation). У HDFS Router дададзены сродкі кіравання бяспекай.
  • Дададзены сэрвіс DNS Resolution для вызначэння кліентам сервераў праз DNS па імёнах вузлоў, які дазваляе абыйсціся без пераліку ўсіх хастоў у наладах.
  • Дададзена падтрымка планавання запуску апартуністычных кантэйнераў праз цэнтралізаваны менеджэр рэсурсаў (ResourceManager), у тым ліку з магчымасцю размеркавання кантэйнераў з улікам нагрузкі кожнага вузла.
  • Дададзены каталог прыкладанняў YARN (Yet Another Resource Negotiator) з магчымасцю пошуку.

Крыніца: opennet.ru

Дадаць каментар