Բաշխված տվյալների մշակման հարթակի թողարկում Apache Hadoop 3.3

Մեկուկես տարի զարգացումից հետո Apache Software Foundation-ը опубликовала արձակել Apache Hadoop 3.3.0, պարադիգմի օգտագործմամբ տվյալների մեծ ծավալների բաշխված մշակման կազմակերպման անվճար հարթակ քարտեզ/կրճատել, որում առաջադրանքը բաժանված է շատ ավելի փոքր առանձին հատվածների, որոնցից յուրաքանչյուրը կարող է գործարկվել առանձին կլաստերային հանգույցի վրա։ Hadoop-ի վրա հիմնված պահեստը կարող է ընդգրկել հազարավոր հանգույցներ և պարունակել էկզաբայթ տվյալներ:

Hadoop-ը ներառում է Hadoop Distributed Filessystem (HDFS) ներդրումը, որն ավտոմատ կերպով ապահովում է տվյալների կրկնօրինակում և օպտիմիզացված MapReduce հավելվածների համար: Hadoop պահեստում տվյալների հասանելիությունը պարզեցնելու համար մշակվել են HBase տվյալների բազան և SQL-ի նման Pig լեզուն, որը մի տեսակ SQL է MapReduce-ի համար, որի հարցումները կարող են զուգահեռացվել և մշակվել մի քանի Hadoop հարթակների կողմից: Ծրագիրը գնահատվում է որպես լիովին կայուն և պատրաստ արդյունաբերական շահագործման։ Hadoop-ը ակտիվորեն օգտագործվում է խոշոր արդյունաբերական նախագծերում՝ տրամադրելով Google Bigtable/GFS/MapReduce հարթակի նման հնարավորություններ, մինչդեռ Google-ը պաշտոնապես պատվիրակված Hadoop-ը և այլ Apache նախագծերն իրավունք ունեն օգտագործել MapReduce մեթոդի հետ կապված արտոնագրերով ընդգրկված տեխնոլոգիաները:

Hadoop-ը առաջին տեղն է զբաղեցնում Apache-ի պահոցների մեջ կատարված փոփոխությունների քանակով և հինգերորդը՝ կոդերի բազայի չափով (մոտ 4 միլիոն տող կոդ): Hadoop-ի հիմնական իրականացումները ներառում են Netflix (օրական ավելի քան 500 միլիարդ իրադարձություն է պահվում), Twitter (10 հազար հանգույցներից բաղկացած կլաստերը իրական ժամանակում պահում է ավելի քան մեկ զետաբայթ տվյալներ և մշակում է օրական ավելի քան 5 միլիարդ սեսիա), Facebook (կլաստեր): 4 հազար հանգույցները պահում են ավելի քան 300 պետաբայթ և օրական ավելանում են օրական 4 PB-ով):

Հիմնական փոփոխություններ Apache Hadoop 3.3-ում.

  • Ավելացվել է ARM ճարտարապետության վրա հիմնված հարթակների աջակցություն:
  • Ձևաչափի իրականացում Պրոտոբուֆ (Արձանագրության բուֆերներ), որն օգտագործվում է կառուցվածքային տվյալների սերիականացման համար, թարմացվել է 3.7.1-ը թողարկելու համար՝ կապված protobuf-2.5.0 ճյուղի կյանքի ցիկլի ավարտի հետ:
  • S3A միակցիչի հնարավորություններն ընդլայնվել են. ավելացվել է նշանների միջոցով վավերացման աջակցություն (Պատվիրակության նշան), բարելավված աջակցություն 404 կոդով քեշավորման պատասխաններին, S3guard-ի կատարողականի բարձրացում և գործառնական հուսալիության բարձրացում:
  • Ավտոմատ թյունինգի հետ կապված խնդիրները լուծվել են ABFS ֆայլային համակարգում:
  • Ավելացվել է բնիկ աջակցություն Tencent Cloud COS ֆայլային համակարգի համար՝ COS օբյեկտների պահեստարան մուտք գործելու համար:
  • Ավելացվեց Java 11-ի ամբողջական աջակցություն:
  • HDFS RBF (Router-based Federation) ներդրումը կայունացվել է: HDFS երթուղիչին ավելացվել են անվտանգության հսկիչ սարքեր:
  • Ավելացրել է DNS Resolution ծառայությունը հաճախորդի համար՝ DNS-ի միջոցով սերվերները հյուրընկալողների անուններով որոշելու համար, ինչը թույլ է տալիս անել առանց պարամետրերում բոլոր հոսթորդների ցուցակագրման:
  • Ավելացվեց գործարկման պլանավորման աջակցություն պատեհապաշտ կոնտեյներներ կենտրոնացված ռեսուրսների կառավարչի միջոցով (ResourceManager), ներառյալ կոնտեյներների բաշխման հնարավորությունը՝ հաշվի առնելով յուրաքանչյուր հանգույցի ծանրաբեռնվածությունը:
  • Ավելացվեց որոնելի YARN (Yet Another Resource Negotiator) հավելվածի գրացուցակը:

Source: opennet.ru

Добавить комментарий