🥇Pagpapalabas ng Apache Hadoop 3.3 distributed data processing platform

Pagkatapos ng isang taon at kalahati ng pag-unlad, ang Apache Software Foundation опубликовала pakawalan Apache Hadoop 3.3.0, isang libreng platform para sa pag-aayos ng distributed processing ng malalaking volume ng data gamit ang paradigm mapa/bawasan, kung saan ang gawain ay nahahati sa maraming mas maliliit na hiwalay na fragment, na ang bawat isa ay maaaring ilunsad sa isang hiwalay na cluster node. Ang Hadoop-based na storage ay maaaring sumasaklaw sa libu-libong node at naglalaman ng mga exabytes ng data.

Kasama sa Hadoop ang pagpapatupad ng Hadoop Distributed Filesystem (HDFS), na awtomatikong nagbibigay ng backup ng data at na-optimize para sa mga application ng MapReduce. Upang gawing simple ang pag-access sa data sa imbakan ng Hadoop, ang database ng HBase at ang wikang tulad ng SQL na Pig ay binuo, na isang uri ng SQL para sa MapReduce, ang mga query kung saan maaaring iparallelize at iproseso ng ilang mga platform ng Hadoop. Ang proyekto ay tinasa bilang ganap na matatag at handa na para sa pang-industriyang operasyon. Ang Hadoop ay aktibong ginagamit sa malalaking proyektong pang-industriya, na nagbibigay ng mga kakayahan na katulad ng Google Bigtable/GFS/MapReduce platform, habang ang Google ay opisyal na itinalaga Ang Hadoop at iba pang mga proyekto ng Apache ay may karapatang gumamit ng mga teknolohiyang sakop ng mga patent na nauugnay sa pamamaraan ng MapReduce.

Nangunguna ang Hadoop sa mga repositoryo ng Apache sa mga tuntunin ng bilang ng mga pagbabagong ginawa at panglima sa mga tuntunin ng laki ng codebase (mga 4 na milyong linya ng code). Kabilang sa mga pangunahing pagpapatupad ng Hadoop ang Netflix (higit sa 500 bilyong kaganapan bawat araw ang nakaimbak), Twitter (isang kumpol ng 10 libong node na nag-iimbak ng higit sa isang zettabyte ng data sa real time at nagpoproseso ng higit sa 5 bilyong session bawat araw), Facebook (isang cluster ng 4 na libong node ay nag-iimbak ng higit sa 300 petabytes at tumataas araw-araw ng 4 PB bawat araw).

Ang pangunahing pagbabago sa Apache Hadoop 3.3:

Nagdagdag ng suporta para sa mga platform batay sa arkitektura ng ARM.
Pagpapatupad ng format Protobuf (Protocol buffers), na ginagamit para sa pagse-serialize ng structured data, ay na-update para ilabas ang 3.7.1 dahil sa pagtatapos ng life cycle ng protobuf-2.5.0 branch.
Ang mga kakayahan ng S3A connector ay pinalawak: ang suporta para sa pagpapatunay gamit ang mga token ay naidagdag (Token ng Delegasyon), pinahusay na suporta para sa pag-cache ng mga tugon gamit ang code 404, pinataas ang pagganap ng S3guard, at pinataas na pagiging maaasahan ng pagpapatakbo.
Ang mga problema sa awtomatikong pag-tune ay nalutas sa ABFS file system.
Nagdagdag ng katutubong suporta para sa Tencent Cloud COS file system para sa pag-access ng COS object storage.
Nagdagdag ng buong suporta para sa Java 11.
Ang pagpapatupad ng HDFS RBF (Router-based Federation) ay na-stabilize. Ang mga kontrol sa seguridad ay idinagdag sa HDFS Router.
Idinagdag ang serbisyo ng DNS Resolution para sa kliyente upang matukoy ang mga server sa pamamagitan ng DNS sa pamamagitan ng mga pangalan ng host, na nagbibigay-daan sa iyong gawin nang hindi inilista ang lahat ng mga host sa mga setting.
Nagdagdag ng suporta sa pag-iskedyul ng paglunsad oportunistang lalagyan sa pamamagitan ng isang sentralisadong tagapamahala ng mapagkukunan (ResourceManager), kabilang ang kakayahang ipamahagi ang mga lalagyan na isinasaalang-alang ang pagkarga ng bawat node.
Nagdagdag ng nahahanap na YARN (Yet Another Resource Negotiator) na direktoryo ng application.

Pinagmulan: opennet.ru

Paglabas ng platform para sa distributed data processing Apache Hadoop 3.3

Yuri Gagarin