Apache Hadoop 3.3 тархсан өгөгдөл боловсруулах платформыг гаргах

Жил хагасын хөгжүүлэлтийн дараа Apache програм хангамжийн сан Нийтлэгдсэн суллах Apache Hadoop 3.3.0, парадигмыг ашиглан их хэмжээний мэдээллийн тархсан боловсруулалтыг зохион байгуулах үнэгүй платформ газрын зураг/багасгах, үүнд даалгавар нь олон жижиг салангид хэсгүүдэд хуваагддаг бөгөөд тус бүрийг тусдаа кластерийн зангилаа дээр ажиллуулж болно. Hadoop-д суурилсан хадгалах сан нь олон мянган зангилаатай бөгөөд эксабайт өгөгдөл агуулж болно.

Hadoop нь мэдээллийн нөөцлөлтийг автоматаар хангадаг Hadoop Distributed Filesystem (HDFS)-ийн хэрэгжилтийг багтаасан бөгөөд MapReduce программуудад тохиромжтой. Hadoop хадгалах сан дахь өгөгдөлд хандах хандалтыг хялбарчлахын тулд HBase мэдээллийн сан болон SQL-тэй төстэй Pig хэлийг боловсруулсан бөгөөд энэ нь MapReduce-д зориулсан SQL-ийн нэг төрөл бөгөөд асуултуудыг хэд хэдэн Hadoop платформоор зэрэгцүүлэн боловсруулж болно. Төсөл бүрэн тогтвортой, үйлдвэрийн үйл ажиллагаанд бэлэн гэж үнэлэгдсэн. Hadoop нь томоохон аж үйлдвэрийн төслүүдэд идэвхтэй ашиглагддаг бөгөөд Google Bigtable/GFS/MapReduce платформтой төстэй чадавхийг хангадаг бол Google албан ёсоор төлөөлсөн Hadoop болон бусад Apache төслүүд нь MapReduce аргатай холбоотой патентад хамрагдсан технологийг ашиглах эрхтэй.

Hadoop нь хийсэн өөрчлөлтийн тоогоор Apache репозиторуудын дунд нэгдүгээрт, кодын сангийн хэмжээгээр (4 сая орчим мөр кодын) тавдугаарт ордог. Hadoop-ийн томоохон хэрэгжүүлэлтүүдэд Netflix (өдөрт 500 тэрбум гаруй үйл явдал хадгалагддаг), Twitter (10 мянган зангилаанаас бүрдсэн кластер нь бодит цаг хугацаанд нэг зеттабайтаас илүү өгөгдлийг хадгалж, өдөрт 5 тэрбум гаруй сесс боловсруулдаг), Facebook (кластер) орно. 4 мянган зангилаа нь 300 гаруй петабайтыг хадгалдаг бөгөөд өдөр бүр 4 PB-ээр нэмэгдэж байна).

Үндсэн өөрчлөлт Apache Hadoop 3.3 дээр:

  • ARM архитектур дээр суурилсан платформуудын дэмжлэгийг нэмсэн.
  • Форматыг хэрэгжүүлэх Протобуф (Протоколын буфер) бүтэцлэгдсэн өгөгдлийг цуваа болгоход ашигладаг бөгөөд protobuf-3.7.1 салбарын амьдралын мөчлөг дууссантай холбогдуулан 2.5.0 хувилбар болгон шинэчлэгдсэн.
  • S3A холбогчийн боломжууд өргөжсөн: жетон ашиглан баталгаажуулах дэмжлэг нэмэгдсэн (Төлөөлөгчдийн тэмдэг), 404 кодтой хариултуудыг кэшлэх дэмжлэг сайжирч, S3guard гүйцэтгэл нэмэгдэж, үйл ажиллагааны найдвартай байдал нэмэгдсэн.
  • ABFS файлын системд автомат тааруулахтай холбоотой асуудлууд шийдэгдсэн.
  • COS объектын санах ойд хандахын тулд Tencent Cloud COS файлын системийн эх дэмжлэгийг нэмсэн.
  • Java 11-д бүрэн дэмжлэг нэмсэн.
  • HDFS RBF (Router-based Federation)-ийн хэрэгжилт тогтворжсон. HDFS Router дээр аюулгүй байдлын хяналтыг нэмсэн.
  • Үйлчлүүлэгчид DNS-ээр дамжуулан серверүүдийг хостын нэрээр тодорхойлох DNS Resolution үйлчилгээг нэмсэн нь тохиргоонд бүх хостуудыг жагсаахгүйгээр хийх боломжийг танд олгоно.
  • Эхлэх хуваарийн дэмжлэгийг нэмсэн оппортунист савнууд төвлөрсөн нөөцийн менежерээр дамжуулан (ResourceManager), үүнд зангилаа бүрийн ачааллыг харгалзан савыг хуваарилах боломжтой.
  • Хайлт хийх боломжтой YARN (Yet Another Resource Negotiator) програмын лавлахыг нэмсэн.

Эх сурвалж: opennet.ru

сэтгэгдэл нэмэх