Cloudera-ийн онцлог юу вэ, хэрхэн хоол хийх талаар

дагуу тархсан тооцоолол, том өгөгдлийн зах зээл статистик, жилд 18-19%-иар өсч байна. Энэ нь эдгээр зорилгоор програм хангамжийг сонгох асуудал хамааралтай хэвээр байна гэсэн үг юм. Энэ нийтлэлд бид яагаад хуваарилагдсан тооцоолол хэрэгтэйг эхэлж, програм хангамжийн сонголтын талаар илүү дэлгэрэнгүй ярих болно, бид Hadoop-ийг Cloudera-тай ашиглах талаар ярилцах болно, эцэст нь бид техник хангамжийн сонголт, гүйцэтгэлд хэрхэн нөлөөлдөг талаар ярих болно. янз бүрийн аргаар.

Cloudera-ийн онцлог юу вэ, хэрхэн хоол хийх талаар
Бидэнд яагаад энгийн бизнест хуваарилагдсан тооцоолол хэрэгтэй байна вэ? Бүх зүйл нэгэн зэрэг энгийн бөгөөд төвөгтэй байдаг. Энгийн - учир нь ихэнх тохиолдолд бид мэдээллийн нэгжид харьцангуй энгийн тооцоолол хийдэг. Хэцүү - ийм мэдээлэл маш их байдаг тул. Маш олон. Үүний үр дүнд үүнийг хийх ёстой 1000 хэлхээнд терабайт өгөгдлийг боловсруулах. Тиймээс хэрэглээний тохиолдлууд нь нэлээд түгээмэл байдаг: илүү том өгөгдлийн массив дээр олон тооны хэмжигдэхүүнийг харгалзан үзэх шаардлагатай бүх газарт тооцооллыг хийж болно.

Саяхны нэг жишээ: Додо пицца тодорхойлсон Хэрэглэгчийн захиалгын баазын дүн шинжилгээнд үндэслэн дурын амтлагчтай пицца сонгохдоо хэрэглэгчид ихэвчлэн зургаан үндсэн орц, дээр нь хэд хэдэн санамсаргүй найрлагатай байдаг. Үүний дагуу пиццаны худалдан авалтыг тохируулсан. Нэмж дурдахад захиалгын шатанд санал болгож буй нэмэлт бүтээгдэхүүнийг хэрэглэгчдэд илүү сайн санал болгож чадсан нь ашгийг нэмэгдүүлсэн.

Өөр нэг жишээ: шинжилгээ хийх Бараа бүтээгдэхүүн нь H&M-д борлуулалтын түвшинг хадгалахын зэрэгцээ тусдаа дэлгүүрийн нэр төрлийг 40% бууруулах боломжийг олгосон. Энэ нь борлуулалт муутай байр суурийг хасч, улирлын шинж чанарыг харгалзан үзсэн.

Хэрэгслийн сонголт

Энэ төрлийн тооцооллын салбарын стандарт нь Hadoop юм. Яагаад? Учир нь Hadoop бол маш сайн, сайн баримтжуулсан бүтэц юм (ижил Хабр энэ сэдвээр олон дэлгэрэнгүй нийтлэл өгдөг), бүхэл бүтэн хэрэгсэл, номын сангууд дагалддаг. Та бүтэцлэгдсэн болон бүтэцгүй өгөгдлийн асар том багцыг оролт болгон оруулах боломжтой бөгөөд систем өөрөө тэдгээрийг тооцоолох хүчин чадал хооронд хуваарилах болно. Түүгээр ч зогсохгүй эдгээр хүчин чадлыг хүссэн үедээ нэмэгдүүлэх эсвэл идэвхгүй болгох боломжтой - яг ижил хэвтээ өргөтгөх чадвар.

2017 онд нөлөө бүхий зөвлөх компани Gartner дүгнэвHadoop удахгүй хуучирна. Шалтгаан нь нэлээд улиг болсон юм: шинжээчдийн үзэж байгаагаар компаниуд үүлэн систем рүү их хэмжээгээр шилжих болно, учир нь тэд тооцоолох хүчин чадал дээр үндэслэн төлбөрөө төлөх боломжтой болно. Hadoop-ыг "булшлах" чадвартай хоёр дахь чухал хүчин зүйл бол ажлын хурд юм. Учир нь Apache Spark эсвэл Google Cloud DataFlow зэрэг сонголтууд нь MapReduce-ийн үндсэн Hadoop-оос хурдан байдаг.

Hadoop нь хэд хэдэн тулгуур дээр тулгуурладаг бөгөөд тэдгээрийн хамгийн алдартай нь MapReduce технологи (серверүүдийн хооронд тооцоолол хийх өгөгдөл түгээх систем) болон HDFS файлын систем юм. Сүүлийнх нь кластерийн зангилааны хооронд тархсан мэдээллийг хадгалахад зориулагдсан: тогтмол хэмжээтэй блок бүрийг хэд хэдэн зангилаа дээр байрлуулж болох бөгөөд хуулбарлахын ачаар систем нь бие даасан зангилааны эвдрэлд тэсвэртэй байдаг. Файлын хүснэгтийн оронд NameNode нэртэй тусгай серверийг ашигладаг.

Доорх зураг нь MapReduce хэрхэн ажилладагийг харуулж байна. Эхний шатанд өгөгдлийг тодорхой шинж чанарын дагуу хуваадаг, хоёр дахь шатанд тооцоолох хүчин чадлаар хуваарилдаг, гурав дахь шатанд тооцооллыг хийдэг.

Cloudera-ийн онцлог юу вэ, хэрхэн хоол хийх талаар
MapReduce-ийг анх Google хайлтын хэрэгцээнд зориулан бүтээсэн. Дараа нь MapReduce үнэгүй код руу орж, Apache төслийг хүлээн авсан. Google аажмаар бусад шийдлүүд рүү шилжсэн. Сонирхолтой нюанс: Одоогийн байдлаар Google-д Hadoop-ийн дараа дараагийн алхам болох Google Cloud Dataflow нэртэй төсөл бий.

Нарийвчилсан харвал Google Cloud Dataflow нь Apache Beam-ийн хувилбар дээр суурилдаг бол Apache Beam нь сайн баримтжуулсан Apache Spark хүрээг агуулдаг бөгөөд энэ нь шийдлийн гүйцэтгэлийн бараг ижил хурдны талаар ярих боломжийг бидэнд олгодог. Apache Spark нь HDFS файлын систем дээр сайн ажилладаг бөгөөд үүнийг Hadoop сервер дээр байрлуулах боломжийг олгодог.

Google Cloud Dataflow-ийн эсрэг Hadoop болон Spark-д зориулсан баримт бичгийн хэмжээ, бэлэн шийдлүүдийг энд нэмснээр хэрэглүүрийн сонголт тодорхой болно. Түүгээр ч зогсохгүй инженерүүд Hadoop эсвэл Spark дор аль кодыг гүйцэтгэхийг өөрсдөө шийдэж, даалгавар, туршлага, ур чадварт анхаарлаа хандуулдаг.

Клоуд эсвэл локал сервер

Үүлэнд ерөнхий шилжих хандлага нь Hadoop-as-a-service гэх мэт сонирхолтой нэр томъёог бий болгосон. Ийм нөхцөлд холбогдсон серверүүдийн удирдлага маш чухал болсон. Харамсалтай нь, нэр хүндтэй хэдий ч цэвэр Hadoop нь гараар маш их зүйлийг хийх шаардлагатай тул тохируулахад нэлээд хэцүү хэрэгсэл юм. Жишээлбэл, та серверүүдийг тус тусад нь тохируулах, гүйцэтгэлийг хянах, олон параметрүүдийг нарийн тохируулах боломжтой. Ерөнхийдөө сонирхогчийн төлөө ажиллавал хаа нэгтээ төөрөлдүүлэх эсвэл ямар нэг зүйлийг алдах магадлал өндөр байдаг.

Тиймээс янз бүрийн түгээлтүүд маш их алдартай болсон бөгөөд тэдгээр нь эхлээд тохиромжтой байрлуулах, удирдах хэрэгслээр тоноглогдсон байдаг. Spark-ийг дэмждэг, ажлыг хөнгөвчлөх хамгийн алдартай түгээлтийн нэг бол Cloudera юм. Энэ нь төлбөртэй болон үнэ төлбөргүй хувилбаруудтай бөгөөд сүүлийнх нь бүх үндсэн функцийг ашиглах боломжтой бөгөөд зангилааны тоог хязгаарлахгүй.

Cloudera-ийн онцлог юу вэ, хэрхэн хоол хийх талаар

Тохируулах явцад Cloudera Manager нь SSH-ээр дамжуулан таны серверүүдтэй холбогдоно. Сонирхолтой зүйл: Суулгахдаа үүнийг гэгддэг зүйлээр гүйцэтгэхийг зааж өгөх нь дээр илгээмж: Тус бүрдээ бие биетэйгээ ажиллахаар тохируулсан шаардлагатай бүх бүрэлдэхүүн хэсгүүдийг агуулсан тусгай багцууд. Үнэн хэрэгтээ энэ бол багц менежерийн ийм сайжруулсан хувилбар юм.

Суулгасны дараа бид кластерын удирдлагын консолыг авах бөгөөд эндээс та кластер, суулгасан үйлчилгээнүүдийн телеметрийг харж, нөөц нэмэх / устгах, кластерийн тохиргоог засах боломжтой.

Cloudera-ийн онцлог юу вэ, хэрхэн хоол хийх талаар

Үүний үр дүнд тэр пуужингийн зүсэлт таны өмнө гарч ирэх бөгөөд энэ нь таныг BigData-ийн гэрэлт ирээдүй рүү хөтлөх болно. Гэхдээ "явцгаая" гэж хэлэхээсээ өмнө юүдэн дор хурдан урагшилцгаая.

техник хангамжийн шаардлага

Тэдний вэбсайт дээр Cloudera өөр өөр боломжит тохиргоонуудыг дурдсан байдаг. Тэдгээрийг барьж байгуулах ерөнхий зарчмуудыг зурагт үзүүлэв.

Cloudera-ийн онцлог юу вэ, хэрхэн хоол хийх талаар
MapReduce нь энэ өөдрөг зургийг бүдгэрүүлж чадна. Өмнөх хэсгийн диаграммыг дахин харвал MapReduce-ийн ажил бараг бүх тохиолдолд диск эсвэл сүлжээнээс өгөгдлийг уншихад хүндрэл учруулж болзошгүй нь тодорхой болсон. Үүнийг Cloudera блог дээр бас тэмдэглэсэн болно. Үүний үр дүнд аливаа хурдан тооцоололд, тэр дундаа бодит цагийн тооцоололд ихэвчлэн ашиглагддаг Spark-ээр дамжуулан оролт / гаралтын хурд маш чухал юм. Тиймээс, Hadoop-ийг ашиглахдаа тэнцвэртэй, хурдан машинууд кластерт орох нь маш чухал бөгөөд үүнийг зөөлөн хэлэхэд үүлэн дэд бүтцэд үргэлж байдаггүй.

Хүчирхэг олон цөмт CPU бүхий серверүүд дээр Openstack виртуалчлалыг ашигласнаар ачааллын хуваарилалтын тэнцвэрт байдалд хүрдэг. Өгөгдлийн зангилаанууд нь өөрийн процессорын нөөц болон тодорхой дискүүдийг хуваарилдаг. Бидний шийдэлд Atos Codex Data Lake хөдөлгүүр өргөн виртуалчлалд хүрсэн тул бид гүйцэтгэлийн хувьд (сүлжээний дэд бүтцийн нөлөөллийг багасгасан) болон TCO (нэмэлт физик серверүүдийг устгасан) хоёуланг нь ялдаг.

Cloudera-ийн онцлог юу вэ, хэрхэн хоол хийх талаар
BullSequana S200 серверийг ашиглах тохиолдолд бид зарим нэг саад бэрхшээлгүй, маш жигд ачаалал авдаг. Хамгийн бага тохиргоонд тус бүр нь хоёр JBOD-тай 3 BullSequana S200 сервер, мөн дөрвөн өгөгдлийн зангилаа агуулсан нэмэлт S200-г заавал холбох боломжтой. TeraGen тестийн ачааллын жишээ энд байна:

Cloudera-ийн онцлог юу вэ, хэрхэн хоол хийх талаар

Өөр өөр өгөгдлийн эзэлхүүнтэй туршилтууд болон хуулбарлах утгууд нь кластерийн зангилааны ачааллын хуваарилалтын хувьд ижил үр дүнг харуулдаг. Гүйцэтгэлийн туршилтаар дискний хандалтын хуваарилалтын графикийг доор харуулав.

Cloudera-ийн онцлог юу вэ, хэрхэн хоол хийх талаар

Тооцоолол нь хамгийн багадаа 3 BullSequana S200 серверийн тохиргоонд суурилдаг. Үүнд 9 өгөгдлийн зангилаа, 3 мастер зангилаа, мөн OpenStack Виртуалчлал дээр суурилсан хамгаалалтыг ашиглах тохиолдолд нөөцлөгдсөн виртуал машинууд орно. TeraSort тестийн үр дүн: Шифрлэлттэй гурав дахин хуулбарлах хүчин зүйлийн 512 MB блокийн хэмжээ 23,1 минут байна.

Системийг хэрхэн өргөжүүлэх вэ? Data Lake Engine-д янз бүрийн төрлийн өргөтгөлүүдийг ашиглах боломжтой:

  • Өгөгдлийн зангилаа: ашиглах боломжтой зайны 40 ТБ тутамд
  • GPU суулгах чадвартай аналитик зангилаа
  • Бизнесийн хэрэгцээ шаардлагаас хамааран бусад сонголтууд (жишээлбэл, танд Кафка гэх мэт хэрэгтэй бол)

Cloudera-ийн онцлог юу вэ, хэрхэн хоол хийх талаар

Atos Codex Data Lake Engine цогцолбор нь серверүүд болон урьдчилан суулгасан програм хангамж, түүний дотор лицензтэй Cloudera иж бүрдэл; Hadoop өөрөө, RedHat Enterprise Linux цөм дээр суурилсан виртуал машинтай OpenStack, өгөгдлийг хуулбарлах, нөөцлөх системүүд (үүнд нөөц зангилаа болон Cloudera BDR - Нөөцлөх ба гамшгийн үед сэргээх). Atos Codex Data Lake Engine нь баталгаажуулсан анхны виртуалчлалын шийдэл юм Cloudera.

Хэрэв та нарийвчилсан мэдээллийг сонирхож байгаа бол бид сэтгэгдэл дээр бидний асуултанд хариулахдаа баяртай байх болно.

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх