дагуу тархсан тооцоолол, том өгөгдлийн зах зээл
Бидэнд яагаад энгийн бизнест хуваарилагдсан тооцоолол хэрэгтэй байна вэ? Бүх зүйл нэгэн зэрэг энгийн бөгөөд төвөгтэй байдаг. Энгийн - учир нь ихэнх тохиолдолд бид мэдээллийн нэгжид харьцангуй энгийн тооцоолол хийдэг. Хэцүү - ийм мэдээлэл маш их байдаг тул. Маш олон. Үүний үр дүнд үүнийг хийх ёстой
Саяхны нэг жишээ: Додо пицца
Өөр нэг жишээ:
Хэрэгслийн сонголт
Энэ төрлийн тооцооллын салбарын стандарт нь Hadoop юм. Яагаад? Учир нь Hadoop бол маш сайн, сайн баримтжуулсан бүтэц юм (ижил Хабр энэ сэдвээр олон дэлгэрэнгүй нийтлэл өгдөг), бүхэл бүтэн хэрэгсэл, номын сангууд дагалддаг. Та бүтэцлэгдсэн болон бүтэцгүй өгөгдлийн асар том багцыг оролт болгон оруулах боломжтой бөгөөд систем өөрөө тэдгээрийг тооцоолох хүчин чадал хооронд хуваарилах болно. Түүгээр ч зогсохгүй эдгээр хүчин чадлыг хүссэн үедээ нэмэгдүүлэх эсвэл идэвхгүй болгох боломжтой - яг ижил хэвтээ өргөтгөх чадвар.
2017 онд нөлөө бүхий зөвлөх компани Gartner
Hadoop нь хэд хэдэн тулгуур дээр тулгуурладаг бөгөөд тэдгээрийн хамгийн алдартай нь MapReduce технологи (серверүүдийн хооронд тооцоолол хийх өгөгдөл түгээх систем) болон HDFS файлын систем юм. Сүүлийнх нь кластерийн зангилааны хооронд тархсан мэдээллийг хадгалахад зориулагдсан: тогтмол хэмжээтэй блок бүрийг хэд хэдэн зангилаа дээр байрлуулж болох бөгөөд хуулбарлахын ачаар систем нь бие даасан зангилааны эвдрэлд тэсвэртэй байдаг. Файлын хүснэгтийн оронд NameNode нэртэй тусгай серверийг ашигладаг.
Доорх зураг нь MapReduce хэрхэн ажилладагийг харуулж байна. Эхний шатанд өгөгдлийг тодорхой шинж чанарын дагуу хуваадаг, хоёр дахь шатанд тооцоолох хүчин чадлаар хуваарилдаг, гурав дахь шатанд тооцооллыг хийдэг.
MapReduce-ийг анх Google хайлтын хэрэгцээнд зориулан бүтээсэн. Дараа нь MapReduce үнэгүй код руу орж, Apache төслийг хүлээн авсан. Google аажмаар бусад шийдлүүд рүү шилжсэн. Сонирхолтой нюанс: Одоогийн байдлаар Google-д Hadoop-ийн дараа дараагийн алхам болох Google Cloud Dataflow нэртэй төсөл бий.
Нарийвчилсан харвал Google Cloud Dataflow нь Apache Beam-ийн хувилбар дээр суурилдаг бол Apache Beam нь сайн баримтжуулсан Apache Spark хүрээг агуулдаг бөгөөд энэ нь шийдлийн гүйцэтгэлийн бараг ижил хурдны талаар ярих боломжийг бидэнд олгодог. Apache Spark нь HDFS файлын систем дээр сайн ажилладаг бөгөөд үүнийг Hadoop сервер дээр байрлуулах боломжийг олгодог.
Google Cloud Dataflow-ийн эсрэг Hadoop болон Spark-д зориулсан баримт бичгийн хэмжээ, бэлэн шийдлүүдийг энд нэмснээр хэрэглүүрийн сонголт тодорхой болно. Түүгээр ч зогсохгүй инженерүүд Hadoop эсвэл Spark дор аль кодыг гүйцэтгэхийг өөрсдөө шийдэж, даалгавар, туршлага, ур чадварт анхаарлаа хандуулдаг.
Клоуд эсвэл локал сервер
Үүлэнд ерөнхий шилжих хандлага нь Hadoop-as-a-service гэх мэт сонирхолтой нэр томъёог бий болгосон. Ийм нөхцөлд холбогдсон серверүүдийн удирдлага маш чухал болсон. Харамсалтай нь, нэр хүндтэй хэдий ч цэвэр Hadoop нь гараар маш их зүйлийг хийх шаардлагатай тул тохируулахад нэлээд хэцүү хэрэгсэл юм. Жишээлбэл, та серверүүдийг тус тусад нь тохируулах, гүйцэтгэлийг хянах, олон параметрүүдийг нарийн тохируулах боломжтой. Ерөнхийдөө сонирхогчийн төлөө ажиллавал хаа нэгтээ төөрөлдүүлэх эсвэл ямар нэг зүйлийг алдах магадлал өндөр байдаг.
Тиймээс янз бүрийн түгээлтүүд маш их алдартай болсон бөгөөд тэдгээр нь эхлээд тохиромжтой байрлуулах, удирдах хэрэгслээр тоноглогдсон байдаг. Spark-ийг дэмждэг, ажлыг хөнгөвчлөх хамгийн алдартай түгээлтийн нэг бол Cloudera юм. Энэ нь төлбөртэй болон үнэ төлбөргүй хувилбаруудтай бөгөөд сүүлийнх нь бүх үндсэн функцийг ашиглах боломжтой бөгөөд зангилааны тоог хязгаарлахгүй.
Тохируулах явцад Cloudera Manager нь SSH-ээр дамжуулан таны серверүүдтэй холбогдоно. Сонирхолтой зүйл: Суулгахдаа үүнийг гэгддэг зүйлээр гүйцэтгэхийг зааж өгөх нь дээр илгээмж: Тус бүрдээ бие биетэйгээ ажиллахаар тохируулсан шаардлагатай бүх бүрэлдэхүүн хэсгүүдийг агуулсан тусгай багцууд. Үнэн хэрэгтээ энэ бол багц менежерийн ийм сайжруулсан хувилбар юм.
Суулгасны дараа бид кластерын удирдлагын консолыг авах бөгөөд эндээс та кластер, суулгасан үйлчилгээнүүдийн телеметрийг харж, нөөц нэмэх / устгах, кластерийн тохиргоог засах боломжтой.
Үүний үр дүнд тэр пуужингийн зүсэлт таны өмнө гарч ирэх бөгөөд энэ нь таныг BigData-ийн гэрэлт ирээдүй рүү хөтлөх болно. Гэхдээ "явцгаая" гэж хэлэхээсээ өмнө юүдэн дор хурдан урагшилцгаая.
техник хангамжийн шаардлага
Тэдний вэбсайт дээр Cloudera өөр өөр боломжит тохиргоонуудыг дурдсан байдаг. Тэдгээрийг барьж байгуулах ерөнхий зарчмуудыг зурагт үзүүлэв.
MapReduce нь энэ өөдрөг зургийг бүдгэрүүлж чадна. Өмнөх хэсгийн диаграммыг дахин харвал MapReduce-ийн ажил бараг бүх тохиолдолд диск эсвэл сүлжээнээс өгөгдлийг уншихад хүндрэл учруулж болзошгүй нь тодорхой болсон. Үүнийг Cloudera блог дээр бас тэмдэглэсэн болно. Үүний үр дүнд аливаа хурдан тооцоололд, тэр дундаа бодит цагийн тооцоололд ихэвчлэн ашиглагддаг Spark-ээр дамжуулан оролт / гаралтын хурд маш чухал юм. Тиймээс, Hadoop-ийг ашиглахдаа тэнцвэртэй, хурдан машинууд кластерт орох нь маш чухал бөгөөд үүнийг зөөлөн хэлэхэд үүлэн дэд бүтцэд үргэлж байдаггүй.
Хүчирхэг олон цөмт CPU бүхий серверүүд дээр Openstack виртуалчлалыг ашигласнаар ачааллын хуваарилалтын тэнцвэрт байдалд хүрдэг. Өгөгдлийн зангилаанууд нь өөрийн процессорын нөөц болон тодорхой дискүүдийг хуваарилдаг. Бидний шийдэлд Atos Codex Data Lake хөдөлгүүр өргөн виртуалчлалд хүрсэн тул бид гүйцэтгэлийн хувьд (сүлжээний дэд бүтцийн нөлөөллийг багасгасан) болон TCO (нэмэлт физик серверүүдийг устгасан) хоёуланг нь ялдаг.
BullSequana S200 серверийг ашиглах тохиолдолд бид зарим нэг саад бэрхшээлгүй, маш жигд ачаалал авдаг. Хамгийн бага тохиргоонд тус бүр нь хоёр JBOD-тай 3 BullSequana S200 сервер, мөн дөрвөн өгөгдлийн зангилаа агуулсан нэмэлт S200-г заавал холбох боломжтой. TeraGen тестийн ачааллын жишээ энд байна:
Өөр өөр өгөгдлийн эзэлхүүнтэй туршилтууд болон хуулбарлах утгууд нь кластерийн зангилааны ачааллын хуваарилалтын хувьд ижил үр дүнг харуулдаг. Гүйцэтгэлийн туршилтаар дискний хандалтын хуваарилалтын графикийг доор харуулав.
Тооцоолол нь хамгийн багадаа 3 BullSequana S200 серверийн тохиргоонд суурилдаг. Үүнд 9 өгөгдлийн зангилаа, 3 мастер зангилаа, мөн OpenStack Виртуалчлал дээр суурилсан хамгаалалтыг ашиглах тохиолдолд нөөцлөгдсөн виртуал машинууд орно. TeraSort тестийн үр дүн: Шифрлэлттэй гурав дахин хуулбарлах хүчин зүйлийн 512 MB блокийн хэмжээ 23,1 минут байна.
Системийг хэрхэн өргөжүүлэх вэ? Data Lake Engine-д янз бүрийн төрлийн өргөтгөлүүдийг ашиглах боломжтой:
- Өгөгдлийн зангилаа: ашиглах боломжтой зайны 40 ТБ тутамд
- GPU суулгах чадвартай аналитик зангилаа
- Бизнесийн хэрэгцээ шаардлагаас хамааран бусад сонголтууд (жишээлбэл, танд Кафка гэх мэт хэрэгтэй бол)
Atos Codex Data Lake Engine цогцолбор нь серверүүд болон урьдчилан суулгасан програм хангамж, түүний дотор лицензтэй Cloudera иж бүрдэл; Hadoop өөрөө, RedHat Enterprise Linux цөм дээр суурилсан виртуал машинтай OpenStack, өгөгдлийг хуулбарлах, нөөцлөх системүүд (үүнд нөөц зангилаа болон Cloudera BDR - Нөөцлөх ба гамшгийн үед сэргээх). Atos Codex Data Lake Engine нь баталгаажуулсан анхны виртуалчлалын шийдэл юм
Хэрэв та нарийвчилсан мэдээллийг сонирхож байгаа бол бид сэтгэгдэл дээр бидний асуултанд хариулахдаа баяртай байх болно.
Эх сурвалж: www.habr.com