Open Data Hub төсөл нь Red Hat OpenShift дээр суурилсан нээлттэй машин сургалтын платформ юм

Ирээдүй ирж, хиймэл оюун ухаан, машин сургалтын технологийг таны дуртай дэлгүүр, тээврийн компаниуд, тэр ч байтугай цацагт хяруулын фермүүд аль хэдийн амжилттай ашиглаж байна.

Open Data Hub төсөл нь Red Hat OpenShift дээр суурилсан нээлттэй машин сургалтын платформ юм

Хэрэв ямар нэг зүйл байгаа бол Интернетэд энэ талаар аль хэдийн ямар нэг зүйл байна ... нээлттэй төсөл! Open Data Hub нь танд шинэ технологиудыг өргөжүүлэх, хэрэгжүүлэх бэрхшээлээс зайлсхийхэд хэрхэн тусалдаг болохыг хараарай.

Хиймэл оюун ухаан (AI) болон машин сургалтын (ML) бүх давуу талуудтай тул байгууллагууд эдгээр технологийг өргөжүүлэхэд бэрхшээлтэй байдаг. Энэ тохиолдолд гол бэрхшээлүүд нь ихэвчлэн дараах байдалтай байна.

  • Мэдээлэл солилцох, хамтран ажиллах - Хурдан давталттайгаар мэдээлэл солилцох, хамтран ажиллах нь бараг боломжгүй юм.
  • Өгөгдлийн хандалт - Даалгавар бүрийн хувьд үүнийг шинээр, гараар бүтээх шаардлагатай бөгөөд энэ нь маш их цаг хугацаа шаарддаг.
  • Хүсэлтийн дагуу нэвтрэх – машин сургалтын хэрэгсэл, платформ, түүнчлэн тооцоолох дэд бүтцэд хүсэлтээр хандах ямар ч арга байхгүй.
  • Үйлдвэрлэл - Загварууд нь прототипийн шатандаа үлдсэн бөгөөд үйлдвэрлэлийн хэрэглээнд оруулаагүй болно.
  • AI үр дүнг хянаж, тайлбарла – AI/ML үр дүнг давтах, хянах, тайлбарлахад хэцүү байдаг.

Эдгээр асуудлуудыг шийдвэрлэхгүй орхивол үнэ цэнэтэй өгөгдөл судлаачдын хурд, үр ашиг, бүтээмжид сөргөөр нөлөөлдөг. Энэ нь тэдний ажилдаа урам хугарах, урам хугарах, үүний үр дүнд AI/ML-тэй холбоотой бизнесийн хүлээлт дэмий үрэгдэхэд хүргэдэг.

Эдгээр асуудлыг шийдвэрлэх үүрэг нь мэдээллийн технологийн мэргэжилтнүүдэд ногддог бөгөөд тэд өгөгдлийн шинжээчдэд үүл шиг зүйлийг өгөх ёстой. Дэлгэрэнгүй, бидэнд сонголт хийх эрх чөлөөг өгдөг, хялбар, хялбар нэвтрэх боломжтой платформ хэрэгтэй. Үүний зэрэгцээ, энэ нь хурдан, амархан дахин тохируулах боломжтой, эрэлт хэрэгцээний дагуу өргөтгөх боломжтой, эвдрэлд тэсвэртэй. Нээлттэй эхийн технологи дээр ийм платформыг бий болгох нь борлуулагчдыг түгжихээс зайлсхийж, зардлын хяналтын хувьд урт хугацааны стратегийн давуу талыг хадгалахад тусалдаг.

Хэдэн жилийн өмнө үүнтэй төстэй зүйл хэрэглүүр хөгжүүлэлтэд тохиолдож байсан нь микро үйлчилгээ, эрлийз үүл, мэдээллийн технологийн автоматжуулалт, уян хатан процессууд бий болоход хүргэсэн. Энэ бүхнийг даван туулахын тулд МТ-ийн мэргэжилтнүүд контейнер, Кубернетес, задгай эрлийз үүл рүү хандсан.

Энэ туршлагыг одоо Алийн сорилтод хариулахад ашиглаж байна. Тийм ч учраас мэдээллийн технологийн мэргэжилтнүүд чингэлэгт суурилсан, AI/ML үйлчилгээг түргэн шуурхай үйл явцын хүрээнд бий болгох, инновацийг хурдасгах, эрлийз үүл рүү чиглэсэн платформуудыг бүтээж байна.

Open Data Hub төсөл нь Red Hat OpenShift дээр суурилсан нээлттэй машин сургалтын платформ юм

Бид ийм платформыг Red Hat OpenShift буюу эрлийз үүлэнд зориулсан Кубернетес платформоор бүтээж эхлэх бөгөөд энэ нь програм хангамж, техник хангамжийн ML шийдлүүдийн (NVIDIA, H2O.ai, Starburst, PerceptiLabs гэх мэт) хурдацтай хөгжиж буй экосистемтэй. Red Hat-ийн зарим хэрэглэгчид, тухайлбал BMW Group, ExxonMobil болон бусад компаниуд ML архитектураа үйлдвэрлэлд нэвтрүүлэх, өгөгдлийн шинжээчдийн ажлыг хурдасгахын тулд платформ болон түүний экосистем дээр чингэлэгжүүлсэн ML хэрэгслийн гинж болон DevOps процессуудыг аль хэдийн суулгасан байна.

Бидний Open Data Hub төслийг эхлүүлсэн бас нэг шалтгаан нь хэд хэдэн нээлттэй эхийн програм хангамжийн төсөл дээр суурилсан архитектурын жишээг үзүүлэх, OpenShift платформ дээр суурилсан ML шийдлийн амьдралын мөчлөгийг бүхэлд нь хэрхэн хэрэгжүүлэхийг харуулах явдал юм.

Нээлттэй мэдээллийн төв төсөл

Энэ нь холбогдох хөгжүүлэлтийн нийгэмлэгийн хүрээнд боловсруулагдсан нээлттэй эхийн төсөл бөгөөд OpenShift дээрх контейнер болон Кубернетес ашиглан AI / ML-ийн асуудлыг шийдвэрлэхэд анхны өгөгдлийг ачаалах, хувиргах, загвар үүсгэх, сургах, хадгалах хүртэлх үйл ажиллагааны бүрэн мөчлөгийг хэрэгжүүлдэг. платформ. Энэ төслийг OpenShift болон Tensorflow, JupyterHub, Spark болон бусад нээлттэй эхийн хэрэгслүүд дээр суурилсан нээлттэй AI/ML-үйлчилгээний шийдлийг хэрхэн бүтээх жишээ болох жишиг хэрэгжүүлэлт гэж үзэж болно. Red Hat өөрөө энэ төслийг AI/ML үйлчилгээгээ үзүүлэхийн тулд ашигладаг гэдгийг анхаарах нь чухал. Нэмж дурдахад, OpenShift нь NVIDIA, Seldon, Starbust болон бусад үйлдвэрлэгчдийн үндсэн програм хангамж, техник хангамжийн ML шийдлүүдтэй нэгдэж, өөрийн машин сургалтын системийг бий болгож, ажиллуулахад хялбар болгодог.

Open Data Hub төсөл нь Red Hat OpenShift дээр суурилсан нээлттэй машин сургалтын платформ юм

Нээлттэй мэдээллийн төв төсөл нь дараах хэрэглэгчид болон хэрэглээний тохиолдлуудад чиглэсэн болно.

  • Өөртөө үйлчлэх функц бүхий үүл шиг зохион байгуулалттай, ML төслүүдийг хэрэгжүүлэх шийдэл хэрэгтэй мэдээллийн шинжээч.
  • Хамгийн сүүлийн үеийн нээлттэй эхийн AI/ML хэрэгсэл, платформуудаас хамгийн их сонголт хийх шаардлагатай мэдээллийн шинжээч.
  • Загваруудыг сургахдаа мэдээллийн эх сурвалжид хандах шаардлагатай мэдээллийн шинжээч.
  • Тооцооллын нөөцөд (CPU, GPU, санах ой) хандах шаардлагатай мэдээллийн шинжээч.
  • Хамтран ажиллагсадтайгаа хамтран ажиллах, ажлаа хуваалцах, санал хүсэлт хүлээн авах, хурдан давталтыг сайжруулах чадварыг шаарддаг өгөгдлийн шинжээч.
  • Түүний ML загвар болон ажлын үр дүнг үйлдвэрлэлд нэвтрүүлэхийн тулд хөгжүүлэгчидтэй (мөн багийг хөгжүүлдэг) харилцахыг хүсдэг өгөгдлийн шинжээч.
  • Зохицуулалт, аюулгүй байдлын шаардлагыг дагаж мөрдөхийн зэрэгцээ олон төрлийн мэдээллийн эх сурвалжид хандах боломжийг мэдээллийн шинжээчээр хангах шаардлагатай мэдээллийн инженер.
  • Нээлттэй эхийн бүрэлдэхүүн хэсгүүд болон технологийн амьдралын мөчлөгийг (суулгах, тохируулах, шинэчлэх) хялбар удирдах чадварыг шаарддаг МТ системийн администратор/оператор. Мөн бидэнд зохих менежмент, квотын хэрэгсэл хэрэгтэй.

Open Data Hub төсөл нь AI/ML үйлдлийн бүрэн мөчлөгийг хэрэгжүүлэх олон төрлийн нээлттэй эхийн хэрэгслүүдийг нэгтгэдэг. Jupyter Notebook-ийг энд өгөгдлийн аналитикийн үндсэн ажлын хэрэгсэл болгон ашигладаг. Энэхүү хэрэгсэл нь өнөөдөр өгөгдөл судлаачдын дунд өргөн тархсан бөгөөд Open Data Hub нь JupyterHub-ийг ашиглан Jupyter Notebook-ийн ажлын талбаруудыг хялбархан үүсгэж, удирдах боломжийг олгодог. Open Data Hub төсөл нь Jupyter нөүтбүүк бүтээх, импортлохоос гадна хиймэл оюун ухааны номын сан хэлбэрээр хэд хэдэн бэлэн дэвтэр агуулсан.

Энэхүү номын сан нь хурдан загварчлалыг хялбарчлах нийтлэг хувилбаруудад зориулсан нээлттэй эхийн машин сургалтын бүрэлдэхүүн хэсгүүд болон шийдлүүдийн цуглуулга юм. JupyterHub нь OpenShift-ийн RBAC хандалтын загвартай нэгтгэгдсэн бөгөөд энэ нь танд одоо байгаа OpenShift акаунтуудыг ашиглах, дангаар нэвтрэх боломжийг олгодог. Нэмж дурдахад, JupyterHub нь spawner хэмээх хэрэглэгчдэд ээлтэй интерфейсийг санал болгодог бөгөөд үүгээрээ хэрэглэгч сонгосон Jupyter Notebook-ийн тооцоолох нөөцийн хэмжээг (CPU цөм, санах ой, GPU) хялбархан тохируулах боломжтой.

Өгөгдлийн шинжээч зөөврийн компьютерийг үүсгэж, тохируулсны дараа түүнтэй холбоотой бусад бүх асуудлыг OpenShift-ийн нэг хэсэг болох Kubernetes төлөвлөгч хариуцдаг. Хэрэглэгчид зөвхөн туршилтаа хийж, ажлынхаа үр дүнг хадгалах, хуваалцах боломжтой. Нэмж дурдахад, дэвшилтэт хэрэглэгчид Job эсвэл Tekton эсвэл Knative зэрэг OpenShift функц зэрэг Kubernetes командуудыг ашиглахын тулд Jupyter нөүтбүүкээс OpenShift CLI бүрхүүлд шууд хандах боломжтой. Эсвэл үүний тулд та OpenShift-ийн тохиромжтой GUI-г ашиглаж болно, үүнийг "OpenShift вэб консол" гэж нэрлэдэг.

Open Data Hub төсөл нь Red Hat OpenShift дээр суурилсан нээлттэй машин сургалтын платформ юм

Open Data Hub төсөл нь Red Hat OpenShift дээр суурилсан нээлттэй машин сургалтын платформ юм

Дараагийн шат руу шилжихэд Open Data Hub нь өгөгдлийн дамжуулах хоолойг удирдах боломжтой болгодог. Үүний тулд Ceph объектыг ашигладаг бөгөөд энэ нь S3-тэй нийцтэй объектын мэдээллийн сан болгон хангагдсан байдаг. Apache Spark нь танд гадны эх сурвалж эсвэл суулгасан Ceph S3 сангаас өгөгдлийг дамжуулах боломжийг олгохоос гадна өгөгдлийн урьдчилсан хувиргалтыг хийх боломжийг танд олгоно. Apache Kafka нь өгөгдлийн дамжуулах хоолойн дэвшилтэт удирдлагаар хангадаг (өгөгдлийг олон удаа ачаалах боломжтой, мөн өгөгдлийг хувиргах, дүн шинжилгээ хийх, тогтвортой байлгах үйлдлүүд).

Тиймээс, өгөгдлийн шинжээч өгөгдөлд нэвтэрч, загварыг бий болгосон. Одоо тэрээр олж авсан үр дүнг хамтран ажиллагсад эсвэл програм хөгжүүлэгчидтэй хуваалцаж, үйлчилгээний зарчмын дагуу загвараа өгөхийг хүсч байна. Энэ нь дүгнэлтийн сервер шаарддаг бөгөөд Open Data Hub нь ийм сервертэй бөгөөд үүнийг Seldon гэж нэрлэдэг бөгөөд загварыг RESTful үйлчилгээ болгон нийтлэх боломжийг олгодог.

Хэзээ нэгэн цагт Seldon сервер дээр хэд хэдэн ийм загварууд байдаг бөгөөд тэдгээрийг хэрхэн ашиглаж байгааг хянах шаардлагатай байдаг. Үүнд хүрэхийн тулд Open Data Hub нь Prometheus болон Grafana зэрэг өргөн хэрэглэгддэг нээлттэй эхийн хяналтын хэрэгсэлд суурилсан холбогдох хэмжүүрүүдийн цуглуулга болон тайлагнах системийг санал болгодог. Үүний үр дүнд бид хиймэл оюун ухааны загваруудын хэрэглээ, ялангуяа үйлдвэрлэлийн орчинд хяналт тавих санал хүсэлтийг хүлээн авдаг.

Open Data Hub төсөл нь Red Hat OpenShift дээр суурилсан нээлттэй машин сургалтын платформ юм

Ийм байдлаар Open Data Hub нь өгөгдөлд нэвтрэх, бэлтгэхээс эхлээд загвар сургалт, үйлдвэрлэл хүртэлх AI/ML амьдралын мөчлөгийн туршид үүлэн адил хандлагыг хангадаг.

Бүгдийг нь нийлүүлж байна

Одоо OpenShift администраторт энэ бүхнийг хэрхэн зохион байгуулах вэ гэсэн асуулт гарч ирнэ. Эндээс Open Data Hub төслүүдэд зориулсан тусгай Kubernetes оператор ажиллаж байна.

Open Data Hub төсөл нь Red Hat OpenShift дээр суурилсан нээлттэй машин сургалтын платформ юм

Энэ оператор нь дээр дурдсан JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus, Grafana зэрэг хэрэгслүүдийг байршуулах зэрэг Open Data Hub төслийн суурилуулалт, тохиргоо, амьдралын мөчлөгийг удирддаг. Open Data Hub төслийг OpenShift вэб консолоос олон нийтийн операторууд хэсгээс олж болно. Тиймээс OpenShift администратор нь харгалзах OpenShift төслүүдийг "Open Data Hub төсөл" гэж ангилж болно. Үүнийг нэг удаа хийдэг. Үүний дараа өгөгдлийн шинжээч OpenShift вэб консолоор дамжуулан төслийнхөө орон зайд нэвтэрч, холбогдох Kubernetes оператор суулгаж, түүний төслүүдэд ашиглах боломжтой байгааг хардаг. Дараа нь тэрээр нэг товшилтоор Open Data Hub төслийн жишээг үүсгэж, дээр дурдсан хэрэгслүүдэд шууд хандах боломжтой болно. Мөн энэ бүгдийг өндөр хүртээмжтэй, алдааг тэсвэрлэх горимд тохируулж болно.

Open Data Hub төсөл нь Red Hat OpenShift дээр суурилсан нээлттэй машин сургалтын платформ юм

Хэрэв та Open Data Hub төслийг өөрөө туршиж үзэхийг хүсвэл дараахаас эхэл суулгах заавар, танилцуулах заавар. Нээлттэй мэдээллийн төвийн архитектурын техникийн дэлгэрэнгүй мэдээллийг олж болно энд, төслийн хөгжлийн төлөвлөгөө - энд. Цаашид бид Kubeflow-тай нэмэлт интеграцчлалыг хэрэгжүүлэх, өгөгдлийн зохицуулалт, аюулгүй байдлын хэд хэдэн асуудлыг шийдвэрлэх, мөн дүрэмд суурилсан Drools болон Optaplanner системүүдтэй нэгтгэх ажлыг зохион байгуулахаар төлөвлөж байна. Санал бодлоо илэрхийлж, төслийн оролцогч болоорой Мэдээллийн төвийг нээх хуудсан дээр боломжтой нийгэмлэг.

Дахин сануулахад: Өргөтгөсөн томоохон сорилтууд нь байгууллагууд хиймэл оюун ухаан, машин сургалтын чадавхийг бүрэн ашиглахад саад болж байна. Red Hat OpenShift программ хангамжийн салбарт ижил төстэй асуудлуудыг шийдвэрлэхэд удаан хугацаанд амжилттай ашиглагдаж ирсэн. Нээлттэй эхийн хөгжүүлэлтийн нийгэмлэгийн хүрээнд хэрэгжиж буй Open Data Hub төсөл нь OpenShift эрлийз үүлэн дээр суурилсан AI/ML үйлдлийн бүрэн мөчлөгийг зохион байгуулах лавлах архитектурыг санал болгодог. Бид энэ төслийг хөгжүүлэх тодорхой бөгөөд сайтар бодож боловсруулсан төлөвлөгөөтэй байгаа бөгөөд бид OpenShift платформ дээр нээлттэй хиймэл оюун ухааны шийдлүүдийг хөгжүүлэх идэвхтэй, үр бүтээлтэй нийгэмлэгийг бий болгоход нухацтай хандаж байна.

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх