Ang proyekto ng Open Data Hub ay isang open machine learning platform batay sa Red Hat OpenShift

Dumating na ang hinaharap, at ang mga teknolohiya ng artificial intelligence at machine learning ay matagumpay nang ginagamit ng iyong mga paboritong tindahan, kumpanya ng transportasyon at maging ang mga turkey farm.

Ang proyekto ng Open Data Hub ay isang open machine learning platform batay sa Red Hat OpenShift

At kung mayroong isang bagay, kung gayon mayroon nang isang bagay tungkol dito sa Internet ... isang bukas na proyekto! Tingnan kung paano ka tinutulungan ng Open Data Hub na sukatin ang mga bagong teknolohiya at maiwasan ang mga hamon sa pagpapatupad.

Sa lahat ng pakinabang ng artificial intelligence (AI) at machine learning (ML), kadalasang nahihirapan ang mga organisasyon sa pag-scale ng mga teknolohiyang ito. Ang mga pangunahing problema sa kasong ito ay karaniwang ang mga sumusunod:

  • Pagpapalitan ng impormasyon at pakikipagtulungan – halos imposibleng makipagpalitan ng impormasyon nang walang kahirap-hirap at makipagtulungan sa mabilis na pag-ulit.
  • Pag-access ng data – para sa bawat gawain kailangan itong buuin muli at manu-mano, na tumatagal ng maraming oras.
  • Access on demand – walang paraan upang makakuha ng on-demand na access sa mga tool at platform sa pag-aaral ng machine, pati na rin sa imprastraktura sa pag-compute.
  • Paggawa – ang mga modelo ay nananatili sa prototype stage at hindi dinadala sa pang-industriya na paggamit.
  • Subaybayan at ipaliwanag ang mga resulta ng AI – Ang muling paggawa, pagsubaybay at pagpapaliwanag ng mga resulta ng AI/ML ay mahirap.

Kapag hindi natugunan, ang mga problemang ito ay negatibong nakakaapekto sa bilis, kahusayan, at pagiging produktibo ng mahahalagang data scientist. Ito ay humahantong sa kanilang pagkabigo, pagkabigo sa kanilang trabaho, at bilang isang resulta, ang mga inaasahan sa negosyo tungkol sa AI/ML ay nauubos.

Ang responsibilidad para sa paglutas ng mga problemang ito ay nakasalalay sa mga espesyalista sa IT, na dapat magbigay ng mga data analyst - tama iyon, tulad ng cloud. Sa mas detalyado, kailangan namin ng platform na nagbibigay ng kalayaan sa pagpili at may maginhawa, madaling pag-access. Kasabay nito, ito ay mabilis, madaling i-reconfigure, scalable on demand at lumalaban sa mga pagkabigo. Ang pagbuo ng naturang platform sa mga open source na teknolohiya ay nakakatulong na maiwasan ang pag-lock-in ng vendor at mapanatili ang isang pangmatagalang madiskarteng kalamangan sa mga tuntunin ng kontrol sa gastos.

Ilang taon na ang nakalipas, may katulad na nangyayari sa pagbuo ng application at humantong sa paglitaw ng mga microservice, hybrid cloud, IT automation, at maliksi na proseso. Upang makayanan ang lahat ng ito, ang mga propesyonal sa IT ay bumaling sa mga lalagyan, Kubernetes at bukas na hybrid na ulap.

Ang karanasang ito ay ginagamit na ngayon para sagutin ang mga hamon ni Al. Iyon ang dahilan kung bakit ang mga propesyonal sa IT ay gumagawa ng mga platform na nakabatay sa lalagyan, nagbibigay-daan sa paglikha ng mga serbisyo ng AI/ML sa loob ng maliksi na proseso, nagpapabilis ng pagbabago, at binuo nang may mata patungo sa hybrid na ulap.

Ang proyekto ng Open Data Hub ay isang open machine learning platform batay sa Red Hat OpenShift

Magsisimula kaming bumuo ng naturang platform gamit ang Red Hat OpenShift, ang aming containerized na platform ng Kubernetes para sa hybrid cloud, na may mabilis na lumalagong ecosystem ng software at hardware na mga solusyon sa ML (NVIDIA, H2O.ai, Starburst, PerceptiLabs, atbp.). Ang ilan sa mga customer ng Red Hat, tulad ng BMW Group, ExxonMobil at iba pa, ay nag-deploy na ng mga containerized na ML toolchain at mga proseso ng DevOps sa ibabaw ng platform at sa ecosystem nito upang dalhin ang kanilang mga arkitektura ng ML sa produksyon at pabilisin ang gawain ng mga data analyst.

Ang isa pang dahilan kung bakit namin inilunsad ang proyektong Open Data Hub ay upang ipakita ang isang halimbawa ng isang arkitektura batay sa ilang open source na proyekto ng software at ipakita kung paano ipatupad ang buong cycle ng buhay ng isang solusyon sa ML batay sa OpenShift platform.

Buksan ang Data Hub Project

Ito ay isang open source na proyekto na binuo sa loob ng kaukulang development community at nagpapatupad ng buong cycle ng mga operasyon - mula sa paglo-load at pagbabago ng paunang data hanggang sa pagbuo, pagsasanay at pagpapanatili ng isang modelo - kapag nilulutas ang mga problema sa AI / ML gamit ang mga container at Kubernetes sa OpenShift platform. Ang proyektong ito ay maaaring ituring na isang reference na pagpapatupad, isang halimbawa ng kung paano bumuo ng isang bukas na AI/ML-as-a-service na solusyon batay sa OpenShift at mga kaugnay na open source na tool tulad ng Tensorflow, JupyterHub, Spark at iba pa. Mahalagang tandaan na ang Red Hat mismo ay gumagamit ng proyektong ito para ibigay ang mga serbisyong AI/ML nito. Bilang karagdagan, ang OpenShift ay sumasama sa mga pangunahing solusyon sa software at hardware na ML mula sa NVIDIA, Seldon, Starbust at iba pang mga vendor, na ginagawang mas madali ang pagbuo at pagpapatakbo ng iyong sariling mga machine learning system.

Ang proyekto ng Open Data Hub ay isang open machine learning platform batay sa Red Hat OpenShift

Ang proyekto ng Open Data Hub ay nakatuon sa mga sumusunod na kategorya ng mga user at mga kaso ng paggamit:

  • Data analyst na nangangailangan ng solusyon para sa pagpapatupad ng mga proyekto ng ML, na nakaayos tulad ng cloud na may mga self-service na function.
  • Data Analyst na nangangailangan ng maximum na pagpipilian mula sa pinakabagong open source na mga tool at platform ng AI/ML.
  • Data analyst na nangangailangan ng access sa mga data source kapag nagsasanay ng mga modelo.
  • Data analyst na nangangailangan ng access sa computing resources (CPU, GPU, memory).
  • Data Analyst na nangangailangan ng kakayahang makipagtulungan at magbahagi ng trabaho sa mga kasamahan, makatanggap ng feedback, at gumawa ng mga pagpapabuti sa mabilis na pag-ulit.
  • Isang data analyst na gustong makipag-ugnayan sa mga developer (at devops team) upang ang kanyang mga modelo sa ML at mga resulta sa trabaho ay mapunta sa produksyon.
  • Data engineer na kailangang magbigay ng access sa isang data analyst sa iba't ibang data source habang sumusunod sa mga kinakailangan sa regulasyon at seguridad.
  • IT system administrator/operator na nangangailangan ng kakayahang walang kahirap-hirap na kontrolin ang lifecycle (pag-install, pagsasaayos, pag-upgrade) ng mga open source na bahagi at teknolohiya. Kailangan din namin ng naaangkop na mga tool sa pamamahala at quota.

Pinagsasama-sama ng proyekto ng Open Data Hub ang isang hanay ng mga open source na tool upang ipatupad ang isang buong cycle ng mga pagpapatakbo ng AI/ML. Ginagamit dito ang Jupyter Notebook bilang pangunahing gumaganang tool para sa data analytics. Ang toolkit ay malawak na sikat sa mga data scientist ngayon, at ang Open Data Hub ay nagbibigay-daan sa kanila na madaling gumawa at pamahalaan ang mga workspace ng Jupyter Notebook gamit ang built-in na JupyterHub. Bilang karagdagan sa paggawa at pag-import ng mga notebook ng Jupyter, ang proyekto ng Open Data Hub ay naglalaman din ng ilang handa na mga notebook sa anyo ng isang AI Library.

Ang library na ito ay isang koleksyon ng mga open-source na bahagi ng machine learning at mga solusyon para sa mga karaniwang sitwasyon na nagpapasimple sa mabilis na prototyping. Ang JupyterHub ay isinama sa modelo ng pag-access sa RBAC ng OpenShift, na nagbibigay-daan sa iyong gumamit ng mga umiiral nang OpenShift account at magpatupad ng single sign-on. Bilang karagdagan, nag-aalok ang JupyterHub ng user-friendly na user interface na tinatawag na spawner, kung saan madaling ma-configure ng user ang dami ng mga mapagkukunan sa pag-compute (mga core ng CPU, memory, GPU) para sa napiling Jupyter Notebook.

Matapos gawin at i-configure ng data analyst ang laptop, lahat ng iba pang alalahanin tungkol dito ay inaasikaso ng scheduler ng Kubernetes, na bahagi ng OpenShift. Maaari lamang isagawa ng mga user ang kanilang mga eksperimento, i-save at ibahagi ang mga resulta ng kanilang trabaho. Bukod pa rito, maaaring direktang ma-access ng mga advanced na user ang OpenShift CLI shell nang direkta mula sa mga Jupyter notebook para magamit ang mga primitive ng Kubernetes gaya ng Job o OpenShift functionality gaya ng Tekton o Knative. O para dito maaari mong gamitin ang maginhawang GUI ng OpenShift, na tinatawag na "OpenShift web console".

Ang proyekto ng Open Data Hub ay isang open machine learning platform batay sa Red Hat OpenShift

Ang proyekto ng Open Data Hub ay isang open machine learning platform batay sa Red Hat OpenShift

Sa paglipat sa susunod na yugto, ginagawang posible ng Open Data Hub na pamahalaan ang mga pipeline ng data. Para dito, ginagamit ang isang Ceph object, na ibinibigay bilang isang S3-compatible na object data storage. Binibigyang-daan ka ng Apache Spark na mag-stream ng data mula sa mga panlabas na mapagkukunan o built-in na storage ng Ceph S3, at nagbibigay-daan din sa iyong magsagawa ng mga paunang pagbabago sa data. Nagbibigay ang Apache Kafka ng advanced na pamamahala ng mga pipeline ng data (kung saan maaaring i-load ang data nang maraming beses, pati na rin ang pagbabagong-anyo ng data, pagsusuri, at pagtitiyaga na mga operasyon).

Kaya, na-access ng data analyst ang data at bumuo ng isang modelo. Ngayon ay may pagnanais siyang ibahagi ang mga resultang nakuha sa mga kasamahan o mga developer ng application, at ibigay sa kanila ang kanyang modelo sa mga prinsipyo ng isang serbisyo. Nangangailangan ito ng inference server, at ang Open Data Hub ay may ganoong server, ito ay tinatawag na Seldon at nagbibigay-daan sa iyong i-publish ang modelo bilang isang RESTful na serbisyo.

Sa ilang mga punto, mayroong ilang mga naturang modelo sa server ng Seldon, at mayroong pangangailangan na subaybayan kung paano ginagamit ang mga ito. Upang makamit ito, nag-aalok ang Open Data Hub ng isang koleksyon ng mga nauugnay na sukatan at isang engine sa pag-uulat batay sa malawakang ginagamit na open source na mga tool sa pagsubaybay na Prometheus at Grafana. Bilang resulta, nakakatanggap kami ng feedback upang subaybayan ang paggamit ng mga modelo ng AI, partikular sa isang kapaligiran ng produksyon.

Ang proyekto ng Open Data Hub ay isang open machine learning platform batay sa Red Hat OpenShift

Sa ganitong paraan, nagbibigay ang Open Data Hub ng mala-cloud na diskarte sa buong AI/ML lifecycle, mula sa pag-access ng data at paghahanda hanggang sa pagsasanay at paggawa ng modelo.

Pinagsama ang lahat

Ngayon ang tanong ay lumitaw kung paano ayusin ang lahat ng ito para sa administrator ng OpenShift. At dito papasok ang isang espesyal na operator ng Kubernetes para sa mga proyekto ng Open Data Hub.

Ang proyekto ng Open Data Hub ay isang open machine learning platform batay sa Red Hat OpenShift

Pinamamahalaan ng operator na ito ang pag-install, pagsasaayos at lifecycle ng proyekto ng Open Data Hub, kabilang ang pag-deploy ng mga nabanggit na tool gaya ng JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus at Grafana. Ang proyekto ng Open Data Hub ay matatagpuan sa OpenShift web console, sa seksyon ng mga operator ng komunidad. Kaya, maaaring tukuyin ng administrator ng OpenShift na ang kaukulang mga proyekto ng OpenShift ay ikinategorya bilang "Proyekto ng Open Data Hub". Ito ay ginagawa nang isang beses. Pagkatapos nito, magla-log in ang data analyst sa espasyo ng kanyang proyekto sa pamamagitan ng OpenShift web console at makikita na ang kaukulang operator ng Kubernetes ay naka-install at magagamit para sa kanyang mga proyekto. Pagkatapos ay gagawa siya ng isang halimbawa ng proyekto ng Open Data Hub sa isang pag-click at agad na may access sa mga tool na inilarawan sa itaas. At lahat ng ito ay maaaring i-configure sa mataas na availability at fault tolerance mode.

Ang proyekto ng Open Data Hub ay isang open machine learning platform batay sa Red Hat OpenShift

Kung gusto mong subukan ang proyekto ng Open Data Hub para sa iyong sarili, magsimula sa mga tagubilin sa pag-install at panimulang tutorial. Ang mga teknikal na detalye ng arkitektura ng Open Data Hub ay matatagpuan dito, mga plano sa pagbuo ng proyekto - dito. Sa hinaharap, plano naming magpatupad ng karagdagang pagsasama sa Kubeflow, lutasin ang ilang isyu sa regulasyon at seguridad ng data, at ayusin din ang pagsasama sa mga system na nakabatay sa mga panuntunan na Drools at Optaplanner. Ipahayag ang iyong opinyon at maging kalahok sa proyekto Buksan ang Data Hub pwede sa page pamayanan.

Pagbabalik-tanaw: Ang mga seryosong hamon sa pag-scale ay pumipigil sa mga organisasyon na matamo ang buong potensyal ng artificial intelligence at machine learning. Matagal nang matagumpay na ginagamit ang Red Hat OpenShift upang malutas ang mga katulad na problema sa industriya ng software. Ang proyekto ng Open Data Hub, na ipinatupad sa loob ng open source development community, ay nag-aalok ng reference na arkitektura para sa pag-aayos ng isang buong cycle ng AI/ML operations batay sa OpenShift hybrid cloud. Mayroon kaming malinaw at maalalahaning plano para sa pagbuo ng proyektong ito, at seryoso kami sa paglikha ng isang aktibo at mabungang komunidad sa paligid nito para sa pagbuo ng mga bukas na solusyon sa AI sa OpenShift platform.

Pinagmulan: www.habr.com

Magdagdag ng komento