Projekt Open Data Hub je otevřená platforma pro strojové učení založená na Red Hat OpenShift

Budoucnost nadešla a technologie umělé inteligence a strojového učení již úspěšně využívají vaše oblíbené obchody, dopravní společnosti a dokonce i krůtí farmy.

Projekt Open Data Hub je otevřená platforma pro strojové učení založená na Red Hat OpenShift

A když něco existuje, tak už o tom na internetu něco je... otevřený projekt! Podívejte se, jak vám Open Data Hub pomáhá škálovat nové technologie a vyhnout se problémům s implementací.

Se všemi výhodami umělé inteligence (AI) a strojového učení (ML) mají organizace často potíže se škálováním těchto technologií. Hlavní problémy v tomto případě jsou obvykle následující:

  • Výměna informací a spolupráce – je téměř nemožné vyměňovat si informace bez námahy a spolupracovat v rychlých iteracích.
  • Přístup k datům – pro každý úkol je potřeba jej postavit znovu a ručně, což zabere spoustu času.
  • Přístup na vyžádání – neexistuje způsob, jak získat na vyžádání přístup k nástrojům a platformě strojového učení a také k počítačové infrastruktuře.
  • Výroba – modely zůstávají ve fázi prototypu a nejsou uváděny do průmyslového využití.
  • Sledujte a vysvětlujte výsledky umělé inteligence – reprodukovatelnost, sledování a vysvětlení výsledků AI/ML jsou obtížné.

Pokud se tyto problémy neřeší, negativně ovlivňují rychlost, efektivitu a produktivitu vědců s cennými daty. To vede k jejich frustraci, zklamání z jejich práce a v důsledku toho jdou obchodní očekávání ohledně AI/ML vniveč.

Zodpovědnost za řešení těchto problémů leží na IT specialistech, kteří musí datovým analytikům poskytnout – to je pravda, něco jako cloud. Podrobněji, potřebujeme platformu, která poskytuje svobodu volby a má pohodlný a snadný přístup. Zároveň je rychlý, snadno rekonfigurovatelný, škálovatelný na vyžádání a odolný proti poruchám. Vybudování takové platformy na technologiích s otevřeným zdrojovým kódem pomáhá vyhnout se uzamčení dodavatele a udržet si dlouhodobou strategickou výhodu z hlediska kontroly nákladů.

Před pár lety se něco podobného dělo ve vývoji aplikací a vedlo to ke vzniku mikroslužeb, hybridních cloudů, automatizace IT a agilních procesů. Aby se IT profesionálové vyrovnali s tím vším, obrátili se na kontejnery, Kubernetes a otevřené hybridní cloudy.

Tato zkušenost se nyní používá k zodpovězení Alových výzev. To je důvod, proč IT profesionálové vytvářejí platformy, které jsou založené na kontejnerech, umožňují vytváření služeb AI/ML v rámci agilních procesů, urychlují inovace a jsou vytvářeny s ohledem na hybridní cloud.

Projekt Open Data Hub je otevřená platforma pro strojové učení založená na Red Hat OpenShift

Takovou platformu začneme budovat s Red Hat OpenShift, naší kontejnerizovanou platformou Kubernetes pro hybridní cloud, která má rychle rostoucí ekosystém softwarových a hardwarových řešení ML (NVIDIA, H2O.ai, Starburst, PerceptiLabs atd.). Někteří zákazníci Red Hat, jako je BMW Group, ExxonMobil a další, již nasadili kontejnerové ML toolchainy a procesy DevOps na platformě a jejím ekosystému, aby uvedli své architektury ML do produkce a urychlili práci datových analytiků.

Dalším důvodem, proč jsme spustili projekt Open Data Hub, je ukázat příklad architektury založené na několika open source softwarových projektech a ukázat, jak implementovat celý životní cyklus ML řešení založeného na platformě OpenShift.

Otevřete projekt Data Hub

Jedná se o open source projekt, který je vyvíjen v rámci příslušné vývojářské komunity a implementuje celý cyklus operací - od načítání a transformace počátečních dat po generování, školení a údržbu modelu - při řešení problémů AI / ML pomocí kontejnerů a Kubernetes na OpenShift. plošina. Tento projekt lze považovat za referenční implementaci, příklad toho, jak vybudovat otevřené řešení AI/ML-as-a-service založené na OpenShift a souvisejících open source nástrojích, jako jsou Tensorflow, JupyterHub, Spark a další. Je důležité poznamenat, že samotný Red Hat používá tento projekt k poskytování svých služeb AI/ML. OpenShift se navíc integruje s klíčovými softwarovými a hardwarovými řešeními ML od NVIDIA, Seldon, Starbust a dalších dodavatelů, což usnadňuje vytváření a provoz vašich vlastních systémů strojového učení.

Projekt Open Data Hub je otevřená platforma pro strojové učení založená na Red Hat OpenShift

Projekt Open Data Hub je zaměřen na následující kategorie uživatelů a případy použití:

  • Datový analytik, který potřebuje řešení pro implementaci ML projektů organizovaných jako cloud se samoobslužnými funkcemi.
  • Datový analytik, který potřebuje maximální výběr z nejnovějších open source nástrojů a platforem AI/ML.
  • Datový analytik, který potřebuje přístup ke zdrojům dat při trénování modelů.
  • Datový analytik, který potřebuje přístup k výpočetním zdrojům (CPU, GPU, paměť).
  • Datový analytik, který vyžaduje schopnost spolupracovat a sdílet práci s kolegy, přijímat zpětnou vazbu a provádět vylepšení v rychlé iteraci.
  • Datový analytik, který chce komunikovat s vývojáři (a rozvíjí týmy), aby jeho modely ML a pracovní výsledky šly do produkce.
  • Datový inženýr, který potřebuje poskytnout datovému analytikovi přístup k různým zdrojům dat při dodržení regulačních a bezpečnostních požadavků.
  • Správce/operátor IT systému, který vyžaduje schopnost bez námahy řídit životní cyklus (instalace, konfigurace, upgrade) open source komponent a technologií. Potřebujeme také vhodné nástroje pro správu a kvóty.

Projekt Open Data Hub spojuje řadu nástrojů s otevřeným zdrojovým kódem pro implementaci celého cyklu operací AI/ML. Jupyter Notebook je zde použit jako hlavní pracovní nástroj pro analýzu dat. Tato sada nástrojů je dnes mezi datovými vědci velmi populární a Open Data Hub jim umožňuje snadno vytvářet a spravovat pracovní prostory Jupyter Notebook pomocí vestavěného JupyterHub. Kromě vytváření a importu notebooků Jupyter obsahuje projekt Open Data Hub také řadu hotových notebooků v podobě AI Library.

Tato knihovna je sbírka open-source komponent strojového učení a řešení pro běžné scénáře, které zjednodušují rychlé prototypování. JupyterHub je integrován s přístupovým modelem RBAC OpenShift, který vám umožňuje používat stávající účty OpenShift a implementovat jednotné přihlašování. JupyterHub navíc nabízí uživatelsky přívětivé uživatelské rozhraní s názvem spawner, jehož prostřednictvím může uživatel snadno konfigurovat množství výpočetních zdrojů (jádra CPU, paměť, GPU) pro vybraný notebook Jupyter.

Poté, co datový analytik vytvoří a nakonfiguruje notebook, o všechny ostatní starosti se postará plánovač Kubernetes, který je součástí OpenShift. Uživatelé mohou pouze provádět své experimenty, ukládat a sdílet výsledky své práce. Pokročilí uživatelé mohou navíc přímo přistupovat k prostředí OpenShift CLI přímo z notebooků Jupyter, aby mohli využívat primitiva Kubernetes, jako jsou funkce Job nebo OpenShift, jako jsou Tekton nebo Knative. Nebo k tomu můžete použít pohodlné GUI OpenShift, které se nazývá „webová konzole OpenShift“.

Projekt Open Data Hub je otevřená platforma pro strojové učení založená na Red Hat OpenShift

Projekt Open Data Hub je otevřená platforma pro strojové učení založená na Red Hat OpenShift

Po přechodu do další fáze Open Data Hub umožňuje spravovat datové kanály. K tomu se používá objekt Ceph, který je poskytován jako úložiště dat objektů kompatibilní s S3. Apache Spark umožňuje streamovat data z externích zdrojů nebo vestavěného úložiště Ceph S3 a také umožňuje provádět předběžné transformace dat. Apache Kafka poskytuje pokročilou správu datových kanálů (kde lze data načíst vícekrát, stejně jako operace transformace dat, analýzy a persistence).

Datový analytik tedy přistoupil k datům a vytvořil model. Nyní má chuť sdílet získané výsledky s kolegy nebo vývojáři aplikací a poskytnout jim svůj model na principech služby. To vyžaduje inferenční server a Open Data Hub takový server má, jmenuje se Seldon a umožňuje publikovat model jako službu RESTful.

V určitém okamžiku je na serveru Seldon několik takových modelů a je potřeba sledovat, jak se používají. K dosažení tohoto cíle nabízí Open Data Hub sbírku relevantních metrik a reportovací engine založený na široce používaných open source monitorovacích nástrojích Prometheus a Grafana. Výsledkem je, že dostáváme zpětnou vazbu k monitorování používání modelů umělé inteligence, zejména v produkčním prostředí.

Projekt Open Data Hub je otevřená platforma pro strojové učení založená na Red Hat OpenShift

Tímto způsobem Open Data Hub poskytuje cloudový přístup během celého životního cyklu AI/ML, od přístupu k datům a jejich přípravy až po školení a výrobu modelů.

Dáte je dohromady

Nyní vyvstává otázka, jak toto vše zorganizovat pro správce OpenShift. A zde přichází na řadu speciální operátor Kubernetes pro projekty Open Data Hub.

Projekt Open Data Hub je otevřená platforma pro strojové učení založená na Red Hat OpenShift

Tento operátor spravuje instalaci, konfiguraci a životní cyklus projektu Open Data Hub, včetně nasazení zmíněných nástrojů, jako jsou JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus a Grafana. Projekt Open Data Hub najdete ve webové konzoli OpenShift, v sekci komunitních operátorů. Administrátor OpenShift tedy může určit, že odpovídající projekty OpenShift jsou kategorizovány jako „projekt Open Data Hub“. To se provádí jednou. Poté se datový analytik přihlásí do svého projektového prostoru prostřednictvím webové konzole OpenShift a uvidí, že odpovídající operátor Kubernetes je nainstalován a dostupný pro jeho projekty. Poté jediným kliknutím vytvoří instanci projektu Open Data Hub a okamžitě má přístup k výše popsaným nástrojům. A to vše lze konfigurovat v režimu vysoké dostupnosti a odolnosti proti poruchám.

Projekt Open Data Hub je otevřená platforma pro strojové učení založená na Red Hat OpenShift

Pokud byste si projekt Open Data Hub chtěli vyzkoušet na vlastní kůži, začněte tím návod k instalaci a úvodní návod. Technické detaily architektury Open Data Hub naleznete zde, plány rozvoje projektu – zde. V budoucnu plánujeme implementaci další integrace s Kubeflow, vyřešení řady problémů s regulací a zabezpečením dat a také zorganizovat integraci se systémy založenými na pravidlech Drools a Optaplanner. Vyjádřete svůj názor a staňte se účastníky projektu Otevřete Data Hub možné na stránce společenství.

Pro rekapitulaci: Vážné problémy se škálováním brání organizacím v realizaci plného potenciálu umělé inteligence a strojového učení. Red Hat OpenShift se již dlouho úspěšně používá k řešení podobných problémů v softwarovém průmyslu. Projekt Open Data Hub, implementovaný v rámci open source vývojářské komunity, nabízí referenční architekturu pro organizaci celého cyklu operací AI/ML založených na hybridním cloudu OpenShift. Máme jasný a promyšlený plán rozvoje tohoto projektu a myslíme to vážně na vytvoření aktivní a plodné komunity kolem něj pro vývoj otevřených řešení AI na platformě OpenShift.

Zdroj: www.habr.com

Přidat komentář