Open Data Hub projesi, Red Hat OpenShift'i temel alan açık bir makine öğrenimi platformudur

Gelecek geldi ve yapay zeka ve makine öğrenimi teknolojileri halihazırda en sevdiğiniz mağazalar, nakliye şirketleri ve hatta hindi çiftlikleri tarafından başarıyla kullanılıyor.

Open Data Hub projesi, Red Hat OpenShift'i temel alan açık bir makine öğrenimi platformudur

Ve eğer bir şey varsa, o zaman internette de onunla ilgili bir şey vardır... açık bir proje! Open Data Hub'ın yeni teknolojileri ölçeklendirmenize ve uygulama zorluklarından kaçınmanıza nasıl yardımcı olduğunu görün.

Yapay zekanın (AI) ve makine öğreniminin (ML) tüm avantajlarıyla kuruluşlar genellikle bu teknolojileri ölçeklendirmede zorluk yaşıyor. Bu durumda ana sorunlar genellikle şunlardır:

  • Bilgi alışverişi ve işbirliği – zahmetsizce bilgi alışverişinde bulunmak ve hızlı yinelemelerle işbirliği yapmak neredeyse imkansızdır.
  • Veri erişimi – her görev için yeniden ve manuel olarak oluşturulması gerekir, bu da çok zaman alır.
  • Talep üzerine erişim – makine öğrenimi araçlarına ve platformunun yanı sıra bilgi işlem altyapısına isteğe bağlı erişim sağlamanın bir yolu yoktur.
  • Üretme – modeller prototip aşamasında kalır ve endüstriyel kullanıma sunulmaz.
  • Yapay zeka sonuçlarını takip edin ve açıklayın – AI/ML sonuçlarının tekrarlanabilirliği, takibi ve açıklanması zordur.

Bu sorunlar ele alınmadan bırakılırsa değerli veri bilimcilerinin hızını, verimliliğini ve üretkenliğini olumsuz etkiler. Bu onların işlerinde hüsrana uğramasına ve hayal kırıklığına uğramasına neden oluyor ve bunun sonucunda da iş dünyasının AI/ML ile ilgili beklentileri boşa gidiyor.

Bu sorunları çözme sorumluluğu, veri analistlerine bulut gibi bir şey sağlaması gereken BT uzmanlarına düşüyor. Daha ayrıntılı olarak, seçim özgürlüğü veren, rahat ve kolay erişime sahip bir platforma ihtiyacımız var. Aynı zamanda hızlıdır, kolayca yeniden yapılandırılabilir, isteğe bağlı olarak ölçeklenebilir ve arızalara karşı dayanıklıdır. Açık kaynak teknolojileri üzerine böyle bir platform oluşturmak, satıcıya bağlılığın önlenmesine ve maliyet kontrolü açısından uzun vadeli stratejik avantajın korunmasına yardımcı olur.

Birkaç yıl önce uygulama geliştirmede de benzer bir olay yaşandı ve mikro hizmetlerin, hibrit bulutların, BT otomasyonunun ve çevik süreçlerin ortaya çıkmasına yol açtı. Tüm bunlarla başa çıkabilmek için BT profesyonelleri konteynerlere, Kubernetes'e ve açık hibrit bulutlara yöneldi.

Bu deneyim şimdi Al'ın karşılaştığı zorluklara yanıt vermek için kullanılıyor. BT profesyonellerinin konteyner tabanlı, çevik süreçler dahilinde AI/ML hizmetlerinin oluşturulmasına olanak sağlayan, inovasyonu hızlandıran ve hibrit bulutu göz önünde bulundurarak oluşturulmuş platformlar oluşturmasının nedeni budur.

Open Data Hub projesi, Red Hat OpenShift'i temel alan açık bir makine öğrenimi platformudur

Hızla büyüyen bir yazılım ve donanım makine öğrenimi çözümleri ekosistemine (NVIDIA, H2O.ai, Starburst, PerceptiLabs, vb.) sahip olan hibrit bulut için konteynerleştirilmiş Kubernetes platformumuz Red Hat OpenShift ile böyle bir platform oluşturmaya başlayacağız. Red Hat'in BMW Group, ExxonMobil ve diğerleri gibi bazı müşterileri, makine öğrenimi mimarilerini üretime taşımak ve veri analistlerinin çalışmalarını hızlandırmak için zaten platformun ve ekosisteminin üzerinde konteynerleştirilmiş makine öğrenimi araç zincirlerini ve DevOps süreçlerini devreye aldı.

Open Data Hub projesini başlatmamızın bir diğer nedeni de, çeşitli açık kaynaklı yazılım projelerine dayanan bir mimari örneğini göstermek ve OpenShift platformunu temel alan bir makine öğrenimi çözümünün tüm yaşam döngüsünün nasıl uygulanacağını göstermektir.

Veri Merkezi Projesini Aç

Bu, ilgili geliştirme topluluğu içinde geliştirilen ve OpenShift'te konteynerler ve Kubernetes kullanarak AI / ML sorunlarını çözerken, ilk verileri yüklemek ve dönüştürmekten bir model oluşturmaya, eğitmeye ve sürdürmeye kadar tam bir işlem döngüsü uygulayan açık kaynaklı bir projedir. platformu. Bu proje, OpenShift'i ve Tensorflow, JupyterHub, Spark ve diğerleri gibi ilgili açık kaynak araçlarını temel alan açık bir AI/hizmet olarak makine öğrenimi çözümünün nasıl oluşturulacağına dair bir örnek olan bir referans uygulaması olarak düşünülebilir. Red Hat'in bu projeyi AI/ML hizmetlerini sağlamak için kullandığını unutmamak önemlidir. Ayrıca OpenShift, NVIDIA, Seldon, Starbust ve diğer satıcıların önemli yazılım ve donanım ML çözümleriyle entegre olarak kendi makine öğrenimi sistemlerinizi oluşturmanızı ve çalıştırmanızı kolaylaştırır.

Open Data Hub projesi, Red Hat OpenShift'i temel alan açık bir makine öğrenimi platformudur

Open Data Hub projesi aşağıdaki kullanıcı kategorilerine ve kullanım senaryolarına odaklanmıştır:

  • Self servis işlevlere sahip bir bulut gibi organize edilen makine öğrenimi projelerini uygulamak için bir çözüme ihtiyaç duyan veri analisti.
  • En yeni açık kaynaklı AI/ML araçları ve platformlarından maksimum seçeneğe ihtiyaç duyan Veri Analisti.
  • Modelleri eğitirken veri kaynaklarına erişmesi gereken veri analisti.
  • Bilgi işlem kaynaklarına (CPU, GPU, bellek) erişmesi gereken veri analisti.
  • İş arkadaşlarıyla işbirliği yapma ve çalışmayı paylaşma, geri bildirim alma ve hızlı yinelemede iyileştirmeler yapma becerisine ihtiyaç duyan Veri Analisti.
  • Makine öğrenimi modellerinin ve iş sonuçlarının üretime geçmesi için geliştiricilerle (ve devops ekipleriyle) etkileşimde bulunmak isteyen bir veri analisti.
  • Düzenleme ve güvenlik gereksinimlerine uyarken bir veri analistine çeşitli veri kaynaklarına erişim sağlaması gereken veri mühendisi.
  • Açık kaynak bileşenlerinin ve teknolojilerinin yaşam döngüsünü (kurulum, yapılandırma, yükseltme) zahmetsizce kontrol etme becerisine ihtiyaç duyan BT sistem yöneticisi/operatörü. Ayrıca uygun yönetim ve kota araçlarına da ihtiyacımız var.

Açık Veri Merkezi projesi, yapay zeka/makine öğrenimi işlemlerinin tam döngüsünü uygulamak için bir dizi açık kaynak aracı bir araya getiriyor. Jupyter Notebook burada veri analitiği için ana çalışma aracı olarak kullanılıyor. Araç seti bugün veri bilimcileri arasında oldukça popülerdir ve Açık Veri Merkezi, yerleşik JupyterHub'ı kullanarak Jupyter Notebook çalışma alanlarını kolayca oluşturmalarına ve yönetmelerine olanak tanır. Açık Veri Merkezi projesi, Jupyter not defterlerini oluşturmanın ve içe aktarmanın yanı sıra, AI Kitaplığı biçiminde bir dizi hazır not defteri de içerir.

Bu kitaplık, hızlı prototip oluşturmayı basitleştiren yaygın senaryolara yönelik açık kaynaklı makine öğrenimi bileşenleri ve çözümlerinden oluşan bir koleksiyondur. JupyterHub, OpenShift'in RBAC erişim modeliyle entegredir; bu, mevcut OpenShift hesaplarını kullanmanıza ve tek oturum açmayı uygulamanıza olanak tanır. Buna ek olarak JupyterHub, Spawner adı verilen kullanıcı dostu bir kullanıcı arayüzü sunar; bu arayüz aracılığıyla, kullanıcı seçilen Jupyter Notebook için hesaplama kaynaklarının (CPU çekirdekleri, bellek, GPU) miktarını kolayca yapılandırabilir.

Veri analisti dizüstü bilgisayarı oluşturup yapılandırdıktan sonra, onunla ilgili diğer tüm endişeler OpenShift'in parçası olan Kubernetes zamanlayıcı tarafından halledilir. Kullanıcılar yalnızca deneylerini gerçekleştirebilir, çalışmalarının sonuçlarını kaydedebilir ve paylaşabilirler. Ek olarak ileri düzey kullanıcılar, Job gibi Kubernetes temel öğelerinden veya Tekton veya Knative gibi OpenShift işlevlerinden yararlanmak için OpenShift CLI kabuğuna doğrudan Jupyter dizüstü bilgisayarlardan erişebilir. Veya bunun için OpenShift'in “OpenShift web konsolu” olarak adlandırılan kullanışlı GUI'sini kullanabilirsiniz.

Open Data Hub projesi, Red Hat OpenShift'i temel alan açık bir makine öğrenimi platformudur

Open Data Hub projesi, Red Hat OpenShift'i temel alan açık bir makine öğrenimi platformudur

Bir sonraki aşamaya geçerek Open Data Hub, veri işlem hatlarını yönetmeyi mümkün kılar. Bunun için S3 uyumlu nesne veri deposu olarak sunulan Ceph nesnesi kullanılır. Apache Spark, harici kaynaklardan veya yerleşik Ceph S3 depolama alanından veri akışı yapmanızı sağlar ve ayrıca ön veri dönüşümleri gerçekleştirmenize olanak tanır. Apache Kafka, veri işlem hatlarının (verilerin birden çok kez yüklenebildiği, ayrıca veri dönüştürme, analiz ve kalıcılık işlemlerinin yapıldığı) gelişmiş yönetimini sağlar.

Böylece veri analisti verilere erişti ve bir model oluşturdu. Artık elde ettiği sonuçları meslektaşlarıyla veya uygulama geliştiricileriyle paylaşma ve onlara hizmet ilkelerine dayalı modelini sunma arzusu var. Bu, bir çıkarım sunucusu gerektirir ve Open Data Hub'ın böyle bir sunucusu vardır, buna Seldon adı verilir ve modeli RESTful hizmeti olarak yayınlamanıza olanak tanır.

Bir noktada Seldon sunucusunda bu tür birkaç model var ve bunların nasıl kullanıldığının izlenmesi gerekiyor. Bunu başarmak için Open Data Hub, yaygın olarak kullanılan açık kaynaklı izleme araçları Prometheus ve Grafana'yı temel alan ilgili ölçümlerden oluşan bir koleksiyon ve bir raporlama motoru sunar. Sonuç olarak, özellikle üretim ortamında yapay zeka modellerinin kullanımını izlemek için geri bildirim alıyoruz.

Open Data Hub projesi, Red Hat OpenShift'i temel alan açık bir makine öğrenimi platformudur

Bu şekilde Open Data Hub, veri erişimi ve hazırlığından model eğitimi ve üretimine kadar tüm AI/ML yaşam döngüsü boyunca bulut benzeri bir yaklaşım sağlar.

Hepsini bir araya getirmek

Şimdi tüm bunların OpenShift yöneticisi için nasıl organize edileceği sorusu ortaya çıkıyor. İşte bu noktada Açık Veri Merkezi projelerine yönelik özel bir Kubernetes operatörü devreye giriyor.

Open Data Hub projesi, Red Hat OpenShift'i temel alan açık bir makine öğrenimi platformudur

Bu operatör, JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus ve Grafana gibi yukarıda bahsedilen araçların dağıtımı da dahil olmak üzere Open Data Hub projesinin kurulumunu, konfigürasyonunu ve yaşam döngüsünü yönetir. Open Data Hub projesi OpenShift web konsolunun topluluk operatörleri bölümünde bulunabilir. Böylece OpenShift yöneticisi, karşılık gelen OpenShift projelerinin "Open Data Hub projesi" olarak kategorize edilmesini belirtebilir. Bu bir kez yapılır. Bundan sonra veri analisti, OpenShift web konsolu aracılığıyla proje alanına giriş yapar ve ilgili Kubernetes operatörünün kurulduğunu ve projeleri için kullanılabilir olduğunu görür. Daha sonra tek tıklamayla bir Open Data Hub proje örneği oluşturur ve yukarıda açıklanan araçlara hemen erişebilir. Ve tüm bunlar yüksek kullanılabilirlik ve hata toleransı modunda yapılandırılabilir.

Open Data Hub projesi, Red Hat OpenShift'i temel alan açık bir makine öğrenimi platformudur

Open Data Hub projesini kendiniz denemek istiyorsanız şununla başlayın: kurulum talimatları ve giriş eğitimi. Open Data Hub mimarisinin teknik detaylarına buradan ulaşabilirsiniz. burada, proje geliştirme planları – burada. Gelecekte Kubeflow ile ek entegrasyon uygulamayı, veri düzenleme ve güvenlikle ilgili bir dizi sorunu çözmeyi ve ayrıca kurallara dayalı Drools ve Optaplanner sistemleriyle entegrasyonu organize etmeyi planlıyoruz. Fikrinizi ifade edin ve projenin katılımcısı olun Veri Merkezini Aç sayfada olabilir topluluk.

Özetlemek gerekirse: Ciddi ölçeklendirme zorlukları, kuruluşların yapay zeka ve makine öğreniminin tüm potansiyelini gerçekleştirmesini engelliyor. Red Hat OpenShift, yazılım endüstrisindeki benzer sorunları çözmek için uzun süredir başarıyla kullanılıyor. Açık kaynak geliştirme topluluğu içinde uygulanan Open Data Hub projesi, OpenShift hibrit bulutu temel alan yapay zeka/makine öğrenimi operasyonlarının tam döngüsünü organize etmek için bir referans mimarisi sunuyor. Bu projenin geliştirilmesine yönelik açık ve düşünceli bir planımız var ve OpenShift platformunda açık yapay zeka çözümleri geliştirmek için bu projenin etrafında aktif ve verimli bir topluluk oluşturma konusunda ciddiyiz.

Kaynak: habr.com

Yorum ekle