Projek Open Data Hub ialah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Masa depan telah tiba, dan teknologi kecerdasan buatan dan pembelajaran mesin telah pun berjaya digunakan oleh kedai kegemaran anda, syarikat pengangkutan dan juga ladang ayam belanda.

Projek Open Data Hub ialah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Dan jika sesuatu wujud, maka sudah ada sesuatu mengenainya di Internet... projek terbuka! Lihat cara Open Data Hub membantu anda menskalakan teknologi baharu dan mengelakkan cabaran pelaksanaan.

Dengan semua kelebihan kecerdasan buatan (AI) dan pembelajaran mesin (ML), organisasi sering mengalami kesukaran untuk menskalakan teknologi ini. Masalah utama dalam kes ini biasanya yang berikut:

  • Pertukaran maklumat dan kerjasama – hampir mustahil untuk bertukar maklumat dengan mudah dan bekerjasama dalam lelaran pantas.
  • Capaian data – untuk setiap tugasan ia perlu dibina semula dan secara manual, yang memerlukan banyak masa.
  • Akses atas permintaan – tiada cara untuk mendapatkan akses atas permintaan kepada alatan dan platform pembelajaran mesin, serta infrastruktur pengkomputeran.
  • Pengeluaran – model kekal di peringkat prototaip dan tidak dibawa ke kegunaan industri.
  • Jejak dan terangkan hasil AI – kebolehulangan, pengesanan dan penjelasan keputusan AI/ML adalah sukar.

Jika tidak ditangani, masalah ini memberi kesan negatif kepada kelajuan, kecekapan dan produktiviti saintis data yang berharga. Ini membawa kepada kekecewaan mereka, kekecewaan dalam kerja mereka, dan akibatnya, jangkaan perniagaan mengenai AI/ML menjadi sia-sia.

Tanggungjawab untuk menyelesaikan masalah ini terletak pada pakar IT, yang mesti memberikan penganalisis data - betul, sesuatu seperti awan. Secara lebih terperinci, kami memerlukan platform yang memberikan kebebasan memilih dan mempunyai akses yang mudah dan mudah. Pada masa yang sama, ia pantas, mudah dikonfigurasikan semula, berskala atas permintaan dan tahan terhadap kegagalan. Membina platform sedemikian pada teknologi sumber terbuka membantu mengelakkan vendor terkunci dan mengekalkan kelebihan strategik jangka panjang dari segi kawalan kos.

Beberapa tahun yang lalu, sesuatu yang serupa berlaku dalam pembangunan aplikasi dan membawa kepada kemunculan perkhidmatan mikro, awan hibrid, automasi IT dan proses tangkas. Untuk mengatasi semua ini, profesional IT telah beralih kepada kontena, Kubernetes dan awan hibrid terbuka.

Pengalaman ini kini digunakan untuk menjawab cabaran Al. Itulah sebabnya profesional IT sedang membina platform yang berasaskan kontena, membolehkan penciptaan perkhidmatan AI/ML dalam proses tangkas, mempercepatkan inovasi dan dibina dengan fokus ke arah awan hibrid.

Projek Open Data Hub ialah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Kami akan mula membina platform sedemikian dengan Red Hat OpenShift, platform Kubernetes kontena kami untuk awan hibrid, yang mempunyai ekosistem penyelesaian ML perisian dan perkakasan yang berkembang pesat (NVIDIA, H2O.ai, Starburst, PerceptiLabs, dsb.). Beberapa pelanggan Red Hat, seperti BMW Group, ExxonMobil dan lain-lain, telah menggunakan rantaian alat ML dan proses DevOps dalam kontena di atas platform dan ekosistemnya untuk membawa seni bina ML mereka kepada pengeluaran dan mempercepatkan kerja penganalisis data.

Sebab lain kami melancarkan projek Open Data Hub adalah untuk menunjukkan contoh seni bina berdasarkan beberapa projek perisian sumber terbuka dan menunjukkan cara melaksanakan keseluruhan kitaran hayat penyelesaian ML berdasarkan platform OpenShift.

Projek Hab Data Terbuka

Ini ialah projek sumber terbuka yang dibangunkan dalam komuniti pembangunan yang sepadan dan melaksanakan kitaran penuh operasi - daripada memuatkan dan mengubah data awal kepada menjana, melatih dan menyelenggara model - apabila menyelesaikan masalah AI / ML menggunakan bekas dan Kubernetes pada OpenShift platform. Projek ini boleh dianggap sebagai pelaksanaan rujukan, contoh cara membina penyelesaian AI/ML-sebagai-satu-perkhidmatan terbuka berdasarkan OpenShift dan alatan sumber terbuka yang berkaitan seperti Tensorflow, JupyterHub, Spark dan lain-lain. Adalah penting untuk ambil perhatian bahawa Red Hat sendiri menggunakan projek ini untuk menyediakan perkhidmatan AI/MLnya. Di samping itu, OpenShift menyepadukan dengan perisian utama dan penyelesaian ML perkakasan daripada NVIDIA, Seldon, Starbust dan vendor lain, menjadikannya lebih mudah untuk membina dan menjalankan sistem pembelajaran mesin anda sendiri.

Projek Open Data Hub ialah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Projek Hab Data Terbuka tertumpu pada kategori pengguna dan kes penggunaan berikut:

  • Penganalisis data yang memerlukan penyelesaian untuk melaksanakan projek ML, disusun seperti awan dengan fungsi layan diri.
  • Penganalisis Data yang memerlukan pilihan maksimum daripada alatan dan platform AI/ML sumber terbuka terkini.
  • Penganalisis data yang memerlukan akses kepada sumber data semasa melatih model.
  • Penganalisis data yang memerlukan akses kepada sumber pengkomputeran (CPU, GPU, memori).
  • Penganalisis Data yang memerlukan keupayaan untuk bekerjasama dan berkongsi kerja dengan rakan sekerja, menerima maklum balas dan membuat penambahbaikan dalam lelaran pantas.
  • Seorang penganalisis data yang ingin berinteraksi dengan pembangun (dan pasukan devops) supaya model ML dan hasil kerjanya dapat dikeluarkan.
  • Jurutera data yang perlu menyediakan penganalisis data akses kepada pelbagai sumber data sambil mematuhi keperluan peraturan dan keselamatan.
  • Pentadbir/pengendali sistem IT yang memerlukan keupayaan untuk mengawal kitaran hayat (pemasangan, konfigurasi, naik taraf) komponen dan teknologi sumber terbuka dengan mudah. Kami juga memerlukan alat pengurusan dan kuota yang sesuai.

Projek Hab Data Terbuka menghimpunkan pelbagai alatan sumber terbuka untuk melaksanakan kitaran penuh operasi AI/ML. Jupyter Notebook digunakan di sini sebagai alat kerja utama untuk analisis data. Kit alat ini popular secara meluas dalam kalangan saintis data hari ini dan Open Data Hub membolehkan mereka membuat dan mengurus ruang kerja Jupyter Notebook dengan mudah menggunakan JupyterHub terbina dalam. Selain mencipta dan mengimport buku nota Jupyter, projek Open Data Hub juga mengandungi beberapa buku nota siap dalam bentuk Perpustakaan AI.

Pustaka ini ialah koleksi komponen pembelajaran mesin sumber terbuka dan penyelesaian untuk senario biasa yang memudahkan prototaip pantas. JupyterHub disepadukan dengan model akses RBAC OpenShift, yang membolehkan anda menggunakan akaun OpenShift sedia ada dan melaksanakan log masuk tunggal. Selain itu, JupyterHub menawarkan antara muka pengguna mesra pengguna yang dipanggil spawner, yang melaluinya pengguna boleh mengkonfigurasi jumlah sumber pengkomputeran (teras CPU, memori, GPU) dengan mudah untuk Buku Nota Jupyter yang dipilih.

Selepas penganalisis data mencipta dan mengkonfigurasi komputer riba, semua kebimbangan lain mengenainya diuruskan oleh penjadual Kubernetes, yang merupakan sebahagian daripada OpenShift. Pengguna hanya boleh menjalankan eksperimen mereka, menyimpan dan berkongsi hasil kerja mereka. Selain itu, pengguna lanjutan boleh terus mengakses cangkerang OpenShift CLI terus daripada buku nota Jupyter untuk memanfaatkan primitif Kubernetes seperti fungsi Job atau OpenShift seperti Tekton atau Knative. Atau untuk ini anda boleh menggunakan GUI mudah OpenShift, yang dipanggil "konsol web OpenShift".

Projek Open Data Hub ialah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Projek Open Data Hub ialah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Bergerak ke peringkat seterusnya, Open Data Hub memungkinkan untuk mengurus saluran paip data. Untuk ini, objek Ceph digunakan, yang disediakan sebagai storan data objek yang serasi dengan S3. Apache Spark membolehkan anda menstrim data daripada sumber luaran atau storan Ceph S3 terbina dalam, dan juga membolehkan anda melakukan transformasi data awal. Apache Kafka menyediakan pengurusan lanjutan saluran paip data (di mana data boleh dimuatkan berbilang kali, serta transformasi data, analisis dan operasi kegigihan).

Jadi, penganalisis data mengakses data dan membina model. Kini dia mempunyai keinginan untuk berkongsi hasil yang diperoleh dengan rakan sekerja atau pembangun aplikasi, dan memberikan mereka modelnya mengenai prinsip perkhidmatan. Ini memerlukan pelayan inferens dan Open Data Hub mempunyai pelayan sedemikian, ia dipanggil Seldon dan membolehkan anda menerbitkan model sebagai perkhidmatan RESTful.

Pada satu ketika, terdapat beberapa model sedemikian pada pelayan Seldon, dan terdapat keperluan untuk memantau cara ia digunakan. Untuk mencapai matlamat ini, Open Data Hub menawarkan koleksi metrik yang berkaitan dan enjin pelaporan berdasarkan alat pemantauan sumber terbuka yang digunakan secara meluas Prometheus dan Grafana. Akibatnya, kami menerima maklum balas untuk memantau penggunaan model AI, terutamanya dalam persekitaran pengeluaran.

Projek Open Data Hub ialah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Dengan cara ini, Open Data Hub menyediakan pendekatan seperti awan sepanjang keseluruhan kitaran hayat AI/ML, daripada akses dan penyediaan data kepada latihan dan pengeluaran model.

Meletakkannya bersama-sama

Sekarang timbul persoalan bagaimana untuk mengatur semua ini untuk pentadbir OpenShift. Dan di sinilah pengendali Kubernetes khas untuk projek Hab Data Terbuka dimainkan.

Projek Open Data Hub ialah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Operator ini menguruskan pemasangan, konfigurasi dan kitaran hayat projek Hab Data Terbuka, termasuk penggunaan alatan yang disebutkan di atas seperti JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus dan Grafana. Projek Hab Data Terbuka boleh didapati dalam konsol web OpenShift, dalam bahagian pengendali komuniti. Oleh itu, pentadbir OpenShift boleh menentukan bahawa projek OpenShift yang sepadan dikategorikan sebagai "projek Open Data Hub". Ini dilakukan sekali. Selepas ini, penganalisis data log masuk ke ruang projeknya melalui konsol web OpenShift dan melihat bahawa pengendali Kubernetes yang sepadan dipasang dan tersedia untuk projeknya. Dia kemudian mencipta contoh projek Hab Data Terbuka dengan satu klik dan serta-merta mempunyai akses kepada alatan yang diterangkan di atas. Dan semua ini boleh dikonfigurasikan dalam ketersediaan tinggi dan mod toleransi kesalahan.

Projek Open Data Hub ialah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Jika anda ingin mencuba sendiri projek Hab Data Terbuka, mulakan dengan arahan pemasangan dan tutorial pengenalan. Butiran teknikal seni bina Hab Data Terbuka boleh didapati di sini, rancangan pembangunan projek - di sini. Pada masa hadapan, kami merancang untuk melaksanakan penyepaduan tambahan dengan Kubeflow, menyelesaikan beberapa isu dengan peraturan dan keselamatan data, dan juga mengatur penyepaduan dengan sistem berasaskan peraturan Drools dan Optaplanner. Nyatakan pendapat anda dan jadilah peserta dalam projek itu Buka Hab Data mungkin pada halaman masyarakat.

Rekap: Cabaran skala yang serius menghalang organisasi daripada merealisasikan potensi penuh kecerdasan buatan dan pembelajaran mesin. Red Hat OpenShift telah lama berjaya digunakan untuk menyelesaikan masalah serupa dalam industri perisian. Projek Hab Data Terbuka, yang dilaksanakan dalam komuniti pembangunan sumber terbuka, menawarkan seni bina rujukan untuk mengatur kitaran penuh operasi AI/ML berdasarkan awan hibrid OpenShift. Kami mempunyai rancangan yang jelas dan bernas untuk pembangunan projek ini, dan kami serius untuk mewujudkan komuniti yang aktif dan bermanfaat di sekelilingnya untuk membangunkan penyelesaian AI terbuka pada platform OpenShift.

Sumber: www.habr.com

Tambah komen