Proyek Open Data Hub adalah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Masa depan telah tiba, dan teknologi kecerdasan buatan serta pembelajaran mesin telah berhasil digunakan oleh toko favorit Anda, perusahaan transportasi, dan bahkan peternakan kalkun.

Proyek Open Data Hub adalah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Dan jika sesuatu itu ada, maka sudah ada sesuatu tentang hal itu di Internet... sebuah proyek terbuka! Lihat bagaimana Open Data Hub membantu Anda menskalakan teknologi baru dan menghindari tantangan implementasi.

Dengan segala keunggulan kecerdasan buatan (AI) dan pembelajaran mesin (ML), organisasi sering kali mengalami kesulitan untuk menskalakan teknologi ini. Masalah utama dalam hal ini biasanya adalah sebagai berikut:

  • Pertukaran informasi dan kerjasama – hampir tidak mungkin untuk bertukar informasi dengan mudah dan berkolaborasi dalam waktu yang cepat.
  • Akses data – untuk setiap tugas perlu dibuat secara baru dan manual, yang membutuhkan banyak waktu.
  • Akses sesuai permintaan – tidak ada cara untuk mendapatkan akses sesuai permintaan ke alat dan platform pembelajaran mesin, serta infrastruktur komputasi.
  • Produksi – model masih dalam tahap prototipe dan tidak dibawa ke penggunaan industri.
  • Lacak dan jelaskan hasil AI – reproduktifitas, pelacakan dan penjelasan hasil AI/ML sulit dilakukan.

Jika tidak diatasi, permasalahan ini berdampak negatif pada kecepatan, efisiensi, dan produktivitas data scientist yang berharga. Hal ini menyebabkan mereka frustrasi, kecewa dengan pekerjaan mereka, dan akibatnya, ekspektasi bisnis terhadap AI/ML menjadi sia-sia.

Tanggung jawab untuk memecahkan masalah ini ada pada spesialis TI, yang harus menyediakan analis data - benar, seperti cloud. Lebih detailnya, kita memerlukan sebuah platform yang memberikan kebebasan memilih dan memiliki akses yang nyaman dan mudah. Pada saat yang sama, ia cepat, mudah dikonfigurasi ulang, dapat diskalakan sesuai permintaan, dan tahan terhadap kegagalan. Membangun platform pada teknologi open source membantu menghindari vendor lock-in dan mempertahankan keunggulan strategis jangka panjang dalam hal pengendalian biaya.

Beberapa tahun yang lalu, hal serupa terjadi dalam pengembangan aplikasi dan menyebabkan munculnya layanan mikro, cloud hybrid, otomatisasi TI, dan proses tangkas. Untuk mengatasi semua ini, para profesional TI telah beralih ke container, Kubernetes, dan cloud hybrid terbuka.

Pengalaman tersebut kini diterapkan untuk menjawab tantangan Al. Itulah sebabnya para profesional TI membangun platform berbasis container, memungkinkan penciptaan layanan AI/ML dalam proses yang tangkas, mempercepat inovasi, dan dibangun dengan fokus pada cloud hybrid.

Proyek Open Data Hub adalah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Kami akan mulai membangun platform seperti itu dengan Red Hat OpenShift, platform Kubernetes dalam container kami untuk hybrid cloud, yang memiliki ekosistem solusi ML perangkat lunak dan perangkat keras yang berkembang pesat (NVIDIA, H2O.ai, Starburst, PerceptiLabs, dll.). Beberapa pelanggan Red Hat, seperti BMW Group, ExxonMobil, dan lainnya, telah menerapkan toolchain ML dalam container dan proses DevOps di atas platform dan ekosistemnya untuk membawa arsitektur ML mereka ke produksi dan mempercepat pekerjaan analis data.

Alasan lain kami meluncurkan proyek Open Data Hub adalah untuk mendemonstrasikan contoh arsitektur berdasarkan beberapa proyek perangkat lunak sumber terbuka dan menunjukkan cara mengimplementasikan seluruh siklus hidup solusi ML berdasarkan platform OpenShift.

Buka Proyek Data Hub

Ini adalah proyek sumber terbuka yang dikembangkan dalam komunitas pengembangan terkait dan menerapkan siklus operasi penuh - mulai dari memuat dan mengubah data awal hingga menghasilkan, melatih, dan memelihara model - saat memecahkan masalah AI/ML menggunakan container dan Kubernetes di OpenShift platform. Proyek ini dapat dianggap sebagai implementasi referensi, contoh cara membangun solusi AI/ML-as-a-service terbuka berdasarkan OpenShift dan alat sumber terbuka terkait seperti Tensorflow, JupyterHub, Spark, dan lainnya. Penting untuk dicatat bahwa Red Hat sendiri menggunakan proyek ini untuk menyediakan layanan AI/ML-nya. Selain itu, OpenShift terintegrasi dengan solusi ML perangkat lunak dan perangkat keras utama dari NVIDIA, Seldon, Starbust, dan vendor lainnya, sehingga memudahkan Anda membangun dan menjalankan sistem pembelajaran mesin Anda sendiri.

Proyek Open Data Hub adalah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Proyek Open Data Hub difokuskan pada kategori pengguna dan kasus penggunaan berikut:

  • Analis data yang membutuhkan solusi untuk mengimplementasikan proyek ML, diatur seperti cloud dengan fungsi layanan mandiri.
  • Analis Data yang membutuhkan pilihan maksimal dari alat dan platform AI/ML open source terbaru.
  • Analis data yang memerlukan akses ke sumber data saat melatih model.
  • Analis data yang membutuhkan akses ke sumber daya komputasi (CPU, GPU, memori).
  • Analis Data yang membutuhkan kemampuan untuk berkolaborasi dan berbagi pekerjaan dengan rekan kerja, menerima umpan balik, dan melakukan perbaikan dalam iterasi yang cepat.
  • Seorang analis data yang ingin berinteraksi dengan pengembang (dan tim pengembang) agar model ML dan hasil kerjanya dapat diproduksi.
  • Insinyur data yang perlu memberi analis data akses ke berbagai sumber data sambil mematuhi persyaratan peraturan dan keamanan.
  • Administrator/operator sistem TI yang memerlukan kemampuan untuk mengontrol siklus hidup (instalasi, konfigurasi, peningkatan) dengan mudah komponen dan teknologi sumber terbuka. Kita juga memerlukan manajemen dan alat kuota yang tepat.

Proyek Open Data Hub menyatukan serangkaian alat sumber terbuka untuk mengimplementasikan siklus penuh operasi AI/ML. Jupyter Notebook digunakan di sini sebagai alat kerja utama untuk analisis data. Toolkit ini sangat populer di kalangan data scientist saat ini, dan Open Data Hub memungkinkan mereka membuat dan mengelola ruang kerja Jupyter Notebook dengan mudah menggunakan JupyterHub bawaan. Selain membuat dan mengimpor notebook Jupyter, proyek Open Data Hub juga memuat sejumlah notebook siap pakai dalam bentuk AI Library.

Pustaka ini adalah kumpulan komponen dan solusi pembelajaran mesin sumber terbuka untuk skenario umum yang menyederhanakan pembuatan prototipe cepat. JupyterHub terintegrasi dengan model akses RBAC OpenShift, yang memungkinkan Anda menggunakan akun OpenShift yang ada dan menerapkan sistem masuk tunggal. Selain itu, JupyterHub menawarkan antarmuka pengguna yang ramah pengguna yang disebut spawner, di mana pengguna dapat dengan mudah mengonfigurasi jumlah sumber daya komputasi (inti CPU, memori, GPU) untuk Notebook Jupyter yang dipilih.

Setelah analis data membuat dan mengonfigurasi laptop, semua kekhawatiran lainnya akan ditangani oleh penjadwal Kubernetes, yang merupakan bagian dari OpenShift. Pengguna hanya dapat melakukan eksperimennya, menyimpan dan membagikan hasil karyanya. Selain itu, pengguna tingkat lanjut dapat langsung mengakses shell OpenShift CLI langsung dari notebook Jupyter untuk memanfaatkan primitif Kubernetes seperti fungsi Job atau OpenShift seperti Tekton atau Knative. Atau untuk ini Anda dapat menggunakan GUI OpenShift yang mudah digunakan, yang disebut "konsol web OpenShift".

Proyek Open Data Hub adalah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Proyek Open Data Hub adalah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Beralih ke tahap berikutnya, Open Data Hub memungkinkan pengelolaan jalur data. Untuk ini, objek Ceph digunakan, yang disediakan sebagai penyimpanan data objek yang kompatibel dengan S3. Apache Spark memungkinkan Anda melakukan streaming data dari sumber eksternal atau penyimpanan Ceph S3 bawaan, dan juga memungkinkan Anda melakukan transformasi data awal. Apache Kafka menyediakan pengelolaan alur data tingkat lanjut (di mana data dapat dimuat beberapa kali, serta transformasi data, analisis, dan operasi persistensi).

Jadi, analis data mengakses data dan membangun model. Kini ia memiliki keinginan untuk berbagi hasil yang diperolehnya dengan kolega atau pengembang aplikasi, dan memberikan mereka modelnya tentang prinsip-prinsip suatu layanan. Ini memerlukan server inferensi, dan Open Data Hub memiliki server seperti itu, yang disebut Seldon dan memungkinkan Anda mempublikasikan model sebagai layanan RESTful.

Pada titik tertentu, ada beberapa model seperti itu di server Seldon, dan ada kebutuhan untuk memantau cara penggunaannya. Untuk mencapai hal ini, Open Data Hub menawarkan kumpulan metrik yang relevan dan mesin pelaporan berdasarkan alat pemantauan sumber terbuka yang banyak digunakan, Prometheus dan Grafana. Hasilnya, kami menerima masukan untuk memantau penggunaan model AI, khususnya di lingkungan produksi.

Proyek Open Data Hub adalah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Dengan cara ini, Open Data Hub menyediakan pendekatan mirip cloud di seluruh siklus hidup AI/ML, mulai dari akses dan persiapan data hingga pelatihan dan produksi model.

Putuskan semuanya

Sekarang muncul pertanyaan bagaimana mengatur semua ini untuk administrator OpenShift. Dan di sinilah operator Kubernetes khusus untuk proyek Open Data Hub berperan.

Proyek Open Data Hub adalah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Operator ini mengelola instalasi, konfigurasi, dan siklus hidup proyek Open Data Hub, termasuk penerapan alat-alat yang disebutkan di atas seperti JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus, dan Grafana. Proyek Open Data Hub dapat ditemukan di konsol web OpenShift, di bagian operator komunitas. Dengan demikian, administrator OpenShift dapat menentukan bahwa proyek OpenShift terkait dikategorikan sebagai "proyek Open Data Hub". Ini dilakukan sekali. Setelah ini, analis data masuk ke ruang proyeknya melalui konsol web OpenShift dan melihat bahwa operator Kubernetes yang sesuai telah diinstal dan tersedia untuk proyeknya. Dia kemudian membuat instance proyek Open Data Hub dengan satu klik dan langsung memiliki akses ke alat yang dijelaskan di atas. Dan semua ini dapat dikonfigurasi dalam mode ketersediaan tinggi dan toleransi kesalahan.

Proyek Open Data Hub adalah platform pembelajaran mesin terbuka berdasarkan Red Hat OpenShift

Jika Anda ingin mencoba sendiri proyek Open Data Hub, mulailah dengan petunjuk instalasi dan tutorial pengantar. Detail teknis arsitektur Open Data Hub dapat ditemukan di sini, rencana pengembangan proyek – di sini. Di masa depan, kami berencana untuk menerapkan integrasi tambahan dengan Kubeflow, menyelesaikan sejumlah masalah terkait regulasi dan keamanan data, dan juga mengatur integrasi dengan sistem berbasis aturan Drools dan Optaplanner. Ekspresikan pendapat Anda dan jadilah peserta dalam proyek ini Buka Data Hub mungkin di halaman masyarakat.

Ringkasnya: Tantangan penskalaan yang serius menghalangi organisasi untuk mewujudkan potensi penuh dari kecerdasan buatan dan pembelajaran mesin. Red Hat OpenShift telah lama berhasil digunakan untuk memecahkan masalah serupa di industri perangkat lunak. Proyek Open Data Hub, yang diterapkan dalam komunitas pengembangan sumber terbuka, menawarkan arsitektur referensi untuk mengatur siklus penuh operasi AI/ML berdasarkan cloud hybrid OpenShift. Kami memiliki rencana yang jelas dan bijaksana untuk pengembangan proyek ini, dan kami serius dalam menciptakan komunitas yang aktif dan bermanfaat di sekitarnya untuk mengembangkan solusi AI terbuka pada platform OpenShift.

Sumber: www.habr.com

Tambah komentar