🥇Sber.DS ialah platform yang membolehkan anda mencipta dan melaksanakan model walaupun tanpa pengekodan

Idea dan perbincangan tentang proses lain yang boleh diautomasikan timbul setiap hari dalam perniagaan dari semua saiz. Tetapi walaupun mencipta model boleh mengambil masa yang lama, ia juga memerlukan masa yang dihabiskan untuk menilainya dan mengesahkan bahawa hasilnya tidak rawak. Selepas pelaksanaan, sebarang model mesti dipantau dan disemak secara berkala.

Semua ini adalah peringkat yang mesti dilalui oleh mana-mana syarikat, tanpa mengira saiznya. Memandangkan skala dan legasi Sberbank, bilangan keperluan penalaan halus meningkat secara eksponen. Menjelang akhir tahun 2019, Sberbank telah pun menggunakan lebih 2000 model. Sekadar membangunkan model tidak mencukupi; ia memerlukan penyepaduan dengan sistem perindustrian, membangunkan data mart untuk pembinaan model dan memastikan pemantauan seluruh klusternya.

Pasukan kami sedang membangunkan platform Sber.DS. Ia membolehkan tugas pembelajaran mesin, mempercepatkan pengujian hipotesis, memudahkan pembangunan dan pengesahan model serta memantau prestasi model dalam PROM.

Untuk mengelakkan kekecewaan, saya ingin menegaskan terlebih dahulu bahawa catatan ini hanyalah pengenalan, dan di bawah bahagian seterusnya, saya akan mulakan dengan menerangkan apa yang berlaku di sebalik platform Sber.DS. Kita akan membincangkan kitaran hayat model, daripada penciptaan hingga pelaksanaan, dalam artikel berasingan.

Sber.DS terdiri daripada beberapa komponen, yang utama ialah perpustakaan, sistem pembangunan dan sistem pelaksanaan model.

Perpustakaan menguruskan kitaran hayat model, dari saat idea untuk pembangunannya timbul hingga pelaksanaannya dalam PROM, pemantauan dan penyahtauliahan. Kebanyakan keupayaan perpustakaan ditentukan oleh peraturan kawal selia, seperti pelaporan dan penyimpanan set data latihan dan pengesahan. Pada asasnya, ia merupakan daftar semua model kami.

Sistem pembangunan direka bentuk untuk pembangunan visual model dan kaedah pengesahan. Model yang dibangunkan menjalani pengesahan awal dan dihantar ke sistem masa jalan untuk melaksanakan fungsi perniagaannya. Model ini juga boleh dipantau dalam sistem masa jalan untuk menjalankan kaedah pengesahan secara berkala bagi memantau operasinya.

Sistem ini mempunyai beberapa jenis nod. Ada yang direka bentuk untuk menyambung ke pelbagai sumber data, manakala yang lain digunakan untuk mengubah dan memperkayakan (melabel) data sumber. Terdapat banyak nod untuk membina pelbagai model dan nod untuk mengesahkannya. Pembangun boleh memuatkan data daripada mana-mana sumber, mengubah, menapis, menggambarkan data perantaraan dan memecahkannya kepada beberapa bahagian.

Platform ini juga merangkumi modul siap sedia yang boleh diseret dan dilepaskan ke kawasan projek. Semua tindakan dilakukan menggunakan antara muka visual. Malah, anda boleh menyelesaikan masalah tanpa menulis satu baris kod pun.

Jika keupayaan terbina dalam tidak mencukupi, sistem ini menyediakan keupayaan untuk mencipta modul anda sendiri dengan cepat. Kami telah mencipta mod pembangunan bersepadu berdasarkan Gerbang Inti Jupyter bagi mereka yang mencipta modul baharu dari awal.

Seni bina Sber.DS dibina berdasarkan mikroservis. Terdapat banyak pendapat tentang apa itu mikroservis. Ada yang percaya bahawa memecahkan kod monolitik kepada beberapa bahagian sudah memadai, tetapi mereka masih mengakses pangkalan data yang sama. Bagi kami, mikroservis mesti berkomunikasi dengan mikroservis lain hanya melalui API REST. Tiada jalan penyelesaian untuk mengakses pangkalan data secara langsung.

Kami cuba mengelakkan perkhidmatan daripada menjadi terlalu besar dan membebankan: satu contoh tidak boleh menggunakan lebih daripada 4-8 gigabait RAM dan mesti dapat menskala permintaan secara mendatar dengan melancarkan contoh baharu. Setiap perkhidmatan berkomunikasi dengan perkhidmatan lain hanya melalui API REST (Terbuka APIPasukan yang bertanggungjawab untuk perkhidmatan tersebut wajib mengekalkan keserasian API ke belakang sehingga klien terakhir yang menggunakannya.

Teras aplikasi ditulis dalam Java menggunakan Spring Framework. Penyelesaian ini direka bentuk dari bawah ke atas untuk penggunaan pantas ke infrastruktur awan, jadi ia dibina menggunakan sistem pengkontenaan. Red Hat OpenShift (KubernetesPlatform ini sentiasa berkembang, baik dari segi pengembangan fungsi perniagaan (penyambung baharu dan AutoML sedang ditambah) dan dari segi kecekapan teknologi.

Salah satu ciri utama platform kami ialah kami boleh menjalankan kod yang dibangunkan dalam antara muka visual pada mana-mana sistem runtime Sberbank. Pada masa ini, kami mempunyai dua: satu pada Hadoop dan satu pada OpenShift (Docker). Kami tidak berhenti di situ, mencipta modul integrasi untuk menjalankan kod pada mana-mana infrastruktur, termasuk di premis dan awan. Bagi memastikan integrasi yang cekap ke dalam ekosistem Sberbank, kami juga merancang untuk menyokong persekitaran runtime sedia ada. Pada masa hadapan, penyelesaian ini boleh diintegrasikan secara fleksibel "di luar kotak" ke dalam persekitaran mana-mana organisasi.

Sesiapa sahaja yang pernah cuba menyokong penyelesaian yang menjalankan Python pada Hadoop dalam PROM tahu bahawa hanya menyediakan dan menggunakan persekitaran Python tersuai untuk setiap nod data tidak mencukupi. Bilangan pustaka pembelajaran mesin C/C++ yang banyak yang menggunakan modul Python akan membuatkan anda tercungap-cungap. Anda mesti ingat untuk mengemas kini pakej semasa menambah pustaka atau pelayan baharu, mengekalkan keserasian ke belakang dengan kod model sedia ada.

Terdapat beberapa pendekatan untuk melakukan ini. Contohnya, menyediakan beberapa pustaka yang kerap digunakan terlebih dahulu dan melaksanakannya dalam PROM. Pengedaran Hadoop Cloudera biasanya menggunakan Parcel. Kini juga dalam Hadoop terdapat keupayaan untuk menjalankan docker-bekas. Dalam beberapa kes mudah, kod boleh dihantar bersama-sama pakej. telur ular sawa.

Bank memandang serius keselamatan menjalankan kod pihak ketiga, jadi kami memanfaatkan sepenuhnya ciri kernel baharu. Linux, di mana proses berjalan dalam persekitaran terpencil Linux ruang namaContohnya, akses cakera rangkaian dan tempatan boleh dihadkan, sekali gus mengurangkan potensi kod berniat jahat dengan ketara. Kawasan data setiap jabatan dilindungi dan hanya boleh diakses oleh pemilik data tersebut. Platform ini memastikan bahawa data dari satu kawasan hanya boleh sampai ke kawasan lain melalui proses penerbitan data dengan kawalan pada semua peringkat, daripada akses kepada sumber hingga pendaratan data di stor sasaran.

Tahun ini, kami merancang untuk menyelesaikan MVP bagi menjalankan model yang ditulis dalam Python/R/Java pada Hadoop. Kami telah menetapkan matlamat yang bercita-cita tinggi untuk mempelajari cara menjalankan sebarang persekitaran pengguna pada Hadoop, agar tidak mengehadkan pengguna platform kami dalam apa jua cara.

Tambahan pula, ternyata ramai saintis data mahir dalam matematik dan statistik serta membina model yang hebat, tetapi kurang pemahaman yang kukuh tentang transformasi data raya dan memerlukan bantuan jurutera data kami untuk menyediakan set data latihan. Kami memutuskan untuk membantu rakan sekerja kami dengan mencipta modul mesra pengguna untuk transformasi standard dan penyediaan ciri untuk model berasaskan Spark. Ini akan membolehkan kami meluangkan lebih banyak masa membangunkan model dan mengelakkan daripada menunggu jurutera data menyediakan set data baharu.

Kami menggaji pekerja yang berpengetahuan dalam pelbagai bidang: Linux dan DevOps, Hadoop dan Spark, Java dan Spring, Scala dan Akka, OpenShift dan Kubernetes. Lain kali, kita akan bercakap tentang pustaka model, bagaimana model bergerak melalui kitaran hayat dalam syarikat dan bagaimana pengesahan dan pelaksanaan berlaku.

Sumber: www.habr.com

Sber.DS ialah platform yang membolehkan anda mencipta dan melaksanakan model walaupun tanpa kod

Yuri Gagarin