Sber.DS minangka platform sing ngidini sampeyan nggawe lan ngetrapake model sanajan tanpa kode

Gagasan lan rapat babagan proses liyane sing bisa ditindakake kanthi otomatis muncul ing bisnis kanthi macem-macem ukuran saben dina. Nanging saliyane kasunyatan manawa akeh wektu bisa digunakake kanggo nggawe model, sampeyan kudu ngevaluasi lan mriksa manawa asile ora acak. Sawise implementasine, model apa wae kudu dipantau lan dipriksa sacara periodik.

Lan iki kabeh tahapan sing kudu sampeyan lakoni ing perusahaan apa wae, preduli saka ukurane. Yen kita ngomong babagan skala lan warisan Sberbank, jumlah fine-tuning mundhak sacara eksponensial. Ing pungkasan taun 2019, Sberbank wis nggunakake luwih saka 2000 model. Ora cukup mung kanggo ngembangake model, perlu kanggo nggabungake karo sistem industri, ngembangake pasar data kanggo model bangunan, lan njamin kontrol operasi ing kluster.

Sber.DS minangka platform sing ngidini sampeyan nggawe lan ngetrapake model sanajan tanpa kode

Tim kita ngembangake platform Sber.DS. Iki ngidini sampeyan ngatasi masalah pembelajaran mesin, nyepetake proses nguji hipotesis, kanthi prinsip nyederhanakake proses ngembangake lan validasi model, lan uga ngontrol asil model ing PROM.

Supaya ora ngapusi pangarepan, Aku arep ngomong ing advance sing kirim iki minangka pambuko, lan ing Cut, kanggo wiwitan, iku marang bab apa Sejatine ing hood saka platform Sber.DS. Kita bakal nyritakake babagan siklus urip model saka nggawe nganti implementasine kanthi kapisah.

Sber.DS kasusun saka sawetara komponen, sing utama yaiku perpustakaan, sistem pangembangan, lan sistem eksekusi model.

Sber.DS minangka platform sing ngidini sampeyan nggawe lan ngetrapake model sanajan tanpa kode

Perpustakaan ngontrol siklus urip model wiwit ide kanggo ngembangake katon nganti implementasine ing PROM, pemantauan lan decommissioning. Akeh fitur perpustakaan sing didikte dening aturan saka regulator, contone, nglaporake lan panyimpenan saka latihan lan conto validasi. Nyatane, iki minangka daftar kabeh model kita.

Sistem pangembangan dimaksudakΓ© kanggo pangembangan visual model lan cara validasi. Model sing dikembangake ngalami validasi utami lan dikirim menyang sistem eksekusi kanggo nindakake fungsi bisnis. Uga, ing sistem eksekusi, model bisa dilebokake ing monitor supaya bisa ngluncurake metode validasi kanthi periodik kanggo ngontrol operasi.

Ana sawetara jinis simpul ing sistem. Sawetara dirancang kanggo nyambung menyang macem-macem sumber data, liyane - kanggo ngowahi data sumber lan nambah (markup). Ana akeh simpul kanggo mbangun macem-macem model lan simpul kanggo validasi. Pangembang bisa mbukak data saka sumber apa wae, ngowahi, nyaring, nggambarake data penengah, dibagi dadi bagean.

Platform kasebut uga ngemot modul siap-siap sing bisa diseret menyang area proyek. Kabeh tumindak dileksanakake nggunakake antarmuka visualized. Nyatane, sampeyan bisa ngatasi masalah tanpa baris kode siji.

Yen kemampuan sing dibangun ora cukup, sistem kasebut menehi kemampuan kanggo nggawe modul dhewe kanthi cepet. Kita wis nggawe mode pangembangan terpadu adhedhasar Jupyter Kernel Gateway kanggo sing nggawe modul anyar saka ngeruk.

Sber.DS minangka platform sing ngidini sampeyan nggawe lan ngetrapake model sanajan tanpa kode

Arsitektur Sber.DS dibangun ing microservices. Ana akeh panemu babagan apa microservices. Sawetara wong mikir yen cukup pamisah kode monolitik dadi bagean, nanging isih ana ing database sing padha. Layanan mikro kita kudu komunikasi karo layanan mikro liyane mung liwat API REST. Ora ana workarounds kanggo ngakses database langsung.

Kita nyoba supaya layanan ora dadi gedhe banget lan sluggish: siji conto ngirim ora nganggo luwih saka 4-8 gigabyte RAM lan kudu bisa horisontal ukuran panjalukan dening miwiti kedadean anyar. Saben layanan komunikasi karo wong liya mung liwat REST API (Buka API). Tim sing tanggung jawab kanggo layanan kasebut kudu tetep kompatibel karo API nganti klien pungkasan sing nggunakake.

Inti saka aplikasi ditulis ing Jawa nggunakake Spring Framework. Solusi kasebut wiwitane dirancang kanggo panyebaran kanthi cepet ing infrastruktur maya, mula aplikasi kasebut dibangun nggunakake sistem containerization Red Hat OpenShift (Kubernetes). Platform kasebut terus berkembang, ing babagan nambah fungsi bisnis (konektor anyar, AutoML ditambah), lan babagan efisiensi teknologi.

Salah sawijining "chip" platform kita yaiku bisa mbukak kode sing dikembangake ing antarmuka visual ing sistem eksekusi model Sberbank. Saiki wis ana loro: siji ing Hadoop, liyane ing OpenShift (Docker). Kita ora mandheg lan nggawe modul integrasi kanggo mbukak kode ing infrastruktur apa wae, kalebu ing papan lan ing awan. Ing babagan kemungkinan integrasi efektif menyang ekosistem Sberbank, kita uga rencana kanggo ndhukung karya karo lingkungan runtime sing ana. Ing mangsa ngarep, solusi kasebut bisa digabungake kanthi fleksibel "metu saka kothak" menyang lanskap organisasi apa wae.

Wong-wong sing wis tau nyoba kanggo njaga solusi sing nganggo Python ing Hadoop ing PROM ngerti sing ora cukup kanggo nyiyapake lan ngirim lingkungan python adat kanggo saben datanode. Akeh perpustakaan C / C ++ kanggo machine learning sing nggunakake modul Python ora bakal ngidini sampeyan ngaso kanthi tentrem. Kita ora kudu lali nganyari paket nalika nambah perpustakaan utawa server anyar, nalika njaga kompatibilitas mundur karo kode model sing wis dileksanakake.

Ana sawetara cara kanggo nindakake iki. Contone, nyiyapake sawetara perpustakaan sing kerep digunakake sadurunge lan dileksanakake ing PROM. Distribusi Cloudera Hadoop biasane digunakake bingkisan. Uga saiki ing Hadoop ana kesempatan kanggo mbukak docker- kontaner. Ing sawetara kasus prasaja iku bisa kanggo ngirim kode bebarengan karo paket python.endhog.

Bank njupuk keamanan kanggo mbukak kode pihak katelu kanthi serius, mula kita ngoptimalake fitur-fitur anyar saka kernel Linux, ing ngendi proses mlaku ing lingkungan sing terisolasi. Ruang jeneng Linux, sampeyan bisa matesi, contone, akses menyang jaringan lan disk lokal, kang nemen nyuda kamungkinan saka kode angkoro. Wilayah data saben departemen dilindhungi lan mung kasedhiya kanggo pamilik data kasebut. Platform kasebut njamin yen data saka siji domain mung bisa mlebu menyang domain liyane liwat proses penerbitan data kanthi kontrol ing kabeh tahapan saka ngakses sumber menyang data kebangkrutan ing target mart.

Sber.DS minangka platform sing ngidini sampeyan nggawe lan ngetrapake model sanajan tanpa kode

Taun iki kita rencana kanggo ngrampungake MVP model mlaku sing ditulis ing Python / R / Java ing Hadoop. Kita nyetel tugas ambisius kanggo sinau carane mbukak lingkungan pangguna ing Hadoop, supaya ora mbatesi pangguna platform kita kanthi cara apa wae.

Kajaba iku, iku nguripake metu, akeh DS specialists banget ing matΓ©matika lan statistik, nggawe model kelangan, nanging ora banget uga versed ing transformasi data amba, lan padha kudu bantuan saka engineers data kanggo nyiapake conto latihan. Kita mutusake kanggo mbantu kolega lan nggawe modul sing trep kanggo transformasi khas lan nyiapake fitur kanggo model ing mesin Spark. Iki bakal ngidini luwih akeh wektu kanggo ngembangake model lan ora ngenteni insinyur data nyiyapake dataset anyar.

Kita duwe wong sing duwe kawruh ing macem-macem wilayah: Linux lan DevOps, Hadoop lan Spark, Java lan Spring, Scala lan Akka, OpenShift lan Kubernetes. Sabanjure kita bakal ngomong babagan perpustakaan model, kepiye model liwat siklus urip ing perusahaan, kepiye validasi lan implementasine.

Source: www.habr.com

Add a comment