Sber.DS mangrupikeun platform anu ngamungkinkeun anjeun nyiptakeun sareng nerapkeun modél sanajan tanpa kode

Gagasan sareng rapat ngeunaan naon prosés anu sanés tiasa diotomatiskeun timbul dina usaha tina sababaraha ukuran unggal dinten. Tapi salian kanyataan yén loba waktu bisa spent dina nyieun model, Anjeun kudu méakkeun eta evaluating sarta mariksa yen hasilna teu acak. Saatos palaksanaan, modél naon waé kedah diawaskeun sareng dipariksa périodik.

Sareng ieu sadayana tahapan anu anjeun kedah laksanakeun di perusahaan mana waé, henteu paduli ukuranana. Lamun urang ngobrol ngeunaan skala jeung warisan Sberbank, jumlah fine-tunings naek éksponénsial. Nepi ka tungtun taun 2019, Sberbank parantos nganggo langkung ti 2000 modél. Teu cukup ngan pikeun ngembangkeun model, perlu pikeun ngahijikeun jeung sistem industri, ngamekarkeun data marts pikeun model wangunan, sarta mastikeun kontrol operasi na on klaster a.

Sber.DS mangrupikeun platform anu ngamungkinkeun anjeun nyiptakeun sareng nerapkeun modél sanajan tanpa kode

Tim kami ngembangkeun platform Sber.DS. Éta ngamungkinkeun anjeun pikeun ngabéréskeun masalah mesin diajar, nyepetkeun prosés nguji hipotesis, prinsipna nyederhanakeun prosés ngembangkeun sareng validasi modél, sareng ogé ngontrol hasil modél dina PROM.

Dina raraga teu nipu ekspektasi Anjeun, Abdi hoyong nyebutkeun sateuacanna yén pos ieu mangrupa bubuka, sarta dina cut, pikeun ngamimitian, éta ngawartoskeun ngeunaan naon dasarna dina tiung tina platform Sber.DS. Kami bakal nyarioskeun carita ngeunaan siklus kahirupan modél ti mimiti ciptaan dugi ka palaksanaan nyalira.

Sber.DS diwangun ku sababaraha komponén, anu konci nyaéta perpustakaan, sistem pamekaran, sareng sistem palaksanaan modél.

Sber.DS mangrupikeun platform anu ngamungkinkeun anjeun nyiptakeun sareng nerapkeun modél sanajan tanpa kode

Perpustakaan ngatur siklus kahirupan modél ti mimiti ideu pikeun ngembangkeun éta muncul dina palaksanaanna dina PROM, monitoring sareng decommissioning. Seueur fitur perpustakaan anu didikte ku aturan régulator, contona, ngalaporkeun sareng neundeun conto latihan sareng validasi. Nyatana, ieu mangrupikeun daptar sadaya modél urang.

Sistem pamekaran dimaksudkeun pikeun pamekaran visual modél sareng metode validasi. Modél anu dikembangkeun ngalaman validasi primér sareng dikirimkeun ka sistem palaksanaan pikeun ngalaksanakeun fungsi bisnisna. Ogé, dina sistem palaksanaan, modél tiasa dipasang dina monitor supados périodik ngaluncurkeun metode validasi pikeun ngontrol operasina.

Aya sababaraha jinis titik dina sistem. Sababaraha dirancang pikeun nyambungkeun ka sababaraha sumber data, anu sanésna - pikeun ngarobih sumber data sareng ngabeungharanana (markup). Aya seueur titik pikeun ngawangun sababaraha modél sareng titik pikeun validasi. Pamekar tiasa ngamuat data tina sumber naon waé, ngarobih, nyaring, ngabayangkeun data perantara, ngabagi kana sababaraha bagian.

Platformna ogé ngandung modul siap-siap anu tiasa nyeret kana daérah proyék. Sadaya tindakan dilaksanakeun nganggo antarmuka anu ditingali. Kanyataanna, anjeun tiasa ngajawab masalah tanpa hiji garis kode.

Lamun kamampuhan diwangun-di teu cukup, sistem nyadiakeun kamampuhan pikeun gancang nyieun modul sorangan. Kami geus nyieun hiji mode ngembangkeun terpadu dumasar kana Jupyter kernel gateway pikeun maranéhanana anu nyieun modul anyar ti scratch.

Sber.DS mangrupikeun platform anu ngamungkinkeun anjeun nyiptakeun sareng nerapkeun modél sanajan tanpa kode

Arsitéktur Sber.DS diwangun dina microservices. Aya seueur pendapat ngeunaan naon microservices. Sababaraha urang nganggap yén éta cukup pikeun dibeulah kode monolithic kana bagian, tapi maranéhna masih buka database sarua. Microservice kami kedah komunikasi sareng microservice sanés ngan ukur liwat REST API. Taya workarounds pikeun ngakses database langsung.

Kami nyobian ngajaga jasa tina janten ageung sareng sluggish: conto tunggal henteu kedah meakeun langkung ti 4-8 gigabyte RAM sareng kedah tiasa sacara horisontal skala pamundut ku ngaluncurkeun instansi anyar. Masing-masing jasa komunikasi sareng batur ngan ukur liwat REST API (Buka API). Tim nanggungjawaban kanggo jasa éta diwajibkeun pikeun ngajaga API ka tukang cocog dugi ka klien terakhir anu ngagunakeunana.

Inti aplikasi ditulis dina Java nganggo Spring Framework. Leyuran asalna dirancang pikeun deployment gancang dina infrastruktur awan, jadi aplikasi nu diwangun ngagunakeun sistem containerization Hat Beureum OpenShift (Kubernetes). Platformna terus-terusan mekar, boh dina hal ningkatkeun fungsionalitas bisnis (panyambung anyar, AutoML ditambah), sareng tina segi efisiensi téknologi.

Salah sahiji "chip" tina platform urang nyaéta yén urang tiasa ngajalankeun kode anu dikembangkeun dina antarmuka visual dina sistem palaksanaan modél Sberbank. Ayeuna parantos aya dua di antarana: hiji dina Hadoop, anu sanés dina OpenShift (Docker). Kami henteu eureun di dinya sareng nyiptakeun modul integrasi pikeun ngajalankeun kode dina infrastruktur naon waé, kalebet dina premis sareng dina méga. Dina hal kamungkinan pikeun integrasi éféktif kana ékosistem Sberbank, urang ogé rencanana ngarojong gawé kalawan lingkungan runtime aya. Dina mangsa nu bakal datang, solusi bisa flexibly terpadu "out of the box" kana sagala bentang organisasi mana wae.

Jalma anu kantos nyobian ngajaga solusi anu ngajalankeun Python dina Hadoop di PROM terang yén éta henteu cekap pikeun nyiapkeun sareng nganteurkeun lingkungan python khusus ka unggal datanode. Sajumlah ageung perpustakaan C / C ++ pikeun diajar mesin anu nganggo modul Python moal ngantep anjeun tenang. Urang teu kudu poho pikeun ngapdet pakét lamun nambahkeun perpustakaan anyar atawa server, bari ngajaga kasaluyuan mundur jeung kode model geus dilaksanakeun.

Aya sababaraha pendekatan pikeun kumaha ngalakukeun ieu. Salaku conto, nyiapkeun sateuacanna sababaraha perpustakaan anu sering dianggo sareng laksanakeunana dina PROM. Sebaran Hadoop Cloudera biasana ngagunakeun bungkusan. Ogé ayeuna di Hadoop aya kasempetan pikeun ngajalankeun docker- wadahna. Dina sababaraha kasus basajan kasebut nyaéta dimungkinkeun pikeun nganteurkeun kode babarengan jeung iket python.endog.

Bank nyandak kaamanan pikeun ngajalankeun kode pihak katilu sacara serius, ku kituna urang ngamangpaatkeun fitur-fitur anyar kernel Linux, dimana prosésna jalan di lingkungan terasing. spasi ngaran Linux, Anjeun bisa ngawatesan, contona, aksés ka jaringan jeung disk lokal, nu greatly ngurangan kamungkinan kode jahat. Wewengkon data unggal departemén ditangtayungan sareng ngan sadia pikeun nu gaduh data éta. Platformna mastikeun yén data tina hiji domain ngan ukur tiasa lebet kana domain anu sanés ngalangkungan prosés panyebaran data kalayan kontrol dina sadaya tahapan tina ngaksés sumber dugi ka badarat data dina target mart.

Sber.DS mangrupikeun platform anu ngamungkinkeun anjeun nyiptakeun sareng nerapkeun modél sanajan tanpa kode

Taun ieu kami rencanana ngalengkepan MVP tina ngajalankeun model ditulis dina Python / Urang Sunda / Java on Hadoop. Kami netepkeun tugas ambisius pikeun diajar kumaha ngajalankeun lingkungan pangguna dina Hadoop, supados henteu ngawatesan pangguna platform kami ku cara naon waé.

Sajaba ti éta, tétéla, loba spesialis DS unggulan dina matematik jeung statistik, nyieun model tiis, tapi teu pisan ogé versed dina transformasi data badag, sarta aranjeunna peryogi bantosan ti insinyur data urang pikeun nyiapkeun sampel latihan. Urang mutuskeun pikeun mantuan kolega urang jeung nyieun modul merenah pikeun transformasi has jeung persiapan fitur pikeun model dina mesin Spark. Ieu bakal ngidinan leuwih waktos devoted kana ngembangkeun model jeung teu ngantosan insinyur data nyiapkeun dataset anyar.

Kami gaduh jalma anu terang dina sababaraha daérah: Linux sareng DevOps, Hadoop sareng Spark, Java sareng Spring, Scala sareng Akka, OpenShift sareng Kubernetes. Dina waktos salajengna basa urang bakal ngobrol ngeunaan perpustakaan model, kumaha model ngaliwatan siklus hirup dina parusahaan, kumaha validasi sarta palaksanaan lumangsung.

sumber: www.habr.com

Tambahkeun komentar