Ang Sber.DS usa ka plataporma nga nagtugot kanimo sa paghimo ug pagpatuman sa mga modelo bisan kung wala’y code

Ang mga ideya ug mga miting bahin sa kung unsa ang ubang mga proseso nga mahimong awtomatiko nga motumaw sa mga negosyo nga lainlain ang gidak-on matag adlaw. Apan dugang pa sa kamatuoran nga daghang oras ang mahimo sa paghimo og usa ka modelo, kinahanglan nimo nga igugol kini sa pagtimbang-timbang niini ug pagsusi nga ang resulta dili random. Pagkahuman sa pagpatuman, ang bisan unsang modelo kinahanglan nga bantayan ug susihon matag karon ug unya.

Ug kini ang tanan nga mga yugto nga kinahanglan nimong agian sa bisan unsang kompanya, bisan unsa pa ang gidak-on niini. Kung naghisgut kita mahitungod sa sukdanan ug kabilin sa Sberbank, ang gidaghanon sa mga fine-tuning nga pagtaas sa exponentially. Sa katapusan sa 2019, ang Sberbank nakagamit na ug labaw sa 2000 ka mga modelo. Dili igo ang paghimo lamang og usa ka modelo, gikinahanglan ang pag-integrate sa mga sistema sa industriya, paghimo og mga data mart para sa pagtukod og mga modelo, ug pagsiguro sa pagkontrolar sa operasyon niini sa usa ka cluster.

Ang Sber.DS usa ka plataporma nga nagtugot kanimo sa paghimo ug pagpatuman sa mga modelo bisan kung wala’y code

Ang among team nagpalambo sa plataporma sa Sber.DS. Gitugotan ka niini sa pagsulbad sa mga problema sa pagkat-on sa makina, pagpadali sa proseso sa pagsulay sa mga pangagpas, sa prinsipyo gipasimple ang proseso sa pagpalambo ug pag-validate sa mga modelo, ug usab nagkontrol sa resulta sa modelo sa PROM.

Aron dili malimbongan ang imong mga gilauman, gusto nakong isulti daan nga kini nga post usa ka pasiuna, ug sa ilawom sa pagputol, alang sa usa ka pagsugod, gisultihan kung unsa ang batakan sa ilawom sa hood sa plataporma sa Sber.DS. Atong isulti ang istorya bahin sa siklo sa kinabuhi sa usa ka modelo gikan sa paglalang hangtod sa pagpatuman nga gilain.

Ang Sber.DS naglangkob sa daghang mga sangkap, ang yawe mao ang librarya, sistema sa pag-uswag, ug sistema sa pagpatuman sa modelo.

Ang Sber.DS usa ka plataporma nga nagtugot kanimo sa paghimo ug pagpatuman sa mga modelo bisan kung wala’y code

Gikontrol sa librarya ang siklo sa kinabuhi sa modelo gikan sa higayon nga ang ideya sa pagpalambo niini makita hangtod sa pagpatuman niini sa PROM, pag-monitor ug pag-decommissioning. Daghang mga bahin sa librarya ang gidiktahan sa mga lagda sa regulator, pananglitan, pagreport ug pagtipig sa mga sampol sa pagbansay ug pag-validate. Sa tinuud, kini usa ka rehistro sa tanan namon nga mga modelo.

Ang sistema sa pag-uswag gituyo alang sa biswal nga pagpalambo sa mga modelo ug mga pamaagi sa pag-validate. Ang mga naugmad nga mga modelo moagi sa panguna nga pag-validate ug gihatud sa sistema sa pagpatuman aron mahimo ang ilang mga gimbuhaton sa negosyo. Usab, sa sistema sa pagpatuman, ang modelo mahimong ibutang sa monitor aron matag karon ug unya maglunsad og mga pamaagi sa pag-validate aron makontrol ang operasyon niini.

Adunay daghang mga matang sa mga node sa sistema. Ang uban gidisenyo aron makonektar sa lainlaing mga gigikanan sa datos, ang uban - aron mabag-o ang gigikanan nga datos ug mapauswag kini (markup). Adunay daghang mga node alang sa pagtukod sa lainlaing mga modelo ug mga node alang sa ilang pag-validate. Ang nag-develop mahimong mag-load sa datos gikan sa bisan unsang gigikanan, pagbag-o, pagsala, paghanduraw sa intermediate nga datos, bahinon kini sa mga bahin.

Naglangkob usab ang plataporma nga mga modulo nga andam na nga mahimong ma-drag sa lugar sa proyekto. Ang tanan nga mga aksyon gihimo gamit ang usa ka visualized interface. Sa tinuud, mahimo nimong masulbad ang problema nga wala’y usa ka linya sa code.

Kung ang mga built-in nga kapabilidad dili igo, nan ang sistema naghatag sa abilidad sa dali nga paghimo sa imong kaugalingon nga mga module. Naghimo kami usa ka integrated development mode nga gibase sa Jupyter Kernel Gateway para sa mga naghimo og bag-ong mga module gikan sa wala.

Ang Sber.DS usa ka plataporma nga nagtugot kanimo sa paghimo ug pagpatuman sa mga modelo bisan kung wala’y code

Ang arkitektura sa Sber.DS gitukod sa mga microservice. Adunay daghang mga opinyon bahin sa kung unsa ang mga microservice. Ang ubang mga tawo naghunahuna nga igo na ang pagbahin sa monolithic code ngadto sa mga bahin, apan sila moadto gihapon sa samang database. Ang among microservice kinahanglang makigkomunikar sa laing microservice pinaagi lang sa REST API. Walay workarounds alang sa pag-access sa database direkta.

Gipaningkamotan namo nga dili mahimong dako kaayo ug tapolan ang mga serbisyo: ang usa ka instance kinahanglan dili mokonsumo og labaw sa 4-8 gigabytes sa RAM ug kinahanglan nga makahimo sa horizontally scale nga mga hangyo pinaagi sa paglansad og mga bag-ong instance. Ang matag serbisyo nakigkomunikar sa uban lamang pinaagi sa REST API (Bukas nga API). Ang team nga responsable sa serbisyo gikinahanglan nga ipadayon nga paatras ang API hangtod sa katapusan nga kliyente nga naggamit niini.

Ang kinauyokan sa aplikasyon gisulat sa Java gamit ang Spring Framework. Ang solusyon orihinal nga gidisenyo alang sa paspas nga pag-deploy sa imprastraktura sa panganod, mao nga ang aplikasyon gitukod gamit ang usa ka sistema sa containerization Red Hat OpenShift (Kubernetes). Ang plataporma kanunay nga nag-uswag, sa mga termino sa pagdugang sa pagpaandar sa negosyo (bag-ong mga konektor, gidugang ang AutoML), ug sa mga termino sa kahusayan sa teknolohiya.

Usa sa mga "chips" sa among plataporma mao nga mahimo namon nga mapadagan ang code nga naugmad sa visual interface sa bisan unsang sistema sa pagpatuman sa modelo sa Sberbank. Karon aduna nay duha niini: ang usa sa Hadoop, ang lain sa OpenShift (Docker). Dili kami mohunong didto ug maghimo og mga module sa pag-integrate aron magpadagan sa code sa bisan unsang imprastraktura, lakip ang on-premise ug sa panganod. Sa mga termino sa mga posibilidad alang sa epektibo nga paghiusa sa ekosistema sa Sberbank, nagplano usab kami nga suportahan ang pagtrabaho sa mga naglungtad nga runtime nga palibot. Sa umaabot, ang solusyon mahimong dali nga i-integrate "gikan sa kahon" sa bisan unsang talan-awon sa bisan unsang organisasyon.

Kadtong nakasulay na sa pagpadayon sa usa ka solusyon nga nagpadagan sa Python sa Hadoop sa PROM nahibal-an nga dili igo ang pag-andam ug paghatud sa usa ka naandan nga palibot sa python sa matag datanode. Usa ka dako nga gidaghanon sa mga librarya sa C/C++ alang sa pagkat-on sa makina nga naggamit sa mga module sa Python dili makapahuway kanimo sa kalinaw. Kinahanglang dili nato kalimtan ang pag-update sa mga pakete sa dihang magdugang ug bag-ong mga librarya o mga server, samtang nagmintinar sa atraso nga pagkaangay sa napatuman na nga code sa modelo.

Adunay daghang mga pamaagi kung giunsa kini mahimo. Pananglitan, pag-andam daan og daghang mga librarya nga kanunay gigamit ug ipatuman kini sa PROM. Ang pag-apod-apod sa Cloudera's Hadoop kasagarang gigamit luna. Karon usab sa Hadoop adunay higayon nga modagan docker- mga sudlanan. Sa pipila ka yano nga mga kaso posible nga ihatud ang code kauban ang pakete python.itlog.

Giseryoso sa bangko ang seguridad sa pagpadagan sa third-party nga code, mao nga gipahimuslan namo ang mga bag-ong feature sa Linux kernel, diin ang usa ka proseso nga nagdagan sa usa ka hilit nga palibot Linux namespace, mahimo nimong pugngan, pananglitan, ang pag-access sa network ug lokal nga disk, nga makapamenos pag-ayo sa posibilidad sa malisyoso nga code. Ang mga lugar sa datos sa matag departamento gipanalipdan ug magamit ra sa mga tag-iya sa kana nga datos. Gipaneguro sa plataporma nga ang datos gikan sa usa ka dominyo makasulod lamang sa laing dominyo pinaagi sa proseso sa pagmantala sa datos nga adunay kontrol sa tanang yugto gikan sa pag-access sa mga tinubdan ngadto sa landing data sa target mart.

Ang Sber.DS usa ka plataporma nga nagtugot kanimo sa paghimo ug pagpatuman sa mga modelo bisan kung wala’y code

Karong tuiga nagplano kami nga makompleto ang MVP sa mga running model nga gisulat sa Python/R/Java sa Hadoop. Gibutang namon ang among kaugalingon nga ambisyoso nga tahas sa pagkat-on kung giunsa pagpadagan ang bisan unsang palibot sa tiggamit sa Hadoop, aron dili limitahan ang mga tiggamit sa among plataporma sa bisan unsang paagi.

Dugang pa, ingon nga kini nahimo, daghang mga espesyalista sa DS ang maayo kaayo sa matematika ug estadistika, naghimo mga cool nga modelo, apan dili kaayo batid sa dagkong pagbag-o sa datos, ug kinahanglan nila ang tabang sa among mga inhenyero sa datos aron maandam ang mga sampol sa pagbansay. Nakahukom kami nga tabangan ang among mga kauban ug maghimo og sayon ​​​​nga mga module alang sa tipikal nga pagbag-o ug pag-andam sa mga bahin alang sa mga modelo sa Spark engine. Magtugot kini og dugang nga panahon nga igahin sa pagpalambo sa mga modelo ug dili maghulat sa mga inhenyero sa datos nga mag-andam og bag-ong dataset.

Kami adunay mga tawo nga adunay kahibalo sa lainlaing mga lugar: Linux ug DevOps, Hadoop ug Spark, Java ug Spring, Scala ug Akka, OpenShift ug Kubernetes. Sa sunod maghisgot kami bahin sa librarya sa mga modelo, kung giunsa ang pag-agi sa modelo sa siklo sa kinabuhi sa sulod sa kompanya, kung giunsa ang pag-validate ug pagpatuman.

Source: www.habr.com

Idugang sa usa ka comment