Sber.DS se yon platfòm ki pèmèt ou kreye ak aplike modèl menm san kòd

Lide ak reyinyon sou ki lòt pwosesis yo ka otomatize leve nan biznis nan divès gwosè chak jou. Men, anplis de lefèt ke anpil tan ka pase sou kreye yon modèl, ou bezwen depanse li nan evalye li ak tcheke ke rezilta a jwenn pa o aza. Apre aplikasyon an, nenpòt modèl dwe kontwole epi tcheke detanzantan.

Ak sa yo se tout etap yo ki bezwen ranpli nan nenpòt konpayi, kèlkeswa gwosè li yo. Si nou ap pale sou echèl la ak eritaj nan Sberbank, kantite amann-akor ogmante anpil. Rive nan fen 2019, Sber te deja itilize plis pase 2000 modèl. Li pa ase pou tou senpleman devlope yon modèl; li nesesè pou entegre ak sistèm endistriyèl yo, devlope done mart pou bati modèl, epi asire kontwòl operasyon li sou gwoup la.

Sber.DS se yon platfòm ki pèmèt ou kreye ak aplike modèl menm san kòd

Ekip nou an ap devlope platfòm Sber.DS la. Li pèmèt ou rezoud pwoblèm aprantisaj machin, akselere pwosesis la nan tès ipotèz, nan prensip senplifye pwosesis la nan devlope ak validation modèl, epi tou li kontwole rezilta a nan modèl la nan PROM.

Pou pa twonpe atant ou, mwen vle di davans ke pòs sa a se yon entwodiksyon, ak anba koupe a, pou kòmanse, nou pale sou sa, an prensip, se anba kapo a nan platfòm la Sber.DS. Nou pral rakonte istwa a sou sik lavi a nan modèl la soti nan kreyasyon an aplikasyon separeman.

Sber.DS konsiste de plizyè eleman, kle yo se bibliyotèk la, sistèm devlopman ak sistèm ekzekisyon modèl.

Sber.DS se yon platfòm ki pèmèt ou kreye ak aplike modèl menm san kòd

Bibliyotèk la kontwole sik lavi modèl la soti nan moman lide pou devlope li parèt jiskaske aplikasyon li nan PROM, siveyans ak dekomisyonin. Anpil kapasite bibliyotèk yo dikte pa règ regilatè yo, pou egzanp, rapò ak estoke echantiyon fòmasyon ak validation. An reyalite, sa a se yon rejis tout modèl nou yo.

Sistèm devlopman an fèt pou devlopman vizyèl modèl ak teknik validation. Modèl yo devlope sibi premye validasyon epi yo bay sistèm ekzekisyon an pou fè fonksyon biznis yo. Epitou, nan sistèm nan ègzekutabl, modèl la ka mete sou yon monitè nan bi pou yo detanzantan lanse teknik validation pou kontwole operasyon li yo.

Gen plizyè kalite nœuds nan sistèm nan. Gen kèk ki fèt pou konekte ak divès sous done, lòt yo fèt pou transfòme done sous ak anrichi li (markup). Gen anpil nœuds pou bati modèl diferan ak nœuds pou valide yo. Pwomotè a ka chaje done ki soti nan nenpòt sous, transfòme, filtre, vizyalize done entèmedyè, epi kraze yo an pati.

Platfòm nan genyen tou modil pare yo ki ka trennen epi depoze sou zòn konsepsyon an. Tout aksyon yo fèt lè l sèvi avèk yon koòdone visualized. An reyalite, ou ka rezoud pwoblèm nan san yo pa yon sèl liy nan kòd.

Si kapasite entegre yo pa ase, sistèm nan bay kapasite pou byen vit kreye modil pwòp ou yo. Nou te fè yon mòd devlopman entegre ki baze sou Jupyter Kernel Gateway pou moun ki kreye nouvo modil nan grafouyen.

Sber.DS se yon platfòm ki pèmèt ou kreye ak aplike modèl menm san kòd

Achitekti Sber.DS bati sou microservices. Gen anpil opinyon sou sa ki mikwosèvis yo ye. Gen kèk moun ki panse ke li se ase divize kòd la monolitik an pati, men an menm tan an yo toujou ale nan menm baz done a. Mikwosèvis nou an dwe kominike ak yon lòt mikwosèvis sèlman atravè API REST. Pa gen solisyon pou jwenn aksè nan baz done a dirèkteman.

Nou eseye asire ke sèvis yo pa vin trè gwo ak maladwa: yon egzanp pa ta dwe konsome plis pase 4-8 gigabyte RAM epi li dwe bay kapasite nan echèl demann orizontal pa lanse nouvo ka. Chak sèvis kominike ak lòt moun sèlman atravè API REST (Louvri API). Ekip ki responsab sèvis la oblije kenbe API a konpatib bak jiska dènye kliyan ki sèvi ak li.

Nwayo aplikasyon an ekri an Java lè l sèvi avèk Spring Framework la. Solisyon an te okòmansman fèt pou deplwaman rapid nan enfrastrikti nwaj la, kidonk aplikasyon an te bati lè l sèvi avèk yon sistèm kontenèrizasyon Sou entènèt jwèt Red Hat OpenShift (Kubernetes). Platfòm nan toujou ap evolye, tou de an tèm de ogmante fonctionnalités biznis (nouvo konektè, AutoML yo te ajoute) ak an tèm de efikasite teknolojik.

Youn nan karakteristik platfòm nou an se ke nou ka kouri kòd devlope nan yon koòdone vizyèl sou nenpòt sistèm ekzekisyon modèl Sberbank. Koulye a, gen deja de nan yo: youn sou Hadoop, lòt la sou OpenShift (Docker). Nou pa sispann la epi kreye modil entegrasyon pou kouri kòd sou nenpòt enfrastrikti, ki gen ladan sou lokal ak nan nwaj la. Konsènan posiblite pou entegrasyon efikas nan ekosistèm Sberbank la, nou tou planifye pou sipòte travay ak anviwònman ekzekisyon ki egziste deja. Nan lavni an, solisyon an ka fleksib entegre "soti nan bwat la" nan nenpòt jaden flè nan nenpòt òganizasyon.

Moun ki te janm eseye sipòte yon solisyon ki kouri Python sou Hadoop nan PROM konnen ke li pa ase pou prepare ak delivre yon anviwònman itilizatè Python nan chak datanode. Gwo kantite bibliyotèk C/C++ pou aprantisaj machin ki sèvi ak modil Python pa pral pèmèt ou rete fasil. Nou dwe sonje mete ajou pakè yo lè w ajoute nouvo bibliyotèk oswa serveurs, pandan w ap kenbe konpatibilite bak ak kòd modèl ki deja aplike.

Gen plizyè apwòch ki jan fè sa. Pou egzanp, prepare plizyè bibliyotèk yo itilize souvan davans epi aplike yo nan PROM. Nan distribisyon Hadoop Cloudera a, yo anjeneral itilize pasèl. Epitou kounye a nan Hadoop li posib pou kouri wokè-resipyan. Nan kèk ka senp li posib pou delivre kòd la ansanm ak pake a piton.ze.

Bank la pran sekirite nan kouri kòd twazyèm pati trè seryezman, kidonk nou pwofite pi plis nan nouvo karakteristik yo nan nwayo a Linux, kote yon pwosesis ap kouri nan yon anviwònman izole. Espas non Linux, ou ka limite, pou egzanp, aksè nan rezo a ak disk lokal yo, ki siyifikativman diminye kapasite yo nan kòd move. Zòn done chak depatman yo pwoteje epi aksesib sèlman pou pwopriyetè done sa yo. Platfòm nan asire ke done ki soti nan yon zòn ka rive nan yon lòt zòn sèlman atravè yon pwosesis pibliye done ak kontwòl nan tout etap soti nan aksè nan sous yo aterisaj nan done nan devan magazen an sib.

Sber.DS se yon platfòm ki pèmèt ou kreye ak aplike modèl menm san kòd

Ane sa a nou planifye pou konplete MVP lanse modèl ki ekri nan Python/R/Java sou Hadoop. Nou te fikse tèt nou travay anbisye pou aprann kijan pou dirije nenpòt anviwònman koutim sou Hadoop, se konsa yo pa limite itilizatè yo nan platfòm nou an nan okenn fason.

Anplis de sa, kòm li te tounen soti, anpil espesyalis DS yo ekselan nan matematik ak estatistik, fè modèl fre, men yo pa trè byen vèrs nan gwo transfòmasyon done, epi yo bezwen èd nan enjenyè done nou yo prepare echantiyon fòmasyon. Nou deside ede kòlèg nou yo ak kreye modil pratik pou transfòmasyon estanda ak preparasyon karakteristik pou modèl sou motè Spark la. Sa a pral pèmèt ou pase plis tan devlope modèl epi ou pa tann pou enjenyè done yo prepare yon nouvo seri done.

Nou anplwaye moun ki gen konesans nan diferan domèn: Linux ak DevOps, Hadoop ak Spark, Java ak Spring, Scala ak Akka, OpenShift ak Kubernetes. Pwochen fwa nou pral pale sou bibliyotèk modèl la, ki jan modèl la ale nan sik lavi nan konpayi an, ki jan validation ak aplikasyon rive.

Sous: www.habr.com

Add nouvo kòmantè