Sber.DS hija pjattaforma li tippermettilek toħloq u timplimenta mudelli anke mingħajr kodiċi

Ideat u laqgħat dwar liema proċessi oħra jistgħu jiġu awtomatizzati jinqalgħu kuljum f'negozji ta 'diversi daqsijiet. Iżda minbarra l-fatt li ħafna ħin jista 'jqatta' fuq il-ħolqien ta 'mudell, għandek bżonn tonfoq fuq l-evalwazzjoni tiegħu u tivverifika li r-riżultat miksub mhuwiex każwali. Wara l-implimentazzjoni, kwalunkwe mudell għandu jiġi mmonitorjat u perjodikament iċċekkjat.

U dawn huma l-istadji kollha li jridu jitlestew fi kwalunkwe kumpanija, irrispettivament mid-daqs tagħha. Jekk qed nitkellmu dwar l-iskala u l-wirt ta 'Sberbank, in-numru ta' rfinar jiżdied b'mod sinifikanti. Sa tmiem l-2019, Sber kienet diġà użat aktar minn 2000 mudell. Mhuwiex biżżejjed li sempliċiment jiġi żviluppat mudell; huwa meħtieġ li jiġi integrat ma 'sistemi industrijali, jiġu żviluppati data marts għall-bini ta' mudelli, u jiġi żgurat il-kontroll tat-tħaddim tiegħu fuq il-cluster.

Sber.DS hija pjattaforma li tippermettilek toħloq u timplimenta mudelli anke mingħajr kodiċi

It-tim tagħna qed jiżviluppa l-pjattaforma Sber.DS. Jippermettilek issolvi problemi ta 'tagħlim tal-magni, tħaffef il-proċess tal-ittestjar tal-ipoteżi, fil-prinċipju tissimplifika l-proċess tal-iżvilupp u l-validazzjoni tal-mudelli, u tikkontrolla wkoll ir-riżultat tal-mudell fi PROM.

Sabiex ma tqarraqx bl-aspettattivi tiegħek, irrid ngħid minn qabel li din il-kariga hija waħda introduttorja, u taħt il-qatgħa, biex nibdew, nitkellmu dwar dak li, fil-prinċipju, huwa taħt il-barnuża tal-pjattaforma Sber.DS. Aħna se ngħidu l-istorja dwar iċ-ċiklu tal-ħajja tal-mudell mill-ħolqien sal-implimentazzjoni separatament.

Sber.DS jikkonsisti f'diversi komponenti, dawk ewlenin huma l-librerija, is-sistema ta 'żvilupp u s-sistema ta' eżekuzzjoni tal-mudell.

Sber.DS hija pjattaforma li tippermettilek toħloq u timplimenta mudelli anke mingħajr kodiċi

Il-librerija tikkontrolla ċ-ċiklu tal-ħajja tal-mudell mill-mument li tidher l-idea li tiżviluppah sal-implimentazzjoni tiegħu fil-PROM, il-monitoraġġ u d-dekummissjonar. Ħafna kapaċitajiet tal-libreriji huma ddettati minn regoli regolaturi, pereżempju, rappurtar u ħażna ta 'kampjuni ta' taħriġ u validazzjoni. Fil-fatt, dan huwa reġistru tal-mudelli kollha tagħna.

Is-sistema ta 'żvilupp hija mfassla għall-iżvilupp viżwali ta' mudelli u tekniki ta 'validazzjoni. Il-mudelli żviluppati jgħaddu minn validazzjoni inizjali u huma fornuti lis-sistema ta 'eżekuzzjoni biex iwettqu l-funzjonijiet tan-negozju tagħhom. Ukoll, fis-sistema runtime, il-mudell jista 'jitqiegħed fuq monitor għall-iskop li perjodikament iniedu tekniki ta' validazzjoni biex jimmonitorjaw it-tħaddim tiegħu.

Hemm diversi tipi ta 'nodi fis-sistema. Xi wħud huma ddisinjati biex jgħaqqdu diversi sorsi tad-dejta, oħrajn huma mfassla biex jittrasformaw id-dejta tas-sors u jarrikkixxuha (markup). Hemm ħafna nodi għall-bini ta 'mudelli differenti u nodi għall-validazzjoni tagħhom. L-iżviluppatur jista 'jtella' dejta minn kwalunkwe sors, jittrasforma, jiffiltra, jivvisualizza dejta intermedja, u jkisserha f'partijiet.

Il-pjattaforma fiha wkoll moduli lesti li jistgħu jitkaxkru u jitwaħħlu fiż-żona tad-disinn. L-azzjonijiet kollha huma mwettqa bl-użu ta 'interface viżwalizzata. Fil-fatt, tista 'ssolvi l-problema mingħajr linja waħda ta' kodiċi.

Jekk il-kapaċitajiet integrati mhumiex biżżejjed, is-sistema tipprovdi l-abbiltà li toħloq malajr il-moduli tiegħek. Għamilna mod ta 'żvilupp integrat ibbażat fuq Jupyter Kernel Gateway għal dawk li joħolqu moduli ġodda mill-bidu.

Sber.DS hija pjattaforma li tippermettilek toħloq u timplimenta mudelli anke mingħajr kodiċi

L-arkitettura ta' Sber.DS hija mibnija fuq mikroservizzi. Hemm ħafna opinjonijiet dwar x'inhuma l-mikroservizzi. Xi nies jaħsbu li huwa biżżejjed li jaqsam il-kodiċi monolitiku f'partijiet, iżda fl-istess ħin xorta jmorru għall-istess database. Il-mikroservizz tagħna għandu jikkomunika ma' mikroservizz ieħor biss permezz tal-API REST. L-ebda soluzzjoni biex taċċessa d-database direttament.

Nippruvaw niżguraw li s-servizzi ma jsirux kbar ħafna u goff: istanza waħda m'għandhiex tikkonsma aktar minn 4-8 gigabytes ta' RAM u trid tipprovdi l-abbiltà li tiskala orizzontalment it-talbiet billi tniedi istanzi ġodda. Kull servizz jikkomunika ma' oħrajn biss permezz tal-API REST (Open API). It-tim responsabbli għas-servizz huwa meħtieġ li jżomm l-API kompatibbli b'lura sal-aħħar klijent li jużah.

Il-qalba tal-applikazzjoni hija miktuba bil-Java bl-użu tal-Qafas tar-Rebbiegħa. Is-soluzzjoni kienet inizjalment iddisinjata għal skjerament rapidu fl-infrastruttura tal-cloud, għalhekk l-applikazzjoni nbniet bl-użu ta 'sistema ta' kontejners RedHat OpenShift (Kubernetes). Il-pjattaforma qed tevolvi kontinwament, kemm f'termini ta 'żieda fil-funzjonalità tan-negozju (qed jiżdiedu konnetturi ġodda, AutoML) kif ukoll f'termini ta' effiċjenza teknoloġika.

Waħda mill-karatteristiċi tal-pjattaforma tagħna hija li nistgħu nħaddmu kodiċi żviluppat f'interface viżwali fuq kwalunkwe sistema ta 'eżekuzzjoni tal-mudell Sberbank. Issa diġà hemm tnejn minnhom: wieħed fuq Hadoop, l-ieħor fuq OpenShift (Docker). Aħna ma nieqfux hemm u noħolqu moduli ta 'integrazzjoni biex imexxu kodiċi fuq kwalunkwe infrastruttura, inkluż fuq il-post u fil-cloud. Rigward il-possibbiltajiet ta 'integrazzjoni effettiva fl-ekosistema Sberbank, qed nippjanaw ukoll li nappoġġjaw ix-xogħol b'ambjenti ta' eżekuzzjoni eżistenti. Fil-futur, is-soluzzjoni tista 'tiġi integrata b'mod flessibbli "barra mill-kaxxa" fi kwalunkwe pajsaġġ ta' kwalunkwe organizzazzjoni.

Dawk li qatt ippruvaw jappoġġjaw soluzzjoni li tħaddem Python fuq Hadoop fi PROM jafu li mhux biżżejjed li jippreparaw u jwassal ambjent tal-utent Python għal kull datanode. In-numru kbir ta 'libreriji C/C++ għat-tagħlim tal-magni li jużaw moduli Python mhux se jippermettilek tistrieħ faċli. Irridu niftakru li naġġornaw pakketti meta nżidu libreriji jew servers ġodda, filwaqt li nżommu kompatibilità b'lura mal-kodiċi tal-mudell diġà implimentati.

Hemm diversi approċċi għal kif tagħmel dan. Per eżempju, ipprepara diversi libreriji użati ta 'spiss minn qabel u implimentahom fi PROM. Fid-distribuzzjoni Hadoop ta' Cloudera, normalment jużaw -pakketti. Ukoll issa f'Hadoop huwa possibbli li taħdem docker-kontenituri. F'xi każijiet sempliċi huwa possibbli li jitwassal il-kodiċi flimkien mal-pakkett python.bajd.

Il-bank jieħu s-sigurtà tat-tħaddim tal-kodiċi ta 'parti terza bis-serjetà ħafna, għalhekk aħna nagħmlu l-aħjar mill-karatteristiċi ġodda tal-kernel Linux, fejn proċess jaħdem f'ambjent iżolat Spazju tal-isem Linux, tista 'tillimita, pereżempju, l-aċċess għan-netwerk u d-disk lokali, li jnaqqas b'mod sinifikanti l-kapaċitajiet ta' kodiċi malizzjuż. L-oqsma tad-dejta ta’ kull dipartiment huma protetti u aċċessibbli biss għas-sidien ta’ din id-dejta. Il-pjattaforma tiżgura li d-dejta minn żona waħda tista 'tilħaq żona oħra biss permezz ta' proċess ta 'pubblikazzjoni tad-dejta b'kontroll fl-istadji kollha mill-aċċess għas-sorsi sal-inżul tad-dejta fil-vetrina fil-mira.

Sber.DS hija pjattaforma li tippermettilek toħloq u timplimenta mudelli anke mingħajr kodiċi

Din is-sena qed nippjanaw li nlestu l-MVP tat-tnedija tal-mudelli miktuba f'Python/R/Java fuq Hadoop. Aħna waqqafna lilna nfusna l-kompitu ambizzjuż li nitgħallmu kif inħaddmu kwalunkwe ambjent tad-dwana fuq Hadoop, sabiex ma nillimitawx l-utenti tal-pjattaforma tagħna bl-ebda mod.

Barra minn hekk, kif irriżulta, ħafna speċjalisti DS huma eċċellenti fil-matematika u l-istatistika, jagħmlu mudelli jibred, iżda mhumiex kapaċi sew fit-trasformazzjonijiet tad-dejta kbira, u jeħtieġu l-għajnuna tal-inġiniera tad-dejta tagħna biex jippreparaw kampjuni ta 'taħriġ. Iddeċidejna li ngħinu lill-kollegi tagħna u noħolqu moduli konvenjenti għal trasformazzjoni standard u preparazzjoni ta 'karatteristiċi għal mudelli fuq il-magna Spark. Dan jippermettilek li tqatta’ aktar ħin tiżviluppa mudelli u ma tistennax li l-inġiniera tad-dejta jippreparaw sett ta’ dejta ġdid.

Aħna nimpjegaw nies b'għarfien f'oqsma differenti: Linux u DevOps, Hadoop u Spark, Java u Spring, Scala u Akka, OpenShift u Kubernetes. Id-darba li jmiss se nitkellmu dwar il-librerija tal-mudelli, kif il-mudell jgħaddi miċ-ċiklu tal-ħajja fi ħdan il-kumpanija, kif iseħħu l-validazzjoni u l-implimentazzjoni.

Sors: www.habr.com

Żid kumment