🥇Sber.DS ass eng Plattform déi et erlaabt Modeller ze kreéieren an ëmzesetzen, och ouni Code

Iddien a Reuniounen iwwer wéi eng aner Prozesser automatiséiert kënne ginn entstinn all Dag a Geschäfter vu verschiddene Gréissten. Awer zousätzlech zu der Tatsaach datt vill Zäit fir e Modell ze kreéieren verbréngen, musst Dir et verbréngen fir et ze evaluéieren an ze kontrolléieren datt d'Resultat net zoufälleg ass. No der Ëmsetzung muss all Modell iwwerwaacht a periodesch iwwerpréift ginn.

An dat sinn all Etappen, déi an all Firma ofgeschloss musse ginn, onofhängeg vu senger Gréisst. Wa mir iwwer d'Skala an d'Legacy vun der Sberbank schwätzen, erhéicht d'Zuel vu Feintuning wesentlech. Bis Enn 2019 hat Sber scho méi wéi 2000 Modeller benotzt. Et ass net genuch fir einfach e Modell z'entwéckelen; et ass néideg fir mat industrielle Systemer z'integréieren, Datenmarts fir Baumodeller z'entwéckelen an d'Kontroll vu senger Operatioun am Cluster ze garantéieren.

Eist Team entwéckelt d'Sber.DS Plattform. Et erlaabt Iech Maschinn Léieren Probleemer ze léisen, beschleunegt de Prozess vun Testen vun Hypothesen, vereinfacht am Prinzip de Prozess fir Modeller z'entwéckelen an ze validéieren, a kontrolléiert och d'Resultat vum Modell am PROM.

Fir Är Erwaardungen net ze täuschen, wëll ech am Viraus soen datt dëse Post eng Aféierung ass, an ënner dem Schnëtt, fir Ufänger, schwätze mir iwwer wat am Prinzip ënner der Hood vun der Sber.DS Plattform ass. Mir wäerten d'Geschicht iwwer de Liewenszyklus vum Modell vun der Schafung bis zur Ëmsetzung separat erzielen.

Sber.DS besteet aus e puer Komponenten, déi Schlëssel sinn d'Bibliothéik, d'Entwécklungssystem an d'Modelausféierungssystem.

D'Bibliothéik kontrolléiert de Liewenszyklus vum Modell vum Moment wou d'Iddi fir et z'entwéckelen erschéngt bis seng Implementatioun am PROM, Iwwerwachung an Decommissioning. Vill Bibliothéik Kënnen sinn duerch regulator Regelen diktéiert, Zum Beispill, Berichterstattung an Stockage vun Training an Validatioun Echantillon. Tatsächlech ass dëst e Register vun all eise Modeller.

Den Entwécklungssystem ass fir visuell Entwécklung vu Modeller a Validatiounstechniken entwéckelt. Déi entwéckelt Modeller ënnerleien initial Validatioun a ginn dem Ausféierungssystem geliwwert fir hir Geschäftsfunktiounen auszeféieren. Och am Runtime System kann de Modell op engem Monitor gesat ginn fir periodesch Validatiounstechniken ze starten fir seng Operatioun ze iwwerwaachen.

Et gi verschidden Aarte vu Wirbelen am System. E puer sinn entwéckelt fir mat verschiddenen Datequellen ze verbannen, anerer sinn entwéckelt fir Quelldaten ze transforméieren an ze beräicheren (Markup). Et gi vill Node fir verschidde Modeller ze bauen an Node fir se ze validéieren. Den Entwéckler kann Daten aus all Quell lueden, transforméieren, filteren, Zwëschendaten visualiséieren an se an Deeler opbriechen.

D'Plattform enthält och fäerdeg Moduler déi op d'Designberäich geschleeft an erofgelooss kënne ginn. All Aktiounen ginn mat engem visualiséierten Interface duerchgefouert. Tatsächlech kënnt Dir de Problem ouni eng eenzeg Zeil vum Code léisen.

Wann déi agebaute Fäegkeeten net genuch sinn, bitt de System d'Fäegkeet fir séier Är eege Moduler ze kreéieren. Mir hunn en integréierten Entwécklungsmodus gemaach baséiert op Jupyter Kernel Gateway fir déi, déi nei Moduler vun Null schafen.

D'Architektur vu Sber.DS ass op Mikroservicer gebaut. Et gi vill Meenungen iwwer wat Mikroservicer sinn. E puer Leit mengen datt et genuch ass fir de monolithesche Code an Deeler opzedeelen, awer gläichzäiteg ginn se nach ëmmer an déiselwecht Datebank. Eise Mikroservice muss mat engem anere Mikroservice nëmmen iwwer REST API kommunizéieren. Keng Léisunge fir direkt op d'Datebank ze kommen.

Mir probéieren ze garantéieren datt d'Servicer net ganz grouss a knaschteg ginn: eng Instanz soll net méi wéi 4-8 Gigabyte RAM konsuméieren a muss d'Fäegkeet ubidden fir Ufroen horizontal ze skaléieren andeems se nei Instanzen lancéieren. All Service kommunizéiert nëmme mat aneren iwwer REST API (Open API). D'Team verantwortlech fir de Service ass erfuerderlech fir d'API zréckkompatibel ze halen bis de leschte Client deen et benotzt.

De Kär vun der Applikatioun ass op Java geschriwwe mam Spring Framework. D'Léisung gouf ufanks fir séier Deployment an der Cloud Infrastruktur entwéckelt, sou datt d'Applikatioun mat engem Containeriséierungssystem gebaut gouf Red Hat OpenShift (Kubernetes). D'Plattform evoluéiert stänneg, souwuel wat d'Erhéijung vun der Geschäftsfunktionalitéit ugeet (nei Connectoren, AutoML ginn derbäigesat) an wat d'technologesch Effizienz ugeet.

Ee vun de Fonctiounen vun eiser Plattform ass, datt mir Code lafen kann an engem visuellen Interface op all Sberbank Modell Ausféierung System entwéckelt. Elo sinn et schonn zwee vun hinnen: een op Hadoop, deen aneren op OpenShift (Docker). Mir stoppen net do a kreéieren Integratiounsmoduler fir Code op all Infrastruktur ze lafen, och on-premise an an der Wollek. Wat d'Méiglechkeeten vun der effektiver Integratioun an de Sberbank-Ökosystem ugeet, plangen mir och d'Aarbecht mat existéierenden Ausféierungsëmfeld z'ënnerstëtzen. An Zukunft kann d'Léisung flexibel "aus der Këscht" an all Landschaft vun all Organisatioun integréiert ginn.

Déi, déi jeemools probéiert hunn eng Léisung z'ënnerstëtzen, déi Python op Hadoop an PROM leeft, wëssen datt et net genuch ass fir e Python Benotzerëmfeld op all Datanode ze preparéieren an ze liwweren. Déi enorm Zuel vu C / C ++ Bibliothéike fir Maschinnléieren déi Python Moduler benotzen erlaabt Iech net einfach ze raschten. Mir mussen drun erënneren d'Paketen ze aktualiséieren wann Dir nei Bibliothéiken oder Servere bäidréit, wärend d'Réckkompatibilitéit mam scho implementéierte Modellcode behalen.

Et gi verschidde Approche fir wéi dëst ze maachen. Zum Beispill, preparéiert e puer dacks benotzte Bibliothéiken am Viraus an implementéiert se am PROM. An der Cloudera's Hadoop Verdeelung benotze se normalerweis Pak. Och elo am Hadoop ass et méiglech ze lafen Docker-Container. An e puer einfache Fäll ass et méiglech de Code zesumme mam Package ze liwweren python.eier.

D'Bank hëlt d'Sécherheet vum Ausféiere vu Code vun Drëttubidder ganz eescht, dofir notze mir déi nei Kernel-Funktiounen maximal aus. Linux, wou de Prozess an enger isoléierter Ëmfeld leeft Linux Nummraum, Dir kënnt zum Beispill den Zougang zum Netz a lokalen Disk limitéieren, wat d'Fäegkeete vu béiswëllegen Code wesentlech reduzéiert. D'Dateberäicher vun all Departement sinn geschützt an nëmme fir d'Besëtzer vun dësen Donnéeën zougänglech. D'Plattform garantéiert datt Daten aus engem Gebitt en anert Gebitt nëmmen duerch en Dateverëffentlechungsprozess mat Kontroll op all Etappe vum Zougang zu Quellen bis zur Landung vun Daten am Zilgeschäft erreechen.

Dëst Joer plangen mir de MVP ofzeschléissen fir Modeller ze lancéieren déi am Python/R/Java op Hadoop geschriwwe sinn. Mir hunn eis déi ambitiéis Aufgab gesat fir ze léieren wéi all personaliséiert Ëmfeld op Hadoop lafen, fir d'Benotzer vun eiser Plattform op iergendeng Manéier net ze limitéieren.

Zousätzlech, wéi et sech erausstellt, sinn vill DS Spezialisten excellent an der Mathematik a Statistiken, maachen cool Modeller, awer si sinn net ganz gutt beherrscht a grouss Datentransformatiounen, a si brauchen d'Hëllef vun eisen Dateningenieuren fir Trainingsproben ze preparéieren. Mir hu beschloss eis Kollegen ze hëllefen a praktesch Moduler fir Standardtransformatioun an Virbereedung vun Features fir Modeller op der Spark-Motor ze kreéieren. Dëst erlaabt Iech méi Zäit ze verbréngen fir Modeller z'entwéckelen an net op Dateningenieuren ze waarden fir en neien Dataset ze preparéieren.

Mir beschäftegen Leit mat Wëssen an ënnerschiddleche Beräicher: Linux an DevOps, Hadoop a Spark, Java a Spring, Scala an Akka, OpenShift a Kubernetes. Déi nächst Kéier schwätze mir iwwer d'Modellbibliothéik, wéi e Modell sech duerch de Liewenszyklus an enger Firma beweegt, a wéi d'Validatioun an d'Ëmsetzung oflafen.

Source: will.com

Sber.DS ass eng Plattform déi Iech erlaabt Modeller ze kreéieren an ëmzesetzen och ouni Code

De Yuri Gagarin