🥇Sber.DS ir platforma, kas ļauj jums izveidot un ieviest modeļus pat bez kodēšanas

Idejas un diskusijas par to, kādus citus procesus varētu automatizēt, rodas katru dienu visu lielumu uzņēmumos. Taču, lai gan modeļa izveide var aizņemt ievērojamu laiku, tas prasa arī laiku, kas pavadīts tā izvērtēšanā un pārbaudē, vai rezultāti nav nejauši. Pēc ieviešanas jebkurš modelis ir jāuzrauga un periodiski jāpārskata.

Šie visi ir posmi, kas jāiziet jebkuram uzņēmumam neatkarīgi no tā lieluma. Ņemot vērā Sberbank mērogu un mantojumu, precizēšanas prasību skaits pieaug eksponenciāli. Līdz 2019. gada beigām Sberbank jau izmantoja vairāk nekā 2000 modeļu. Ar modeļa izstrādi vienkārši nepietiek; ir nepieciešama integrācija ar rūpnieciskajām sistēmām, datu krātuvju izstrāde modeļu veidošanai un tā uzraudzības nodrošināšana visā klasterī.

Mūsu komanda izstrādā Sber.DS platformu. Tā nodrošina mašīnmācīšanās uzdevumu veikšanu, paātrina hipotēžu testēšanu, vienkāršo modeļu izstrādi un validāciju, kā arī uzrauga modeļa veiktspēju PROM vidē.

Lai izvairītos no vilšanās, vēlos uzreiz norādīt, ka šis ieraksts ir ievads, un turpmāk es sākšu ar Sber.DS platformas darbības pamatprincipu paskaidrošanu. Modeļa dzīves ciklu, sākot no izveides līdz ieviešanai, aplūkosim atsevišķā rakstā.

Sber.DS sastāv no vairākiem komponentiem, no kuriem galvenie ir bibliotēka, izstrādes sistēma un modeļa izpildes sistēma.

Bibliotēka pārvalda modeļa dzīves ciklu, sākot no brīža, kad rodas ideja par tā izstrādi, līdz tā ieviešanai PROM, uzraudzībai un deaktivizēšanai. Daudzas bibliotēkas iespējas nosaka normatīvie noteikumi, piemēram, apmācības un validācijas datu kopu ziņošana un glabāšana. Būtībā tas ir visu mūsu modeļu reģistrs.

Izstrādes sistēma ir paredzēta modeļu un validācijas metožu vizuālai izstrādei. Izstrādātie modeļi tiek pakļauti sākotnējai validācijai un tiek piegādāti izpildes sistēmai, lai veiktu savas biznesa funkcijas. Modeli var arī uzraudzīt izpildes sistēmā, lai periodiski palaistu validācijas metodes tā darbības uzraudzībai.

Sistēmai ir vairāku veidu mezgli. Daži ir paredzēti savienojuma izveidei ar dažādiem datu avotiem, bet citi tiek izmantoti avota datu pārveidošanai un bagātināšanai (apzīmēšanai). Ir daudz mezglu dažādu modeļu veidošanai un mezgli to validēšanai. Izstrādātājs var ielādēt datus no jebkura avota, pārveidot, filtrēt, vizualizēt starpdatus un sadalīt tos daļās.

Platformā ir iekļauti arī gatavi moduļi, kurus var vilkt un nomest projekta apgabalā. Visas darbības tiek veiktas, izmantojot vizuālu saskarni. Faktiski problēmu var atrisināt, nerakstot nevienu koda rindiņu.

Ja iebūvētās iespējas nav pietiekamas, sistēma nodrošina iespēju ātri izveidot savus moduļus. Esam izveidojuši integrētu izstrādes režīmu, kas balstīts uz Jupyter kodola vārteja tiem, kas veido jaunus moduļus no nulles.

Sber.DS arhitektūra ir veidota uz mikropakalpojumiem. Pastāv daudzi viedokļi par to, kas ir mikropakalpojumi. Daži uzskata, ka pietiek ar monolīta koda sadalīšanu daļās, taču tās joprojām piekļūst vienai un tai pašai datubāzei. Mūsuprāt, mikropakalpojumam ir jāsazinās ar citu mikropakalpojumu tikai caur REST API. Nav risinājumu tiešai piekļuvei datubāzei.

Mēs cenšamies nepieļaut, ka pakalpojumi kļūst pārāk lieli un apgrūtinoši: vienai instancei nevajadzētu patērēt vairāk par 4–8 gigabaitiem RAM un tai jāspēj horizontāli mērogot pieprasījumus, palaižot jaunas instances. Katrs pakalpojums sazinās ar citiem tikai, izmantojot REST API (Atvērt API). Par pakalpojumu atbildīgā komanda ir spiesta uzturēt API atpakaļsaderību līdz pēdējam klientam, kas to izmanto.

Lietojumprogrammas kodols ir rakstīts Java valodā, izmantojot Spring Framework. Risinājums tika izstrādāts no paša sākuma, lai to varētu ātri izvietot mākoņinfrastruktūrā, tāpēc tas tika veidots, izmantojot konteinerizācijas sistēmu. Red Hat OpenShift (KubernetesPlatforma nepārtraukti attīstās gan biznesa funkcionalitātes paplašināšanas (tiek pievienoti jauni savienotāji un AutoML), gan tehnoloģiskās efektivitātes ziņā.

Viena no mūsu platformas galvenajām iezīmēm ir tā, ka mēs varam palaist vizuālajā saskarnē izstrādātu kodu jebkurā Sberbank izpildlaika sistēmā. Pašlaik mums ir divas: viena Hadoop un viena OpenShift (Docker). Mēs neapstājamies pie tā, veidojot integrācijas moduļus koda palaišanai jebkurā infrastruktūrā, tostarp lokāli un mākonī. Lai nodrošinātu efektīvu integrāciju Sberbank ekosistēmā, mēs plānojam atbalstīt arī esošās izpildlaika vides. Nākotnē risinājumu varēs elastīgi integrēt "ārpus kastes" jebkuras organizācijas vidē.

Ikviens, kurš jebkad ir mēģinājis atbalstīt risinājumu, kas darbojas ar Python operētājsistēmā Hadoop PROM vidē, zina, ka vienkārši sagatavot un izvietot pielāgotu Python vidi katrā datu mezglā nav pietiekami. Milzīgais C/C++ mašīnmācīšanās bibliotēku skaits, kas izmanto Python moduļus, jūs liks elpai aizrauties. Pievienojot jaunas bibliotēkas vai serverus, jāatceras atjaunināt pakotnes, saglabājot atpakaļsaderību ar esošo modeļa kodu.

To var izdarīt vairākos veidos. Piemēram, iepriekš sagatavot vairākas bieži izmantotas bibliotēkas un ieviest tās PROM. Cloudera Hadoop distribūcija parasti izmanto zemes gabalsArī tagad Hadoop ir iespēja palaist dokers-konteineri. Dažos vienkāršos gadījumos kodu ir iespējams piegādāt kopā ar iepakojumu. python.eggs.

Banka ļoti nopietni uztver trešo pušu koda palaišanas drošību, tāpēc mēs maksimāli izmantojam jaunās kodola funkcijas. Linux, kur process darbojas izolētā vidē Linux namespacePiemēram, piekļuvi tīklam un lokālajam diskam var ierobežot, ievērojami samazinot ļaunprātīga koda iespējamību. Katras nodaļas datu zonas ir aizsargātas un pieejamas tikai šo datu īpašniekiem. Platforma nodrošina, ka dati no vienas zonas var sasniegt citu tikai caur datu publicēšanas procesu ar kontroli visos posmos, sākot no piekļuves avotiem līdz datu nonākšanai mērķa krātuvē.

Šogad plānojam pabeigt MVP testu Python/R/Java valodā rakstītu modeļu palaišanai Hadoop vidē. Esam izvirzījuši sev ambiciozu mērķi iemācīties palaist jebkuru lietotāja vidi Hadoop vidē, lai nekādā veidā neierobežotu mūsu platformas lietotājus.

Turklāt izrādās, ka daudzi datu zinātnieki ir labi pārzina matemātiku un statistiku un veido lieliskus modeļus, taču viņiem trūkst pamatīgas izpratnes par lielo datu transformācijām un viņiem ir nepieciešama mūsu datu inženieru palīdzība, lai sagatavotu apmācības datu kopas. Mēs nolēmām palīdzēt saviem kolēģiem, izveidojot lietotājam draudzīgus moduļus standarta transformācijām un funkciju sagatavošanai Spark balstītiem modeļiem. Tas ļaus mums veltīt vairāk laika modeļu izstrādei un izvairīties no gaidīšanas, kamēr datu inženieri sagatavos jaunu datu kopu.

Mēs nodarbinām cilvēkus ar zināšanām dažādās jomās: Linux un DevOps, Hadoop un Spark, Java un Spring, Scala un Akka, OpenShift un Kubernetes. Nākamajā reizē mēs runāsim par modeļu bibliotēku, to, kā modelis virzās cauri dzīves ciklam uzņēmumā, un kā notiek validācija un ieviešana.

Avots: www.habr.com

Sber.DS ir platforma, kas ļauj izveidot un ieviest modeļus pat bez koda

Jurijs Gagarins