Mae Sber.DS yn blatfform sy'n eich galluogi i greu a gweithredu modelau hyd yn oed heb god

Mae syniadau a chyfarfodydd ynghylch pa brosesau eraill y gellir eu hawtomeiddio yn codi bob dydd mewn busnesau o wahanol feintiau. Ond yn ogystal â'r ffaith y gellir treulio llawer o amser ar greu model, mae angen i chi ei dreulio ar ei werthuso a gwirio nad yw'r canlyniad a gafwyd ar hap. Ar ôl gweithredu, rhaid monitro unrhyw fodel a'i wirio o bryd i'w gilydd.

A dyma'r holl gamau y mae angen eu cwblhau mewn unrhyw gwmni, waeth beth fo'i faint. Os ydym yn sôn am raddfa ac etifeddiaeth Sberbank, mae nifer y mireinio yn cynyddu'n sylweddol. Erbyn diwedd 2019, roedd Sber eisoes wedi defnyddio mwy na 2000 o fodelau. Nid yw’n ddigon datblygu model yn unig; mae angen integreiddio â systemau diwydiannol, datblygu marchnadoedd data ar gyfer adeiladu modelau, a sicrhau rheolaeth ar ei weithrediad ar y clwstwr.

Mae Sber.DS yn blatfform sy'n eich galluogi i greu a gweithredu modelau hyd yn oed heb god

Mae ein tîm yn datblygu platfform Sber.DS. Mae'n caniatáu ichi ddatrys problemau dysgu peiriannau, yn cyflymu'r broses o brofi damcaniaethau, mewn egwyddor yn symleiddio'r broses o ddatblygu a dilysu modelau, a hefyd yn rheoli canlyniad y model yn PROM.

Er mwyn peidio â thwyllo'ch disgwyliadau, rwyf am ddweud ymlaen llaw bod y swydd hon yn un rhagarweiniol, ac o dan y toriad, i ddechrau, rydym yn siarad am yr hyn, mewn egwyddor, sydd o dan gwfl platfform Sber.DS. Byddwn yn adrodd y stori am gylch bywyd y model o'i greu i'w weithredu ar wahân.

Mae Sber.DS yn cynnwys sawl cydran, a'r rhai allweddol yw'r llyfrgell, system ddatblygu a system gweithredu model.

Mae Sber.DS yn blatfform sy'n eich galluogi i greu a gweithredu modelau hyd yn oed heb god

Mae'r llyfrgell yn rheoli cylch bywyd y model o'r eiliad y mae'r syniad i'w ddatblygu yn ymddangos hyd nes y caiff ei weithredu yn PROM, monitro a datgomisiynu. Mae llawer o alluoedd llyfrgell yn cael eu pennu gan reolau rheolydd, er enghraifft, adrodd a storio samplau hyfforddi a dilysu. Mewn gwirionedd, mae hon yn gofrestr o'n holl fodelau.

Mae'r system ddatblygu wedi'i chynllunio ar gyfer datblygiad gweledol modelau a thechnegau dilysu. Mae'r modelau datblygedig yn cael eu dilysu'n gychwynnol ac yn cael eu cyflenwi i'r system weithredu i gyflawni eu swyddogaethau busnes. Hefyd, yn y system amser rhedeg, gellir gosod y model ar fonitor at ddiben lansio technegau dilysu o bryd i'w gilydd i fonitro ei weithrediad.

Mae yna sawl math o nodau yn y system. Mae rhai wedi'u cynllunio i gysylltu â ffynonellau data amrywiol, mae eraill wedi'u cynllunio i drawsnewid data ffynhonnell a'i gyfoethogi (marcio). Mae yna lawer o nodau ar gyfer adeiladu gwahanol fodelau a nodau ar gyfer eu dilysu. Gall y datblygwr lwytho data o unrhyw ffynhonnell, trawsnewid, hidlo, delweddu data canolradd, a'i dorri'n rhannau.

Mae'r platfform hefyd yn cynnwys modiwlau parod y gellir eu llusgo a'u gollwng i'r ardal ddylunio. Perfformir yr holl gamau gweithredu gan ddefnyddio rhyngwyneb gweledol. Mewn gwirionedd, gallwch chi ddatrys y broblem heb un llinell o god.

Os nad yw'r galluoedd adeiledig yn ddigon, mae'r system yn darparu'r gallu i greu eich modiwlau eich hun yn gyflym. Gwnaethom ddull datblygu integredig yn seiliedig ar Porth Cnewyllyn Jupyter ar gyfer y rhai sy'n creu modiwlau newydd o'r dechrau.

Mae Sber.DS yn blatfform sy'n eich galluogi i greu a gweithredu modelau hyd yn oed heb god

Mae pensaernïaeth Sber.DS wedi'i adeiladu ar ficrowasanaethau. Mae yna lawer o farnau ynglŷn â beth yw microwasanaethau. Mae rhai pobl yn meddwl ei bod yn ddigon i rannu'r cod monolithig yn rhannau, ond ar yr un pryd maent yn dal i fynd i'r un gronfa ddata. Rhaid i'n microwasanaeth gyfathrebu â microwasanaeth arall trwy REST API yn unig. Dim atebion i gael mynediad i'r gronfa ddata yn uniongyrchol.

Ceisiwn sicrhau nad yw gwasanaethau'n mynd yn fawr ac yn drwsgl: ni ddylai un achos ddefnyddio mwy na 4-8 gigabeit o RAM a rhaid iddo ddarparu'r gallu i raddfa ceisiadau yn llorweddol trwy lansio achosion newydd. Mae pob gwasanaeth yn cyfathrebu ag eraill trwy REST API yn unig (Agor API). Mae'n ofynnol i'r tîm sy'n gyfrifol am y gwasanaeth gadw'r API yn ôl yn gydnaws tan y cleient olaf sy'n ei ddefnyddio.

Mae craidd y cais wedi'i ysgrifennu yn Java gan ddefnyddio Fframwaith y Gwanwyn. Dyluniwyd yr ateb i ddechrau i'w ddefnyddio'n gyflym yn seilwaith y cwmwl, felly adeiladwyd y cymhwysiad gan ddefnyddio system cynhwysydd Red Hat OpenShift (Kubernetes). Mae'r platfform yn esblygu'n gyson, o ran cynyddu ymarferoldeb busnes (mae cysylltwyr newydd, AutoML yn cael eu hychwanegu) ac o ran effeithlonrwydd technolegol.

Un o nodweddion ein platfform yw y gallwn redeg cod a ddatblygwyd mewn rhyngwyneb gweledol ar unrhyw system gweithredu model Sberbank. Nawr mae dau ohonyn nhw eisoes: un ar Hadoop, a'r llall ar OpenShift (Docker). Nid ydym yn stopio yno ac yn creu modiwlau integreiddio i redeg cod ar unrhyw seilwaith, gan gynnwys ar y safle ac yn y cwmwl. O ran y posibiliadau o integreiddio effeithiol i ecosystem Sberbank, rydym hefyd yn bwriadu cefnogi gwaith gydag amgylcheddau gweithredu presennol. Yn y dyfodol, gellir integreiddio’r datrysiad yn hyblyg “allan o’r bocs” i unrhyw dirwedd o unrhyw sefydliad.

Mae'r rhai sydd erioed wedi ceisio cefnogi datrysiad sy'n rhedeg Python ar Hadoop yn PROM yn gwybod nad yw'n ddigon i baratoi a chyflwyno amgylchedd defnyddiwr Python i bob datanod. Ni fydd y nifer enfawr o lyfrgelloedd C/C ++ ar gyfer dysgu peirianyddol sy'n defnyddio modiwlau Python yn caniatáu ichi orffwys yn hawdd. Rhaid inni gofio diweddaru pecynnau wrth ychwanegu llyfrgelloedd neu weinyddion newydd, tra'n cynnal cydnawsedd yn ôl â chod model a weithredwyd eisoes.

Mae sawl ffordd o wneud hyn. Er enghraifft, paratowch sawl llyfrgell a ddefnyddir yn aml ymlaen llaw a'u rhoi ar waith yn PROM. Yn nosbarthiad Hadoop Cloudera, maen nhw'n defnyddio fel arfer parsel. Hefyd yn awr yn Hadoop mae'n bosibl rhedeg docwr-cynwysyddion. Mewn rhai achosion syml mae'n bosibl cyflwyno'r cod ynghyd â'r pecyn python.wyau.

Mae'r banc yn cymryd diogelwch rhedeg cod trydydd parti o ddifrif, felly rydym yn gwneud y gorau o nodweddion newydd y cnewyllyn Linux, lle mae proses yn rhedeg mewn amgylchedd ynysig gofod enw Linux, gallwch gyfyngu, er enghraifft, mynediad i'r rhwydwaith a disg lleol, sy'n lleihau'n sylweddol y galluoedd cod maleisus. Mae ardaloedd data pob adran wedi'u diogelu ac yn hygyrch i berchnogion y data hwn yn unig. Mae'r platfform yn sicrhau y gall data o un ardal gyrraedd ardal arall dim ond trwy broses cyhoeddi data gyda rheolaeth ar bob cam o fynediad i ffynonellau i lanio data yn y blaen siop targed.

Mae Sber.DS yn blatfform sy'n eich galluogi i greu a gweithredu modelau hyd yn oed heb god

Eleni rydym yn bwriadu cwblhau'r MVP o lansio modelau a ysgrifennwyd yn Python/R/Java ar Hadoop. Rydym wedi gosod y dasg uchelgeisiol i ni ein hunain o ddysgu sut i redeg unrhyw amgylchedd arferol ar Hadoop, er mwyn peidio â chyfyngu ar ddefnyddwyr ein platfform mewn unrhyw ffordd.

Yn ogystal, fel y digwyddodd, mae llawer o arbenigwyr DS yn rhagorol mewn mathemateg ac ystadegau, yn gwneud modelau cŵl, ond nid ydynt yn gyfarwydd iawn â thrawsnewidiadau data mawr, ac mae angen cymorth ein peirianwyr data arnynt i baratoi samplau hyfforddi. Fe benderfynon ni helpu ein cydweithwyr a chreu modiwlau cyfleus ar gyfer trawsnewid safonol a pharatoi nodweddion ar gyfer modelau ar yr injan Spark. Bydd hyn yn caniatáu ichi dreulio mwy o amser yn datblygu modelau a pheidio ag aros i beirianwyr data baratoi set ddata newydd.

Rydym yn cyflogi pobl â gwybodaeth mewn gwahanol feysydd: Linux a DevOps, Hadoop a Spark, Java a Spring, Scala ac Akka, OpenShift a Kubernetes. Y tro nesaf byddwn yn siarad am y llyfrgell fodel, sut mae'r model yn mynd trwy'r cylch bywyd o fewn y cwmni, sut mae dilysu a gweithredu yn digwydd.

Ffynhonnell: hab.com

Ychwanegu sylw