Tha Sber.DS na àrd-ùrlar a leigeas leat modalan a chruthachadh agus a bhuileachadh eadhon gun chòd

Bidh beachdan agus coinneamhan mu dè na pròiseasan eile a dh’ fhaodadh a bhith fèin-ghluasadach ag èirigh gach latha ann an gnìomhachasan de dhiofar mheudan. Ach a bharrachd air an fhìrinn gum faodar tòrr ùine a chaitheamh air modal a chruthachadh, feumaidh tu a chaitheamh air a mheasadh agus dèanamh cinnteach nach eil an toradh a gheibhear air thuaiream. Às deidh a bhuileachadh, feumar sùil a chumail air modal sam bith agus a sgrùdadh bho àm gu àm.

Agus is iad sin na h-ìrean uile a dh’ fheumar a chrìochnachadh ann an companaidh sam bith, ge bith dè am meud. Ma tha sinn a 'bruidhinn mu dheidhinn an sgèile agus an dìleab Sberbank, an àireamh de mion-gleusadh àrdachadh gu mòr. Ro dheireadh 2019, bha Sber mu thràth air còrr air 2000 modal a chleachdadh. Chan eil e gu leòr dìreach modal a leasachadh; feumar aonachadh le siostaman gnìomhachais, margaidhean dàta a leasachadh airson modalan togail, agus dèanamh cinnteach à smachd air obrachadh air a’ bhuidheann.

Tha Sber.DS na àrd-ùrlar a leigeas leat modalan a chruthachadh agus a bhuileachadh eadhon gun chòd

Tha an sgioba againn a’ leasachadh àrd-ùrlar Sber.DS. Leigidh e leat duilgheadasan ionnsachadh innealan fhuasgladh, a ’luathachadh pròiseas deuchainn barailean, ann am prionnsapal a’ sìmpleachadh pròiseas leasachadh agus dearbhadh mhodalan, agus cuideachd a ’cumail smachd air toradh a’ mhodail ann am PROM.

Gus nach bi thu a 'mealladh na tha thu a' sùileachadh, tha mi airson a ràdh ro-làimh gur e dreuchd tòiseachaidh a th 'anns an dreuchd seo, agus fon ghearradh, airson luchd-tòiseachaidh, bidh sinn a' bruidhinn mu na tha, ann am prionnsabal, fo chochall àrd-ùrlar Sber.DS. Innsidh sinn an sgeulachd mu chuairt-beatha a’ mhodail bho chruthachadh gu buileachadh air leth.

Tha grunn phàirtean ann an Sber.DS, is e am prìomh fheadhainn an leabharlann, siostam leasachaidh agus siostam buileachaidh modail.

Tha Sber.DS na àrd-ùrlar a leigeas leat modalan a chruthachadh agus a bhuileachadh eadhon gun chòd

Bidh an leabharlann a’ cumail smachd air cearcall-beatha a’ mhodail bhon mhionaid a nochdas am beachd airson a leasachadh gus an tèid a bhuileachadh ann am PROM, sgrùdadh agus dì-choimiseanadh. Tha mòran de chomasan leabharlainn air an òrdachadh le riaghailtean riaghlaiche, mar eisimpleir, aithris agus stòradh sampaill trèanaidh is dearbhaidh. Gu dearbh, is e seo clàr de na modalan againn uile.

Tha an siostam leasachaidh air a dhealbhadh airson leasachadh lèirsinneach air modailean agus dòighean dearbhaidh. Thèid na modailean leasaichte a dhearbhadh an toiseach agus thèid an toirt don t-siostam gnìomh gus na gnìomhan gnìomhachais aca a choileanadh. Cuideachd, anns an t-siostam runtime, faodar am modail a chuir air monitor gus dòighean dearbhaidh a chuir air bhog bho àm gu àm gus sùil a chumail air a ghnìomhachd.

Tha grunn sheòrsaichean de nodan anns an t-siostam. Tha cuid air an dealbhadh gus ceangal ri diofar stòran dàta, tha cuid eile air an dealbhadh gus dàta stòr atharrachadh agus a neartachadh (comharradh). Tha mòran nodan ann airson diofar mhodalan agus nodan a thogail airson an dearbhadh. Faodaidh an leasaiche dàta a luchdachadh bho stòr sam bith, cruth-atharrachadh, sìoladh, sealladh dàta eadar-mheadhanach, agus a bhriseadh na phàirtean.

Tha modalan deiseil anns an àrd-ùrlar cuideachd a dh'fhaodar a shlaodadh agus a leigeil a-steach don raon dealbhaidh. Bithear a’ coileanadh a h-uile gnìomh le bhith a’ cleachdadh eadar-aghaidh lèirsinneach. Gu dearbh, faodaidh tu an duilgheadas fhuasgladh gun aon loidhne de chòd.

Mura h-eil na comasan togte gu leòr, bheir an siostam comas dhut na modalan agad fhèin a chruthachadh gu sgiobalta. Rinn sinn modh leasachaidh aonaichte stèidhichte air Geata Jupyter Kernel dhaibhsan a chruthaicheas modalan ùra bhon fhìor thoiseach.

Tha Sber.DS na àrd-ùrlar a leigeas leat modalan a chruthachadh agus a bhuileachadh eadhon gun chòd

Tha ailtireachd Sber.DS air a thogail air microservices. Tha mòran bheachdan ann mu dè a th’ ann am microservices. Tha cuid den bheachd gu bheil e gu leòr an còd monolithic a roinn ann am pàirtean, ach aig an aon àm bidh iad fhathast a 'dol chun an aon stòr-dàta. Feumaidh ar microservice conaltradh le microservice eile a-mhàin tro REST API. Chan eil dòighean-obrach ann gus faighinn chun stòr-dàta gu dìreach.

Bidh sinn a’ feuchainn ri dèanamh cinnteach nach bi seirbheisean a’ fàs glè mhòr agus neo-shoilleir: cha bu chòir do aon eisimpleir barrachd air 4-8 gigabytes de RAM ithe agus feumaidh sinn comas a thoirt seachad airson iarrtasan a mheudachadh gu còmhnard le bhith a’ cur air bhog suidheachaidhean ùra. Bidh gach seirbheis a’ conaltradh ri càch a-mhàin tro REST API (Fosgail API). Feumaidh an sgioba le uallach airson an t-seirbheis an API a chumail air ais co-chosmhail ris an neach-dèiligidh mu dheireadh a chleachdas e.

Tha cridhe an tagraidh sgrìobhte ann an Java a’ cleachdadh Frèam an Earraich. Chaidh am fuasgladh a dhealbhadh an toiseach airson a chleachdadh gu sgiobalta ann am bun-structar sgòthan, agus mar sin chaidh an tagradh a thogail a’ cleachdadh siostam gleidhidh Red Red OpenShift (Kubernetes). Tha an àrd-ùrlar an-còmhnaidh ag atharrachadh, an dà chuid a thaobh gnìomhachd gnìomhachais a mheudachadh (tha luchd-ceangail ùra, AutoML gan cur ris) agus a thaobh èifeachdas teicneòlach.

Is e aon de na feartan aig an àrd-ùrlar againn gun urrainn dhuinn còd a leasachadh ann an eadar-aghaidh lèirsinneach air siostam buileachaidh modail Sberbank sam bith. A-nis tha dhà dhiubh ann mu thràth: aon air Hadoop, am fear eile air OpenShift (Docker). Cha bhith sinn a’ stad an sin agus a’ cruthachadh mhodalan amalachaidh gus còd a ruith air bun-structar sam bith, a’ gabhail a-steach san togalach agus san sgòth. A thaobh na cothroman air amalachadh èifeachdach a-steach do eag-shiostam Sberbank, tha sinn cuideachd an dùil taic a thoirt do obair le àrainneachdan cur gu bàs a th’ ann mar-thà. Anns an àm ri teachd, faodar am fuasgladh fhilleadh a-steach gu sùbailte “a-mach às a’ bhogsa ”a-steach do chruth-tìre sam bith de bhuidheann sam bith.

Tha fios aig an fheadhainn a dh'fheuch a-riamh ri taic a thoirt do fhuasgladh a tha a 'ruith Python air Hadoop ann am PROM nach eil e gu leòr àrainneachd cleachdaiche Python ullachadh agus a lìbhrigeadh gu gach datanode. Cha leig an àireamh mhòr de leabharlannan C/C ++ airson ionnsachadh innealan a chleachdas modalan Python leat fois a ghabhail. Feumaidh sinn cuimhneachadh air pasganan ùrachadh nuair a bhios sinn a’ cur leabharlannan no frithealaichean ùra ris, agus aig an aon àm a’ cumail co-chòrdalachd air ais le còd modail a chaidh a chuir an gnìomh mar-thà.

Tha grunn dhòighean ann airson seo a dhèanamh. Mar eisimpleir, ullaich grunn leabharlannan a chleachdar gu tric ro làimh agus cuir an gnìomh iad ann am PROM. Ann an cuairteachadh Hadoop aig Cloudera, bidh iad a 'cleachdadh mar as trice parsail. Cuideachd a-nis ann an Hadoop tha e comasach ruith docker- soithichean. Ann an cuid de chùisean sìmplidh tha e comasach an còd a lìbhrigeadh còmhla ris a’ phacaid python.uighean.

Tha am banca a’ toirt fìor dha-rìreabh tèarainteachd còd ruith treas-phàrtaidh, agus mar sin bidh sinn a’ dèanamh an fheum as fheàrr de fheartan ùra an kernel Linux, far a bheil pròiseas a’ ruith ann an àrainneachd iomallach. Ainm-àite airson Linux, faodaidh tu cuingealachadh, mar eisimpleir, ruigsinneachd air an lìonra agus diosc ionadail, a tha gu mòr a’ lughdachadh comasan còd droch-rùnach. Tha raointean dàta gach roinn air an dìon agus ruigsinneach a-mhàin do shealbhadairean an dàta seo. Bidh an àrd-ùrlar a’ dèanamh cinnteach nach urrainn dàta bho aon raon raon eile a ruighinn ach tro phròiseas foillseachaidh dàta le smachd aig a h-uile ìre bho ruigsinneachd gu stòran gu bhith a’ cur dàta air tìr air an aghaidh stòrais.

Tha Sber.DS na àrd-ùrlar a leigeas leat modalan a chruthachadh agus a bhuileachadh eadhon gun chòd

Am-bliadhna tha sinn an dùil crìoch a chuir air an MVP de mhodalan cur air bhog sgrìobhte ann am Python / R / Java air Hadoop. Tha sinn air an obair àrd-amasach a shuidheachadh dhuinn fhìn a bhith ag ionnsachadh mar a ruitheas sinn àrainneachd àbhaisteach sam bith air Hadoop, gus nach cuir sinn bacadh air luchd-cleachdaidh an àrd-ùrlar againn ann an dòigh sam bith.

A bharrachd air an sin, mar a thàinig e a-mach, tha mòran de eòlaichean DS sàr-mhath ann am matamataig agus staitistig, a ’dèanamh mhodalan fionnar, ach chan eil iad gu math eòlach air cruth-atharrachaidhean dàta mòr, agus feumaidh iad cuideachadh bho ar n-innleadairean dàta gus sampallan trèanaidh ullachadh. Cho-dhùin sinn ar co-obraichean a chuideachadh agus modalan goireasach a chruthachadh airson cruth-atharrachadh àbhaisteach agus ullachadh feartan airson modalan air an einnsean Spark. Leigidh seo leat barrachd ùine a chaitheamh a’ leasachadh mhodalan agus gun a bhith a’ feitheamh ri innleadairean dàta dàta ùr ullachadh.

Bidh sinn a’ fastadh dhaoine le eòlas ann an diofar raointean: Linux agus DevOps, Hadoop and Spark, Java and Spring, Scala agus Akka, OpenShift agus Kubernetes. An ath thuras bruidhnidh sinn mun leabharlann mhodail, mar a thèid am modail tro chuairt-beatha a ’chompanaidh, mar a bhios dearbhadh agus buileachadh a’ tachairt.

Source: www.habr.com

Cuir beachd ann