Prògram Còmhnaidheach Yandex, no Mar as urrainn do Neach-taic eòlach a bhith na Einnseanair ML

Prògram Còmhnaidheach Yandex, no Mar as urrainn do Neach-taic eòlach a bhith na Einnseanair ML

Tha Yandex a’ fosgladh prògram còmhnaidh ann an ionnsachadh innealan airson luchd-leasachaidh backend eòlach. Ma tha thu air tòrr a sgrìobhadh ann an C ++/Python agus gu bheil thu airson an t-eòlas seo a chuir an sàs ann an ML, ionnsaichidh sinn dhut mar a nì thu rannsachadh practaigeach agus mar a bheir thu seachad comhairlichean eòlach. Obraichidh tu air prìomh sheirbheisean Yandex agus gheibh thu sgilean ann an raointean leithid modalan sreathach agus àrdachadh caisead, siostaman molaidh, lìonraidhean neural airson mion-sgrùdadh ìomhaighean, teacsa agus fuaim. Ionnsaichidh tu cuideachd mar a nì thu measadh ceart air na modalan agad a’ cleachdadh meatrach far-loidhne agus air-loidhne.

Is e fad a ’phrògraim aon bhliadhna, nuair a bhios com-pàirtichean ag obair ann an roinn fiosrachaidh inneal agus rannsachadh Yandex, a bharrachd air a bhith an làthair aig òraidean agus co-labhairtean. Tha com-pàirteachadh air a phàigheadh ​​​​agus tha e a’ toirt a-steach obair làn-ùine: 40 uair san t-seachdain, a’ tòiseachadh air 1 Iuchar am-bliadhna. Tha tagraidhean a-nis fosgailte agus mairidh e gu 1 Cèitean. 

Agus a-nis nas mionaidiche - mu dè an seòrsa luchd-èisteachd a tha sinn a 'feitheamh, dè am pròiseas obrach a bhios ann agus, san fharsaingeachd, mar as urrainn do eòlaiche deireadh-cùil atharrachadh gu dreuchd ann an ML.

Directivity

Tha Prògraman Còmhnaidh aig mòran chompanaidhean, a’ gabhail a-steach, mar eisimpleir, Google agus Facebook. Tha iad gu sònraichte ag amas air eòlaichean òga agus meadhan-ìre a tha a’ feuchainn ri ceum a ghabhail a dh’ionnsaigh rannsachadh ML. Tha am prògram againn airson luchd-èisteachd eadar-dhealaichte. Tha sinn a’ toirt cuireadh do luchd-leasachaidh backend a tha air eòlas gu leòr fhaighinn mar-thà agus aig a bheil fios le cinnt gum feum iad, nan comasan, gluasad gu ML, gus sgilean practaigeach fhaighinn - chan e sgilean neach-saidheans - ann a bhith a’ fuasgladh dhuilgheadasan ionnsachaidh innealan gnìomhachais. Chan eil seo a 'ciallachadh nach eil sinn a' toirt taic do luchd-rannsachaidh òga. Tha sinn air prògram fa leth a chuir air dòigh dhaibh - duais ainmeachadh an dèidh Ilya Segalovich, a tha cuideachd a 'leigeil leat a bhith ag obair ann an Yandex.

Càite am bi an neach-còmhnaidh ag obair?

Anns an Roinn Inneal Fiosrachaidh agus Rannsachadh, bidh sinn fhìn a’ leasachadh bheachdan pròiseict. Is e prìomh thùs brosnachaidh litreachas saidheansail, artaigilean, agus gluasadan sa choimhearsnachd rannsachaidh. Bidh mo cho-obraichean agus mise a’ dèanamh mion-sgrùdadh air na leugh sinn, a’ coimhead air mar as urrainn dhuinn na dòighean a mhol luchd-saidheans a leasachadh no a leudachadh. Aig an aon àm, bidh gach fear againn a 'toirt aire don raon eòlais agus ùidhean aige, a' cruthachadh a 'ghnìomh stèidhichte air na raointean a tha e a' meas cudromach. Mar as trice bidh am beachd airson pròiseact air a bhreith aig crois-rathaid toraidhean rannsachadh bhon taobh a-muigh agus na comasan agad fhèin.

Tha an siostam seo math oir tha e gu ìre mhòr a 'fuasgladh nan duilgheadasan teicneòlais aig seirbheisean Yandex eadhon mus èirich iad. Nuair a tha duilgheadas mu choinneimh seirbheis, thig na riochdairean againn thugainn, is coltaiche gun gabh iad na teicneòlasan a tha sinn air ullachadh mar-thà, agus chan eil air fhàgail ach a chuir an sàs gu ceart san toradh. Mura h-eil rudeigin deiseil, cuimhnichidh sinn gu sgiobalta co-dhiù far an urrainn dhuinn “tòiseachadh a’ cladhach” agus anns na h-artaigilean a choimheadas sinn airson fuasgladh. Mar a tha fios againn, is e an dòigh saidheansail seasamh air guailnean fuamhairean.

Dè a dhèanamh

Aig Yandex - agus eadhon gu sònraichte nar riaghladh - tha a h-uile raon iomchaidh de ML gan leasachadh. Is e an t-amas againn càileachd measgachadh farsaing de thoraidhean a leasachadh, agus tha seo na bhrosnachadh airson a h-uile dad ùr fheuchainn. A bharrachd air an sin, bidh seirbheisean ùra a’ nochdadh gu cunbhalach. Mar sin tha am prògram òraidean a’ toirt a-steach na prìomh raointean (air an deagh dhearbhadh) de ionnsachadh innealan ann an leasachadh gnìomhachais. Nuair a bha mi a’ cur ri chèile mo phàirt den chùrsa, chleachd mi m’ eòlas teagaisg aig an Sgoil Mion-sgrùdadh Dàta, a bharrachd air stuthan agus obair thidsearan SHAD eile. Tha fios agam gun do rinn mo cho-obraichean an aon rud.

Anns na ciad mhìosan, bidh trèanadh a rèir prògram a’ chùrsa a’ dèanamh suas mu 30% den ùine obrach agad, an uairsin timcheall air 10%. Ach, tha e cudromach tuigsinn gun lean a bhith ag obair leis na modalan ML fhèin timcheall air ceithir tursan nas lugha na na pròiseasan co-cheangailte riutha. Tha iad sin a’ toirt a-steach a bhith ag ullachadh an backend, a’ faighinn dàta, a’ sgrìobhadh loidhne-phìoban airson a phròiseasadh ro-làimh, a’ leasachadh còd, ag atharrachadh gu bathar-cruaidh sònraichte, msaa. Tha innleadair ML, ma thogras tu, na leasaiche làn-chruach (dìreach le cuideam nas motha air ionnsachadh innealan). , comasach air duilgheadas fhuasgladh bho thoiseach gu deireadh. Eadhon le modail deiseil, is dòcha gum feum thu grunn ghnìomhan eile a dhèanamh: co-shìnte a chuir gu bàs thairis air grunn innealan, ullachadh buileachadh ann an cruth làimhseachaidh, leabharlann, no pàirtean den t-seirbheis fhèin.

Roghainn oileanach
Nam biodh tu fon bheachd gu bheil e nas fheàrr a bhith nad innleadair ML le bhith ag obair an toiseach mar leasaiche backend, chan eil seo fìor. Tha clàradh san aon ShAD gun eòlas fìor ann a bhith a’ leasachadh sheirbheisean, ag ionnsachadh agus a’ fàs gu mòr ann an iarrtas air a’ mhargaidh na dheagh roghainn. Thàinig mòran de eòlaichean Yandex gu crìch anns na dreuchdan gnàthach aca san dòigh seo. Ma tha companaidh sam bith deiseil airson obair a thabhann dhut ann an raon ML dìreach às deidh ceumnachadh, bu chòir dhut gabhail ris an tairgse cuideachd. Feuch ri faighinn a-steach do sgioba math le comhairliche eòlach agus dèan deiseil airson tòrr ionnsachadh.

Dè mar as trice a chuireas casg ort bho bhith a’ dèanamh ML?

Ma tha cùl-taic ag amas air a bhith na innleadair ML, faodaidh e taghadh bho dhà raon leasachaidh - gun a bhith a’ toirt aire don phrògram còmhnaidh.

An toiseach, dèan sgrùdadh mar phàirt de chùrsa foghlaim air choreigin. Leasanan Bheir Coursera thu nas fhaisge air tuigse fhaighinn air na dòighean bunaiteach, ach gus do bhogadh fhèin sa phroifeasanta gu ìre gu leòr, feumaidh tu tòrr a bharrachd ùine a chaitheamh air. Mar eisimpleir, ceumnaiche bho ShAD. Thar nam bliadhnaichean, bha àireamh eadar-dhealaichte de chùrsaichean aig ShAD gu dìreach air ionnsachadh innealan - gu cuibheasach, timcheall air ochd. Tha gach fear dhiubh dha-rìribh cudromach agus feumail, nam measg ann am beachd luchd-ceumnachaidh. 

San dàrna h-àite, faodaidh tu pàirt a ghabhail ann am pròiseactan sabaid far am feum thu aon algairim ML no fear eile a chuir an gnìomh. Ach, chan eil ach glè bheag de phròiseactan mar seo air a’ mhargaidh leasachaidh IT: chan eilear a’ cleachdadh ionnsachadh innealan anns a’ mhòr-chuid de ghnìomhan. Fiù ‘s ann am bancaichean a tha gu gnìomhach a’ sgrùdadh chothroman co-cheangailte ri ML, chan eil ach beagan dhiubh an sàs ann am mion-sgrùdadh dàta. Mura b’ urrainn dhut a dhol còmhla ri aon de na sgiobaidhean sin, is e an aon roghainn a th’ agad do phròiseact fhèin a thòiseachadh (far am bi thu, is dòcha, a’ suidheachadh na cinn-latha agad fhèin, agus chan eil mòran aig seo ri gnìomhan cinneasachaidh sabaid), no tòiseachadh air farpais air adhart. Kaggle.

Gu dearbh, dèan sgioba còmhla ri buill eile den choimhearsnachd agus feuch thu fhèin ann am farpaisean an ìre mhath furasta - gu sònraichte ma chuireas tu suas do sgilean le trèanadh agus na cùrsaichean air an deach iomradh a thoirt air Coursera. Tha ceann-latha aig gach farpais - bidh e na bhrosnachadh dhut agus gad ullachadh airson siostam coltach ris ann an companaidhean IT. Is e dòigh mhath a tha seo - a tha, ge-tà, cuideachd beagan dealaichte bho phròiseasan fìor. Air Kaggle gheibh thu dàta ro-ghiollach, ged nach eil e an-còmhnaidh foirfe; na bi a 'tairgsinn smaoineachadh air na tha iad a' cur ris an toradh; agus as cudromaiche, chan fheum iad fuasglaidhean a tha freagarrach airson cinneasachadh. Is dòcha gun obraich na h-algorithms agad agus gum bi iad fìor cheart, ach bidh na modailean agus an còd agad mar Frankenstein air am fuaigheal ri chèile bho dhiofar phàirtean - ann am pròiseact cinneasachaidh, obraichidh an structar gu lèir ro shlaodach, bidh e duilich ùrachadh agus leudachadh (mar eisimpleir, bidh algorithms cànain is guth an-còmhnaidh air ath-sgrìobhadh gu ìre mar a bhios an cànan a’ fàs). Tha ùidh aig companaidhean anns an fhìrinn gum faod an obair a tha air a liostadh a bhith air a dhèanamh chan ann a-mhàin leat fhèin (tha e soilleir gum faod thu fhèin, mar ùghdar an fhuasglaidh, seo a dhèanamh), ach cuideachd le gin de na co-obraichean agad. Thathas a’ bruidhinn air an eadar-dhealachadh eadar prògramadh spòrs is tionnsgalach много, agus bidh Kaggle ag oideachadh “lùth-chleasaichean” gu mionaideach - eadhon ged a nì e fìor mhath e, a’ toirt cothrom dhaibh beagan eòlais fhaighinn.

Thug mi cunntas air dà loidhne leasachaidh a dh’ fhaodadh a bhith ann - trèanadh tro phrògraman foghlaim agus trèanadh “ann an sabaid”, mar eisimpleir air Kaggle. Tha am prògram còmhnaidh na mheasgachadh den dà dhòigh seo. Bidh òraidean agus co-labhairtean aig ìre ShAD, a bharrachd air pròiseactan fìor sabaid, a’ feitheamh riut.

Source: www.habr.com

Cuir beachd ann