Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

Da lori awọn ọrọ mi ni Highload++ ati DataFest Minsk 2019.

Fun ọpọlọpọ loni, meeli jẹ apakan pataki ti igbesi aye ori ayelujara. Pẹlu iranlọwọ rẹ, a ṣe ifọrọranṣẹ iṣowo, tọju gbogbo iru alaye pataki ti o ni ibatan si awọn inawo, awọn ifiṣura hotẹẹli, gbigbe awọn aṣẹ ati pupọ diẹ sii. Ni aarin-2018, a ṣe agbekalẹ ilana ọja kan fun idagbasoke meeli. Kini o yẹ ki ifiweranṣẹ ode oni dabi?

Mail gbọdọ jẹ ọlọgbọn, iyẹn ni, ṣe iranlọwọ fun awọn olumulo ni lilọ kiri iwọn didun ti alaye ti n pọ si: àlẹmọ, eto ati pese ni ọna irọrun julọ. O gbọdọ jẹ wulo, gbigba ọ laaye lati yanju awọn iṣẹ-ṣiṣe pupọ ni apoti ifiweranṣẹ rẹ, fun apẹẹrẹ, san awọn itanran (iṣẹ kan ti, laanu, Mo lo). Ati ni akoko kanna, dajudaju, meeli gbọdọ pese aabo alaye, gige kuro ni àwúrúju ati aabo lodi si gige sakasaka, iyẹn ni, jẹ. ailewu.

Awọn agbegbe wọnyi ṣalaye nọmba awọn iṣoro bọtini, ọpọlọpọ eyiti o le yanju ni imunadoko nipa lilo ẹkọ ẹrọ. Eyi ni awọn apẹẹrẹ ti awọn ẹya ti o ti wa tẹlẹ ti dagbasoke gẹgẹbi apakan ti ilana - ọkan fun itọsọna kọọkan.

  • Idahun Smart. Mail ni ẹya idahun ti o gbọn. Nẹtiwọọki nkankikan ṣe itupalẹ ọrọ ti lẹta naa, loye itumọ ati idi rẹ, ati bi abajade nfunni awọn aṣayan idahun mẹta ti o yẹ julọ: rere, odi ati didoju. Eyi ṣe iranlọwọ lati ṣafipamọ akoko ni pataki nigbati o ba n dahun awọn lẹta, ati nigbagbogbo dahun ni ọna ti kii ṣe boṣewa ati ẹrin.
  • Awọn imeeli akojọpọjẹmọ si ibere ni online oja. Nigbagbogbo a raja lori ayelujara, ati, gẹgẹbi ofin, awọn ile itaja le firanṣẹ awọn imeeli pupọ fun aṣẹ kọọkan. Fun apẹẹrẹ, lati AliExpress, iṣẹ ti o tobi julọ, ọpọlọpọ awọn lẹta ti o wa fun aṣẹ kan, ati pe a ṣe iṣiro pe ninu ọran ebute nọmba wọn le de ọdọ 29. Nitorina, nipa lilo awoṣe idanimọ ti a npè ni, a yọkuro nọmba ibere naa. ati alaye miiran lati ọrọ ati ẹgbẹ gbogbo awọn lẹta ni okun kan. A tun ṣafihan alaye ipilẹ nipa aṣẹ ni apoti lọtọ, eyiti o jẹ ki o rọrun lati ṣiṣẹ pẹlu iru imeeli yii.

    Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

  • Anti-ararẹ. Ararẹ jẹ iru imeeli arekereke ti o lewu paapaa, pẹlu iranlọwọ eyiti awọn ikọlu gbiyanju lati gba alaye inawo (pẹlu awọn kaadi banki olumulo) ati awọn wiwọle. Iru awọn lẹta ṣe farawe awọn ti gidi ti iṣẹ ranṣẹ, pẹlu wiwo. Nitorinaa, pẹlu iranlọwọ ti Iranran Kọmputa, a ṣe idanimọ awọn aami ati aṣa apẹrẹ ti awọn lẹta lati awọn ile-iṣẹ nla (fun apẹẹrẹ, Mail.ru, Sber, Alfa) ati mu eyi sinu akọọlẹ pẹlu ọrọ ati awọn ẹya miiran ninu àwúrúju wa ati awọn ikasi ararẹ .

Ẹrọ ẹrọ

Diẹ diẹ nipa ẹkọ ẹrọ ni imeeli ni gbogbogbo. Mail jẹ eto ti kojọpọ pupọ: aropin awọn lẹta 1,5 bilionu fun ọjọ kan kọja nipasẹ awọn olupin wa fun awọn olumulo 30 milionu DAU. Nipa awọn eto ikẹkọ ẹrọ 30 ṣe atilẹyin gbogbo awọn iṣẹ pataki ati awọn ẹya.

Lẹta kọọkan lọ nipasẹ gbogbo opo gigun ti ipin. Ni akọkọ a ge spam kuro ki o fi awọn apamọ ti o dara silẹ. Awọn olumulo nigbagbogbo ma ṣe akiyesi iṣẹ ti antispam, nitori 95-99% ti àwúrúju ko paapaa pari ni folda ti o yẹ. Idanimọ Spam jẹ apakan pataki pupọ ti eto wa, ati pe o nira julọ, nitori ni aaye ti egboogi-spam wa ni isọdọtun igbagbogbo laarin aabo ati awọn eto ikọlu, eyiti o pese ipenija imọ-ẹrọ lemọlemọ fun ẹgbẹ wa.

Nigbamii ti, a ya awọn lẹta si awọn eniyan ati awọn roboti. Awọn imeeli lati ọdọ eniyan jẹ pataki julọ, nitorinaa a pese awọn ẹya bii Idahun Smart fun wọn. Awọn lẹta lati awọn roboti ti pin si awọn apakan meji: idunadura - iwọnyi jẹ awọn lẹta pataki lati awọn iṣẹ, fun apẹẹrẹ, awọn ijẹrisi ti awọn rira tabi awọn ifiṣura hotẹẹli, inawo, ati alaye - iwọnyi jẹ ipolowo iṣowo, awọn ẹdinwo.

A gbagbọ pe awọn apamọ iṣowo jẹ dogba ni pataki si ifọrọranṣẹ ti ara ẹni. Wọn yẹ ki o wa ni ọwọ, nitori a nigbagbogbo nilo lati wa alaye ni kiakia nipa aṣẹ tabi ifiṣura tikẹti afẹfẹ, ati pe a lo akoko wiwa awọn lẹta wọnyi. Nitorinaa, fun irọrun, a pin wọn laifọwọyi si awọn ẹka akọkọ mẹfa: irin-ajo, awọn aṣẹ, iṣuna, awọn tikẹti, awọn iforukọsilẹ ati, nikẹhin, awọn itanran.

Awọn lẹta alaye jẹ eyiti o tobi julọ ati boya o kere si ẹgbẹ pataki, eyiti ko nilo idahun lẹsẹkẹsẹ, nitori ko si ohun pataki ti yoo yipada ninu igbesi aye olumulo ti ko ba ka iru lẹta kan. Ni wiwo tuntun wa, a pa wọn run si awọn okun meji: awọn nẹtiwọọki awujọ ati awọn iwe iroyin, nitorinaa ni oju wiwo apoti-iwọle ati fifi awọn ifiranṣẹ pataki nikan han.

Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

Ilokulo

Nọmba nla ti awọn eto nfa ọpọlọpọ awọn iṣoro ninu iṣiṣẹ. Lẹhinna, awọn awoṣe dinku lori akoko, bii eyikeyi sọfitiwia: awọn ẹya fifọ, awọn ẹrọ kuna, koodu di wiwọ. Ni afikun, data n yipada nigbagbogbo: awọn tuntun ti wa ni afikun, awọn ilana ihuwasi olumulo ti yipada, ati bẹbẹ lọ, nitorinaa awoṣe laisi atilẹyin to dara yoo ṣiṣẹ buru ati buru ju akoko lọ.

A ko gbọdọ gbagbe pe ẹkọ ẹrọ ti o jinlẹ wọ inu awọn igbesi aye awọn olumulo, ipa ti o tobi julọ ti wọn ni lori ilolupo eda, ati, bi abajade, awọn adanu owo diẹ sii tabi awọn oṣere ọja ere le gba. Nitorinaa, ni nọmba awọn agbegbe ti o pọ si, awọn oṣere n ṣatunṣe si iṣẹ ti awọn algoridimu ML (awọn apẹẹrẹ Ayebaye jẹ ipolowo, wiwa ati antispam ti a mẹnuba tẹlẹ).

Pẹlupẹlu, awọn iṣẹ ṣiṣe ikẹkọ ẹrọ ni iyatọ: eyikeyi, paapaa kekere, iyipada ninu eto le ṣe agbejade ọpọlọpọ iṣẹ pẹlu awoṣe: ṣiṣẹ pẹlu data, atunṣe, imuṣiṣẹ, eyiti o le gba awọn ọsẹ tabi awọn oṣu. Nitorinaa, yiyara agbegbe ti awọn awoṣe rẹ ṣiṣẹ awọn ayipada, igbiyanju diẹ sii ti o nilo lati ṣetọju wọn. Ẹgbẹ kan le ṣẹda ọpọlọpọ awọn ọna ṣiṣe ati ni idunnu nipa rẹ, ṣugbọn lẹhinna lo gbogbo awọn orisun rẹ lati ṣetọju wọn, laisi aye lati ṣe ohunkohun tuntun. A ni ẹẹkan pade iru ipo kan ni ẹgbẹ antispam. Ati pe wọn ṣe ipinnu ti o han gbangba pe atilẹyin nilo lati jẹ adaṣe.

Adaṣiṣẹ

Kini o le ṣe adaṣe? Fere ohun gbogbo, kosi. Mo ti ṣe idanimọ awọn agbegbe mẹrin ti o ṣalaye awọn amayederun ẹkọ ẹrọ:

  • gbigba data;
  • afikun ikẹkọ;
  • ran awọn;
  • igbeyewo & monitoring.

Ti agbegbe ko ba jẹ riru ati iyipada nigbagbogbo, lẹhinna gbogbo awọn amayederun ti o wa ni ayika awoṣe wa lati ṣe pataki pupọ ju awoṣe funrararẹ. O le jẹ classifier laini laini atijọ ti o dara, ṣugbọn ti o ba jẹ ifunni awọn ẹya ti o tọ ati gba esi to dara lati ọdọ awọn olumulo, yoo ṣiṣẹ dara julọ ju awọn awoṣe Ipinle-Of-The-Art pẹlu gbogbo awọn agogo ati awọn whistles.

Loop esi

Yi ọmọ daapọ data gbigba, afikun ikẹkọ ati imuṣiṣẹ - ni otitọ, gbogbo awoṣe imudojuiwọn ọmọ. Kini idi ti o ṣe pataki? Wo iṣeto iforukọsilẹ ninu meeli:

Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

Olùgbéejáde ẹkọ ẹrọ ti ṣe imuse awoṣe egboogi-bot ti o ṣe idiwọ awọn bot lati forukọsilẹ ni imeeli. Aya naa ṣubu si iye nibiti awọn olumulo gidi nikan wa. Ohun gbogbo ti jẹ nla! Ṣugbọn awọn wakati mẹrin kọja, awọn bot tweak awọn iwe afọwọkọ wọn, ati pe ohun gbogbo pada si deede. Ninu imuse yii, olupilẹṣẹ lo oṣu kan ti o ṣafikun awọn ẹya ati atunṣe awoṣe, ṣugbọn spammer ni anfani lati ṣe deede ni awọn wakati mẹrin.

Ni ibere ki o má ba ni irora pupọ ati pe ko ni lati tun ṣe ohun gbogbo nigbamii, a gbọdọ kọkọ ronu nipa ohun ti lupu esi yoo dabi ati ohun ti a yoo ṣe ti ayika ba yipada. Jẹ ki a bẹrẹ pẹlu gbigba data - eyi ni epo fun awọn algoridimu wa.

Gbigba data

O han gbangba pe fun awọn nẹtiwọọki neural ode oni, data diẹ sii, dara julọ, ati pe wọn jẹ, ni otitọ, ti ipilẹṣẹ nipasẹ awọn olumulo ti ọja naa. Awọn olumulo le ṣe iranlọwọ fun wa nipa isamisi data, ṣugbọn a ko le ṣe ilokulo eyi, nitori ni aaye kan awọn olumulo yoo rẹwẹsi lati pari awọn awoṣe rẹ ati pe yoo yipada si ọja miiran.

Ọkan ninu awọn aṣiṣe ti o wọpọ julọ (nibi Mo ṣe itọkasi si Andrew Ng) jẹ idojukọ pupọ lori awọn metiriki lori dataset idanwo, kii ṣe lori esi lati ọdọ olumulo, eyiti o jẹ iwọn akọkọ ti didara iṣẹ, niwọn igba ti a ṣẹda. ọja fun olumulo. Ti olumulo ko ba loye tabi ko fẹran iṣẹ ti awoṣe, lẹhinna ohun gbogbo ti bajẹ.

Nitorina, olumulo yẹ ki o nigbagbogbo ni anfani lati dibo ati pe o yẹ ki o fun ni ọpa kan fun esi. Ti a ba ro pe lẹta kan ti o ni ibatan si iṣuna ti de ninu apoti leta, a nilo lati samisi “inawo” ati fa bọtini kan ti olumulo le tẹ ki o sọ pe eyi kii ṣe inawo.

Didara esi

Jẹ ki a sọrọ nipa didara esi olumulo. Ni akọkọ, iwọ ati olumulo le fi awọn itumọ oriṣiriṣi sinu ero kan. Fun apẹẹrẹ, iwọ ati awọn alakoso ọja ro pe “inawo” tumọ si awọn lẹta lati banki, olumulo naa ro pe lẹta kan lati ọdọ iya-nla nipa owo ifẹyinti rẹ tun tọka si iṣuna. Ni ẹẹkeji, awọn olumulo wa ti o nifẹ lainidi lati tẹ awọn bọtini laisi ọgbọn eyikeyi. Ni ẹkẹta, olumulo le jẹ aṣiṣe jinna ninu awọn ipinnu rẹ. Apeere ti o yanilenu lati iṣe wa ni imuse ti classifier Àwúrúju Nàìjíríà, Iru apanilẹrin pupọ ti àwúrúju nibiti a ti beere olumulo lati gba ọpọlọpọ awọn dọla dọla lati ọdọ ibatan ti o jinna lojiji ni Afirika. Lẹhin imuse iyasọtọ yii, a ṣayẹwo awọn titẹ “Ko Spam” lori awọn imeeli wọnyi, ati pe o jẹ pe 80% ninu wọn jẹ àwúrúju Nàìjíríà sisanra ti, eyiti o daba pe awọn olumulo le jẹ alaigbọran pupọ.

Ki o si jẹ ki a maṣe gbagbe pe awọn bọtini le wa ni titẹ kii ṣe nipasẹ awọn eniyan nikan, ṣugbọn tun nipasẹ gbogbo awọn bot ti o ṣe bi ẹni pe o jẹ aṣàwákiri. Nitorinaa esi aise ko dara fun kikọ ẹkọ. Kini o le ṣe pẹlu alaye yii?

A lo awọn ọna meji:

  • Esi lati ML ti a ti sopọ. Fun apẹẹrẹ, a ni eto anti-bot lori ayelujara, eyiti, bi mo ti mẹnuba, ṣe ipinnu iyara ti o da lori nọmba to lopin ti awọn ami. Ati pe eto keji wa, o lọra ti o ṣiṣẹ lẹhin otitọ. O ni data diẹ sii nipa olumulo, ihuwasi rẹ, ati bẹbẹ lọ. Bi abajade, ipinnu alaye julọ ni a ṣe; ni ibamu, o ni deede ati pipe. O le ṣe itọsọna iyatọ ninu iṣiṣẹ ti awọn eto wọnyi si akọkọ bi data ikẹkọ. Nitorinaa, eto ti o rọrun yoo nigbagbogbo gbiyanju lati sunmọ iṣẹ ṣiṣe ti eka diẹ sii.
  • Tẹ classification. O le jiroro ni lẹtọ kọọkan olumulo tẹ, se ayẹwo awọn oniwe-wiwulo ati lilo. A ṣe eyi ni meeli antispam, ni lilo awọn abuda olumulo, itan-akọọlẹ rẹ, awọn abuda olufiranṣẹ, ọrọ funrararẹ ati abajade ti awọn ikasi. Bi abajade, a gba eto aifọwọyi ti o fọwọsi esi olumulo. Ati pe niwọn igba ti o nilo lati tun ṣe atunṣe pupọ diẹ sii nigbagbogbo, iṣẹ rẹ le di ipilẹ fun gbogbo awọn eto miiran. Pataki akọkọ ninu awoṣe yii jẹ konge, nitori ikẹkọ awoṣe lori data aiṣedeede jẹ pẹlu awọn abajade.

Lakoko ti a n sọ di mimọ ati ikẹkọ siwaju si awọn eto ML wa, a ko gbọdọ gbagbe nipa awọn olumulo, nitori fun wa, ẹgbẹẹgbẹrun, awọn miliọnu awọn aṣiṣe lori aworan jẹ awọn iṣiro, ati fun olumulo, gbogbo kokoro jẹ ajalu. Ni afikun si otitọ pe olumulo gbọdọ bakan gbe pẹlu aṣiṣe rẹ ninu ọja naa, lẹhin gbigba esi, o nireti pe iru ipo kan yoo yọkuro ni ọjọ iwaju. Nitorinaa, o tọ nigbagbogbo fun awọn olumulo kii ṣe aye lati dibo nikan, ṣugbọn tun lati ṣe atunṣe ihuwasi ti awọn eto ML, ṣiṣẹda, fun apẹẹrẹ, awọn heuristics ti ara ẹni fun titẹ esi kọọkan; ninu ọran meeli, eyi le jẹ agbara lati ṣe àlẹmọ iru awọn lẹta nipasẹ olufiranṣẹ ati akọle fun olumulo yii.

O tun nilo lati kọ awoṣe kan ti o da lori diẹ ninu awọn ijabọ tabi awọn ibeere lati ṣe atilẹyin ni ologbele-laifọwọyi tabi ipo afọwọṣe ki awọn olumulo miiran maṣe jiya iru awọn iṣoro kanna.

Heuristics fun ẹkọ

Awọn iṣoro meji wa pẹlu awọn heuristics ati awọn crutches wọnyi. Ni igba akọkọ ti ni wipe awọn lailai-npo nọmba ti crutches jẹ soro lati bojuto awọn, jẹ ki nikan wọn didara ati iṣẹ lori awọn gun gbigbe. Iṣoro keji ni pe aṣiṣe le ma jẹ loorekoore, ati awọn titẹ diẹ diẹ si ikẹkọ siwaju sii awoṣe kii yoo to. Yoo dabi pe awọn ipa meji ti ko ni ibatan le jẹ didoju ni pataki ti ọna atẹle ba lo.

  1. A ṣẹda kan ibùgbé crutch.
  2. A firanṣẹ data lati ọdọ rẹ si awoṣe, o ṣe imudojuiwọn ararẹ nigbagbogbo, pẹlu lori data ti o gba. Nibi, dajudaju, o ṣe pataki pe awọn heuristics ni iṣedede giga ki o má ba dinku didara data ninu eto ikẹkọ.
  3. Lẹhinna a ṣeto ibojuwo lati ṣe okunfa crutch, ati pe lẹhin igba diẹ crutch ko ṣiṣẹ mọ ati pe awoṣe ti bo patapata, lẹhinna o le yọ kuro lailewu. Bayi iṣoro yii ko ṣeeṣe lati ṣẹlẹ lẹẹkansi.

Nitorina ogun ti crutches wulo pupọ. Ohun akọkọ ni pe iṣẹ wọn jẹ iyara ati kii ṣe yẹ.

Afikun ikẹkọ

Retraining jẹ ilana ti fifi data titun ti o gba bi abajade esi lati ọdọ awọn olumulo tabi awọn ọna ṣiṣe miiran, ati ikẹkọ awoṣe ti o wa tẹlẹ lori rẹ. Awọn iṣoro pupọ le wa pẹlu ikẹkọ afikun:

  1. Awoṣe naa le jiroro ko ṣe atilẹyin ikẹkọ afikun, ṣugbọn kọ ẹkọ nikan lati ibere.
  2. Ko si nibikibi ninu iwe ti iseda ti a kọ pe ikẹkọ afikun yoo dajudaju mu didara iṣẹ ṣiṣẹ ni iṣelọpọ. Nigbagbogbo idakeji ṣẹlẹ, iyẹn ni, ibajẹ nikan ṣee ṣe.
  3. Awọn iyipada le jẹ airotẹlẹ. Eyi jẹ aaye arekereke ti a ti ṣe idanimọ fun ara wa. Paapaa ti awoṣe tuntun ninu idanwo A/B fihan iru awọn abajade ti a fiwewe si ti isiyi, eyi ko tumọ si pe yoo ṣiṣẹ ni aami. Iṣẹ́ wọn lè yàtọ̀ sí ìdá kan péré, èyí tó lè mú àwọn àṣìṣe tuntun wá tàbí kí wọ́n dá àwọn ògbólógbòó tí a ti ṣàtúnṣe padà. Awọn mejeeji ati awọn olumulo ti mọ tẹlẹ bi a ṣe le gbe pẹlu awọn aṣiṣe lọwọlọwọ, ati nigbati nọmba nla ti awọn aṣiṣe tuntun ba dide, olumulo le tun ko loye ohun ti n ṣẹlẹ, nitori pe o nireti ihuwasi asọtẹlẹ.

Nitorina, ohun pataki julọ ni ikẹkọ afikun ni lati rii daju pe awoṣe ti wa ni ilọsiwaju, tabi o kere ju ko buru sii.

Ohun akọkọ ti o wa si ọkan nigbati a ba sọrọ nipa ikẹkọ afikun ni ọna Ẹkọ Ti nṣiṣe lọwọ. Kini eleyi tumọ si? Fun apẹẹrẹ, classifier pinnu boya imeeli kan ni ibatan si iṣuna, ati ni ayika agbegbe ipinnu rẹ a ṣafikun apẹẹrẹ ti awọn apẹẹrẹ aami. Eyi ṣiṣẹ daradara, fun apẹẹrẹ, ni ipolowo, nibiti ọpọlọpọ awọn esi wa ati pe o le kọ awoṣe lori ayelujara. Ati pe ti awọn esi kekere ba wa, lẹhinna a gba apẹẹrẹ aibikita ti o ni ibatan si pinpin data iṣelọpọ, lori ipilẹ eyiti ko ṣee ṣe lati ṣe iṣiro ihuwasi ti awoṣe lakoko iṣiṣẹ.

Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

Ni otitọ, ibi-afẹde wa ni lati tọju awọn ilana atijọ, awọn awoṣe ti a ti mọ tẹlẹ, ati gba awọn tuntun. Ilọsiwaju jẹ pataki nibi. Awoṣe, eyiti a nigbagbogbo mu awọn irora nla lati yiyi, ti n ṣiṣẹ tẹlẹ, nitorinaa a le dojukọ iṣẹ rẹ.

Awọn awoṣe oriṣiriṣi lo ni meeli: awọn igi, laini, awọn nẹtiwọọki nkankikan. Fun ọkọọkan a ṣe afikun algorithm ikẹkọ ti ara wa. Ninu ilana ikẹkọ afikun, a gba kii ṣe data tuntun nikan, ṣugbọn tun nigbagbogbo awọn ẹya tuntun, eyiti a yoo ṣe akiyesi ni gbogbo awọn algoridimu ni isalẹ.

Awọn awoṣe laini

Jẹ ká sọ pé a ni logistic padasẹyin. A ṣẹda awoṣe pipadanu lati awọn paati wọnyi:

  • LogLoss lori data tuntun;
  • a ṣe deede awọn iwuwo ti awọn ẹya tuntun (a ko fi ọwọ kan awọn ti atijọ);
  • a tun kọ ẹkọ lati data atijọ lati le tọju awọn ilana atijọ;
  • ati, boya, ohun pataki julọ: a fi Harmonic Regularization, eyi ti o ṣe idaniloju pe awọn iwuwo kii yoo yi iyipada pupọ si awoṣe atijọ gẹgẹbi iwuwasi.

Niwọn igba ti paati Ipadanu kọọkan ni awọn iye-iye, a le yan awọn iye ti o dara julọ fun iṣẹ-ṣiṣe wa nipasẹ ijẹrisi-agbelebu tabi da lori awọn ibeere ọja.

Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

Awọn igi

Jẹ ki a lọ si awọn igi ipinnu. A ti ṣajọ algorithm atẹle fun ikẹkọ afikun ti awọn igi:

  1. Awọn iṣelọpọ nṣiṣẹ igbo ti awọn igi 100-300, eyiti o jẹ ikẹkọ lori ipilẹ data atijọ.
  2. Ni ipari a yọ M = 5 awọn ege ati ṣafikun 2M = 10 tuntun, ikẹkọ lori gbogbo eto data, ṣugbọn pẹlu iwuwo giga fun data tuntun, eyiti o ṣe iṣeduro nipa ti ara ẹni iyipada afikun ninu awoṣe.

O han ni, ni akoko pupọ, nọmba awọn igi pọ si pupọ, ati pe wọn gbọdọ dinku lorekore lati le ba awọn akoko mu. Lati ṣe eyi, a lo Distillation Imọye ti o wa ni gbogbo agbaye ni bayi (KD). Ni ṣoki nipa ilana ti iṣẹ rẹ.

  1. A ni awoṣe "eka" lọwọlọwọ. A ṣiṣe awọn ti o lori ikẹkọ data ṣeto ati ki o gba awọn iṣeeṣe kilasi pinpin ni o wu.
  2. Nigbamii ti, a ṣe ikẹkọ awoṣe ọmọ ile-iwe (awoṣe pẹlu awọn igi diẹ ninu ọran yii) lati tun awọn abajade awoṣe ṣe nipa lilo pinpin kilasi gẹgẹbi iyipada afojusun.
  3. O ṣe pataki lati ṣe akiyesi nibi pe a ko lo isamisi data ṣeto ni eyikeyi ọna, ati nitorinaa a le lo data lainidii. Nitoribẹẹ, a lo apẹẹrẹ data lati ṣiṣan ija bi apẹẹrẹ ikẹkọ fun awoṣe ọmọ ile-iwe. Nitorinaa, eto ikẹkọ gba wa laaye lati rii daju pe o jẹ deede ti awoṣe, ati apẹẹrẹ ṣiṣan n ṣe iṣeduro iṣẹ ṣiṣe kan lori pinpin iṣelọpọ, isanpada fun aibikita ti ṣeto ikẹkọ.

Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

Apapo awọn imuposi meji wọnyi (fifi awọn igi kun ati dinku nọmba wọn lorekore nipa lilo Distillation Imọ) ṣe idaniloju ifihan awọn ilana tuntun ati ilọsiwaju pipe.

Pẹlu iranlọwọ ti KD, a tun ṣe awọn iṣẹ oriṣiriṣi lori awọn ẹya awoṣe, gẹgẹbi yiyọ awọn ẹya ati ṣiṣẹ lori awọn ela. Ninu ọran wa, a ni nọmba awọn ẹya pataki iṣiro (nipasẹ awọn olufiranṣẹ, awọn hashes ọrọ, URL, ati bẹbẹ lọ) ti a fipamọ sinu ibi ipamọ data, eyiti o ṣọ lati kuna. Awoṣe, dajudaju, ko ṣetan fun iru idagbasoke awọn iṣẹlẹ, niwon awọn ipo ikuna ko waye ni eto ikẹkọ. Ni iru awọn iru bẹẹ, a darapọ KD ati awọn ilana imudara: nigba ikẹkọ fun apakan ti data, a yọkuro tabi tun awọn ẹya pataki, ati pe a mu awọn aami atilẹba (awọn abajade ti awoṣe lọwọlọwọ), ati awoṣe ọmọ ile-iwe kọ ẹkọ lati tun pinpin kaakiri yii. .

Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

A ṣe akiyesi pe ifọwọyi awoṣe to ṣe pataki diẹ sii waye, iwọn ogorun ti o tẹle ayẹwo okun ti o nilo.

Yiyọ ẹya ara ẹrọ, iṣẹ ti o rọrun julọ, nilo apakan kekere ti ṣiṣan, nitori pe awọn ẹya ara ẹrọ meji nikan yipada, ati pe awoṣe ti isiyi jẹ ikẹkọ lori eto kanna - iyatọ jẹ iwonba. Lati simplify awoṣe (idinku nọmba awọn igi ni igba pupọ), 50 si 50 ti nilo tẹlẹ. Ati fun awọn aṣiṣe ti awọn ẹya iṣiro pataki ti yoo ni ipa lori iṣẹ ti awoṣe, ani diẹ sii sisan ni a nilo lati ṣe ipele iṣẹ ti iṣẹ naa. titun omission-sooro awoṣe lori gbogbo awọn orisi ti awọn lẹta.

Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

FastText

Jẹ ki a lọ si FastText. Jẹ ki n leti pe aṣoju (Ifibọ) ti ọrọ kan ni iye ti ifibọ ọrọ naa funrararẹ ati gbogbo awọn lẹta N-grams rẹ, nigbagbogbo trigrams. Niwọn bi ọpọlọpọ awọn trigrams le wa, Bucket Hashing ti lo, iyẹn ni, yiyipada gbogbo aaye sinu hashmap ti o wa titi kan. Bi abajade, matrix iwuwo ni a gba pẹlu iwọn ti Layer inu fun nọmba awọn ọrọ + awọn buckets.

Pẹlu ikẹkọ afikun, awọn ami tuntun han: awọn ọrọ ati awọn trigrams. Ko si ohun pataki ti o ṣẹlẹ ni ikẹkọ atẹle atẹle lati Facebook. Awọn òṣuwọn atijọ nikan pẹlu entropy-agbelebu ni a tun ṣe ikẹkọ lori data tuntun. Nitorinaa, awọn ẹya tuntun ko lo; nitorinaa, ọna yii ni gbogbo awọn aila-nfani ti a ṣe alaye loke ti o ni nkan ṣe pẹlu airotẹlẹ ti awoṣe ni iṣelọpọ. Ti o ni idi ti a yipada FastText kekere kan. A ṣafikun gbogbo awọn iwuwo tuntun (awọn ọrọ ati awọn trigrams), faagun gbogbo matrix pẹlu agbelebu-entropy ati ṣafikun isọdọkan isọdọkan nipasẹ afiwe pẹlu awoṣe laini, eyiti o ṣe iṣeduro iyipada ti ko ṣe pataki ninu awọn iwuwo atijọ.

Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

CNN

Awọn nẹtiwọọki ariyanjiyan jẹ idiju diẹ sii. Ti awọn ipele ti o kẹhin ba pari ni CNN, lẹhinna, nitorinaa, o le lo isọdọkan isọdọkan ati iṣeduro ilosiwaju. Ṣugbọn ti o ba nilo ikẹkọ afikun ti gbogbo nẹtiwọọki, lẹhinna iru igbagbogbo ko le lo si gbogbo awọn ipele. Bibẹẹkọ, aṣayan wa lati ṣe ikẹkọ awọn ifibọ ibaramu nipasẹ Isonu Triplet (atilẹba article).

Isonu Meteta

Lilo iṣẹ-ṣiṣe egboogi-ararẹ gẹgẹbi apẹẹrẹ, jẹ ki a wo Isonu Triplet ni awọn ọrọ gbogbogbo. A gba aami wa, bakanna bi awọn apẹẹrẹ rere ati odi ti awọn aami ti awọn ile-iṣẹ miiran. A dinku aaye laarin akọkọ ati pe o pọju aaye laarin keji, a ṣe eyi pẹlu aafo kekere kan lati rii daju pe iwapọ nla ti awọn kilasi.

Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

Ti a ba ṣe ikẹkọ nẹtiwọọki siwaju, lẹhinna aaye metiriki wa yipada patapata, ati pe o jẹ ibamu patapata pẹlu ti iṣaaju. Eyi jẹ iṣoro pataki ni awọn iṣoro ti o lo awọn apọn. Lati wa ni ayika iṣoro yii, a yoo dapọ ni awọn ifibọ atijọ nigba ikẹkọ.

A ti ṣafikun data tuntun si eto ikẹkọ ati pe a n ṣe ikẹkọ ẹya keji ti awoṣe lati ibere. Ni ipele keji, a tun ṣe ikẹkọ nẹtiwọọki wa (Finetuning): akọkọ ipele ti o kẹhin ti pari, lẹhinna gbogbo nẹtiwọọki ko ni tutu. Ninu ilana ti kikọ awọn mẹta, a ṣe iṣiro apakan nikan ti awọn ifibọ nipa lilo awoṣe ikẹkọ, iyokù - lilo atijọ. Nitorinaa, ninu ilana ikẹkọ afikun, a rii daju ibamu ti awọn aaye metiriki v1 ati v2. Ẹya alailẹgbẹ ti isọdọtun ti irẹpọ.

Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

Gbogbo faaji

Ti a ba ṣe akiyesi gbogbo eto nipa lilo antispam bi apẹẹrẹ, lẹhinna awọn awoṣe ko ni iyasọtọ, ṣugbọn itẹ-ẹiyẹ laarin ara wọn. A ya awọn aworan, ọrọ ati awọn ẹya miiran, lilo CNN ati Ọrọ Yara a gba awọn ifibọ. Nigbamii ti, awọn ikawe ni a lo lori oke awọn ifibọ, eyiti o pese awọn ikun fun awọn kilasi pupọ (awọn iru awọn lẹta, àwúrúju, niwaju aami kan). Awọn ifihan agbara ati awọn ami ti nwọle tẹlẹ ninu igbo ti awọn igi fun ipinnu ikẹhin lati ṣe. Awọn kilasika ẹni kọọkan ninu ero yii jẹ ki o ṣee ṣe lati tumọ awọn abajade ti eto naa dara julọ ati diẹ sii ni atunṣe awọn paati pataki ni ọran ti awọn iṣoro, kuku ju ifunni gbogbo data sinu awọn igi ipinnu ni fọọmu aise.

Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

Bi abajade, a ṣe iṣeduro ilosiwaju ni gbogbo ipele. Ni ipele isalẹ ni CNN ati Ọrọ Yara a lo isọdọtun ti irẹpọ, fun awọn ikawe ni aarin a tun lo isọdọkan ti irẹpọ ati isọdọtun oṣuwọn fun aitasera ti pinpin iṣeeṣe. O dara, igbega igi jẹ ikẹkọ ni afikun tabi lilo Distillation Imọ.

Ni gbogbogbo, mimu iru eto ikẹkọ ẹrọ itẹ-ẹiyẹ nigbagbogbo jẹ irora, nitori pe eyikeyi paati ni ipele isalẹ nyorisi imudojuiwọn si gbogbo eto loke. Ṣugbọn niwọn bi o ti jẹ pe ninu iṣeto wa paati kọọkan yipada diẹ ati pe o ni ibamu pẹlu ọkan ti tẹlẹ, gbogbo eto le ṣe imudojuiwọn nkan nipasẹ nkan laisi iwulo lati tun gbogbo eto naa pada, eyiti o fun laaye laaye lati ṣe atilẹyin laisi oke pataki.

Ranṣẹ

A ti jiroro gbigba data ati ikẹkọ afikun ti awọn oriṣiriṣi awọn awoṣe, nitorinaa a nlọ si imuṣiṣẹ wọn sinu agbegbe iṣelọpọ.

A/B igbeyewo

Gẹgẹbi Mo ti sọ tẹlẹ, ninu ilana ti gbigba data, a maa n gba apẹẹrẹ aibikita, lati eyiti ko ṣee ṣe lati ṣe iṣiro iṣẹ iṣelọpọ ti awoṣe. Nitorinaa, nigba gbigbe, awoṣe gbọdọ ṣe afiwe pẹlu ẹya ti tẹlẹ lati loye bii awọn nkan ṣe n lọ nitootọ, iyẹn ni, ṣe awọn idanwo A/B. Ni otitọ, ilana ti yiyi jade ati itupalẹ awọn shatti jẹ igbagbogbo ati pe o le ṣe adaṣe ni irọrun. A yi awọn awoṣe wa jade ni diėdiė si 5%, 30%, 50% ati 100% ti awọn olumulo, lakoko ti o n gba gbogbo awọn metiriki ti o wa lori awọn idahun awoṣe ati awọn esi olumulo. Ninu ọran ti diẹ ninu awọn olutaja pataki, a yiyi awoṣe pada laifọwọyi, ati fun awọn ọran miiran, lẹhin gbigba nọmba to ti awọn titẹ olumulo, a pinnu lati mu ipin pọ si. Bi abajade, a mu awoṣe tuntun wa si 50% ti awọn olumulo patapata laifọwọyi, ati yiyi si gbogbo olugbo yoo fọwọsi nipasẹ eniyan, botilẹjẹpe igbesẹ yii le jẹ adaṣe.

Sibẹsibẹ, ilana idanwo A/B nfunni ni aye fun iṣapeye. Otitọ ni pe eyikeyi idanwo A/B jẹ pipẹ pupọ (ninu ọran wa o gba lati awọn wakati 6 si 24 da lori iye esi), eyiti o jẹ ki o gbowolori pupọ ati pẹlu awọn orisun to lopin. Ni afikun, ipin sisan ti o ga to fun idanwo naa ni a nilo lati mu iyara gbogbogbo ti idanwo A/B pọ si (gbigba apẹẹrẹ iṣiro kan lati ṣe iṣiro awọn metiriki ni ipin kekere le gba akoko pipẹ pupọ), eyiti o jẹ ki awọn nọmba ti A / B iho lalailopinpin ni opin. O han ni, a nilo lati ṣe idanwo nikan awọn awoṣe ti o ni ileri julọ, eyiti a gba pupọ pupọ lakoko ilana ikẹkọ afikun.

Lati yanju iṣoro yii, a ṣe ikẹkọ olutọpa lọtọ ti o sọ asọtẹlẹ aṣeyọri ti idanwo A/B kan. Lati ṣe eyi, a mu awọn iṣiro ṣiṣe ipinnu, Itọkasi, ÌRÁNTÍ ati awọn metiriki miiran lori eto ikẹkọ, lori ọkan ti a da duro, ati lori apẹẹrẹ lati ṣiṣan bi awọn ẹya ara ẹrọ. A tun ṣe afiwe awoṣe pẹlu eyiti o wa lọwọlọwọ ni iṣelọpọ, pẹlu heuristics, ati ṣe akiyesi Idiwọn ti awoṣe naa. Lilo gbogbo awọn ẹya wọnyi, olutọpa ikẹkọ lori itan idanwo ṣe iṣiro awọn awoṣe oludije, ninu ọran wa iwọnyi jẹ awọn igbo ti awọn igi, ati pinnu kini lati lo ninu idanwo A/B.

Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

Ni akoko imuse, ọna yii gba wa laaye lati mu nọmba awọn idanwo A / B aṣeyọri ni igba pupọ.

Idanwo & Abojuto

Idanwo ati ibojuwo, lainidi, ko ṣe ipalara fun ilera wa; dipo, ni ilodi si, wọn mu dara si ati mu wa lọwọ wahala ti ko wulo. Idanwo n gba ọ laaye lati yago fun ikuna, ati ibojuwo gba ọ laaye lati rii ni akoko lati dinku ipa lori awọn olumulo.

O ṣe pataki lati ni oye nibi pe laipẹ tabi ya eto rẹ yoo ṣe awọn aṣiṣe nigbagbogbo - eyi jẹ nitori ọna idagbasoke ti sọfitiwia eyikeyi. Ni ibẹrẹ ti idagbasoke eto nigbagbogbo ọpọlọpọ awọn idun wa titi ohun gbogbo yoo fi yanju ati ipele akọkọ ti ĭdàsĭlẹ ti pari. Ṣugbọn ni akoko pupọ, entropy gba owo rẹ, ati awọn aṣiṣe han lẹẹkansi - nitori ibajẹ ti awọn paati ni ayika ati iyipada ninu data, eyiti Mo ti sọrọ nipa ni ibẹrẹ.

Nibi Emi yoo fẹ lati ṣe akiyesi pe eyikeyi eto ikẹkọ ẹrọ yẹ ki o gbero lati oju-ọna ti èrè rẹ jakejado gbogbo igbesi aye rẹ. Aworan ti o wa ni isalẹ fihan apẹẹrẹ ti bii eto naa ṣe n ṣiṣẹ lati yẹ iru àwúrúju kan ti o ṣọwọn (ila ti o wa ninu aworan naa wa nitosi odo). Ni ọjọ kan, nitori abuda ipamọ ti ko tọ, o ya were. Bi orire yoo ni, ko si ibojuwo fun okunfa ajeji; bi abajade, eto naa bẹrẹ fifipamọ awọn lẹta ni titobi nla si folda “àwúrúju” ni aala ṣiṣe ipinnu. Pelu atunṣe awọn abajade, eto naa ti ṣe awọn aṣiṣe ni ọpọlọpọ igba ti kii yoo sanwo fun ara rẹ paapaa ni ọdun marun. Ati pe eyi jẹ ikuna pipe lati oju-ọna ti igbesi aye awoṣe.

Isẹ ti ẹkọ ẹrọ ni Mail.ru Mail

Nitorinaa, iru nkan ti o rọrun bi ibojuwo le di bọtini ni igbesi aye awoṣe kan. Ni afikun si boṣewa ati awọn metiriki ti o han gbangba, a gbero pinpin awọn idahun awoṣe ati awọn ikun, bakanna bi pinpin awọn iye ẹya ara ẹrọ bọtini. Lilo iyatọ KL, a le ṣe afiwe pinpin lọwọlọwọ pẹlu itan itan tabi awọn iye ti o wa ninu idanwo A / B pẹlu iyokù ṣiṣan, eyiti o fun wa laaye lati ṣe akiyesi awọn aiṣedeede ninu awoṣe ki o yi awọn ayipada pada ni akoko ti akoko.

Ni ọpọlọpọ awọn ọran, a ṣe ifilọlẹ awọn ẹya akọkọ ti awọn ọna ṣiṣe ni lilo awọn heuristics ti o rọrun tabi awọn awoṣe ti a lo bi ibojuwo ni ọjọ iwaju. Fun apẹẹrẹ, a ṣe atẹle awoṣe NER ni lafiwe pẹlu awọn deede fun awọn ile itaja ori ayelujara kan pato, ati pe ti o ba jẹ pe agbegbe ikasi silẹ ni lafiwe pẹlu wọn, lẹhinna a loye awọn idi. Miiran wulo lilo ti heuristics!

Awọn esi

Jẹ ki ká lọ lori awọn bọtini ero ti awọn article lẹẹkansi.

  • Fibdeck. A nigbagbogbo ronu nipa olumulo: bawo ni yoo ṣe gbe pẹlu awọn aṣiṣe wa, bawo ni yoo ṣe le jabo wọn. Maṣe gbagbe pe awọn olumulo kii ṣe orisun ti awọn esi mimọ fun awọn awoṣe ikẹkọ, ati pe o nilo lati sọ di mimọ pẹlu iranlọwọ ti awọn eto ML iranlọwọ. Ti ko ba ṣee ṣe lati gba ifihan agbara kan lati ọdọ olumulo, lẹhinna a wa awọn orisun miiran ti esi, fun apẹẹrẹ, awọn ọna ṣiṣe ti a ti sopọ.
  • Afikun ikẹkọ. Ohun akọkọ nibi ni ilosiwaju, nitorinaa a gbẹkẹle awoṣe iṣelọpọ lọwọlọwọ. A ṣe ikẹkọ awọn awoṣe tuntun ki wọn ko yatọ pupọ si ti iṣaaju nitori isọdọkan isọdọkan ati awọn ẹtan ti o jọra.
  • Ranṣẹ. Gbigbe aifọwọyi ti o da lori awọn metiriki dinku akoko pupọ fun imuse awọn awoṣe. Awọn iṣiro abojuto ati pinpin ti ṣiṣe ipinnu, nọmba awọn isubu lati ọdọ awọn olumulo jẹ dandan fun oorun isinmi rẹ ati ipari ose ti iṣelọpọ.

O dara, Mo nireti pe eyi ṣe iranlọwọ fun ọ ni ilọsiwaju awọn ọna ṣiṣe ML rẹ ni iyara, gba wọn lati ta ọja ni iyara, ati jẹ ki wọn ni igbẹkẹle diẹ sii ati ki o dinku aapọn.

orisun: www.habr.com

Fi ọrọìwòye kun