Operasyon nan aprantisaj machin nan Mail.ru Mail

Operasyon nan aprantisaj machin nan Mail.ru Mail

Dapre diskou mwen yo nan Highload++ ak DataFest Minsk 2019.

Pou anpil moun jodi a, lapòs se yon pati entegral nan lavi sou entènèt. Avèk èd li, nou fè korespondans biznis, magazen tout kalite enfòmasyon enpòtan ki gen rapò ak finans, rezèrvasyon otèl, mete lòd ak plis ankò. Nan mitan ane 2018, nou te fòme yon estrateji pwodwi pou devlopman lapòs. Ki jan lapòs modèn ta dwe ye?

Mail dwe entelijan, se sa ki, ede itilizatè yo navige volim nan ogmante nan enfòmasyon: filtre, estrikti ak bay li nan fason ki pi pratik. Li dwe ye itil, ki pèmèt ou rezoud plizyè travay dwat nan bwat lèt ou a, pou egzanp, peye amann (yon fonksyon ke, malerezman, mwen itilize). Ak an menm tan an, nan kou, lapòs dwe bay pwoteksyon enfòmasyon, koupe spam ak pwoteje kont piratage, se sa ki, dwe san danje.

Zòn sa yo defini yon kantite pwoblèm kle, anpil nan yo ka efektivman rezoud lè l sèvi avèk aprantisaj machin. Men kèk egzanp sou karakteristik ki deja egziste devlope kòm yon pati nan estrateji a - youn pou chak direksyon.

  • Smart Reply. Mail gen yon karakteristik repons entelijan. Rezo neral la analize tèks lèt la, konprann siyifikasyon li ak objektif li, epi kòm yon rezilta ofri twa opsyon repons ki pi apwopriye: pozitif, negatif ak net. Sa a ede siyifikativman ekonomize tan lè w reponn lèt, epi tou souvan reponn nan yon fason ki pa estanda ak komik.
  • Gwoupman imèlki gen rapò ak lòd nan magazen sou entènèt. Nou souvan achte sou entènèt, epi, kòm yon règ, magazen yo ka voye plizyè imèl pou chak lòd. Pou egzanp, soti nan AliExpress, pi gwo sèvis la, yon anpil nan lèt vini nan pou yon sèl lòd, epi nou kalkile ke nan ka tèminal la nimewo yo ta ka rive jiska 29. Se poutèt sa, lè l sèvi avèk modèl la Rekonesans antite ki rele, nou ekstrè nimewo a lòd. ak lòt enfòmasyon ki soti nan tèks la ak gwoup tout lèt nan yon sèl fil. Nou montre tou enfòmasyon debaz sou lòd la nan yon bwat separe, ki fè li pi fasil pou travay ak kalite imel sa a.

    Operasyon nan aprantisaj machin nan Mail.ru Mail

  • Antiphishing. Èskrokri se yon kalite imèl ki trè danjere, ak èd ki atakè yo eseye jwenn enfòmasyon finansye (ki gen ladan kat labank itilizatè a) ak koneksyon. Lèt sa yo imite lèt reyèl yo voye pa sèvis la, ki gen ladan yo vizyèlman. Se poutèt sa, avèk èd nan Computer Vision, nou rekonèt logo ak style nan konsepsyon nan lèt ki soti nan gwo konpayi (pa egzanp, Mail.ru, Sber, Alfa) epi pran sa a an kont ansanm ak tèks ak lòt karakteristik nan klasifikasyon spam ak èskrokri nou an. .

Aprantisaj machin

Yon ti kras sou aprantisaj machin nan imèl an jeneral. Mail se yon sistèm trè chaje: yon mwayèn de 1,5 milya lèt pa jou pase nan sèvè nou yo pou 30 milyon itilizatè DAU. Apeprè 30 sistèm aprantisaj machin sipòte tout fonksyon ak karakteristik ki nesesè yo.

Chak lèt ​​ale nan yon tiyo klasifikasyon tout antye. Premye nou koupe spam epi kite bon imèl. Itilizatè yo souvan pa remake travay la nan antispam, paske 95-99% nan spam pa menm fini nan katab ki apwopriye a. Spam rekonesans se yon pati trè enpòtan nan sistèm nou an, ak pi difisil la, depi nan jaden an nan anti-spam gen yon adaptasyon konstan ant defans ak sistèm atak, ki bay yon defi jeni kontinyèl pou ekip nou an.

Apre sa, nou separe lèt ki soti nan moun ak robo. Imèl ki soti nan moun yo se pi enpòtan an, kidonk nou bay karakteristik tankou Smart Reply pou yo. Lèt ki soti nan robo yo divize an de pati: tranzaksyon - sa yo se lèt enpòtan nan sèvis, pou egzanp, konfimasyon acha oswa rezèvasyon otèl, finans, ak enfòmasyon - sa yo se piblisite biznis, rabè.

Nou kwè ke imèl tranzaksyon yo egal nan enpòtans ak korespondans pèsonèl. Yo ta dwe nan men, paske nou souvan bezwen byen vit jwenn enfòmasyon sou yon lòd oswa rezèvasyon tikè avyon, epi nou pase tan pou chèche lèt sa yo. Se poutèt sa, pou konvenyans, nou otomatikman divize yo an sis kategori prensipal: vwayaj, lòd, finans, tikè, anrejistreman ak, finalman, amann.

Lèt enfòmasyon yo se gwoup la pi gwo ak pwobableman mwens enpòtan, ki pa mande pou yon repons imedya, paske pa gen anyen enpòtan ki pral chanje nan lavi itilizatè a si li pa li yon lèt konsa. Nan nouvo koòdone nou an, nou tonbe yo nan de fil: rezo sosyal ak bilten, kidonk vizyèlman netwaye bwat resepsyon an epi kite sèlman mesaj enpòtan vizib.

Operasyon nan aprantisaj machin nan Mail.ru Mail

Operasyon

Yon gwo kantite sistèm lakòz anpil difikilte nan operasyon. Apre yo tout, modèl degrade sou tan, tankou nenpòt lojisyèl: karakteristik kraze, machin echwe, kòd vin kwochi. Anplis de sa, done yo toujou ap chanje: yo ajoute nouvo, modèl konpòtman itilizatè yo transfòme, elatriye, kidonk yon modèl san sipò apwopriye ap travay pi mal ak pi mal sou tan.

Nou pa dwe bliye ke aprantisaj machin nan pi fon antre nan lavi itilizatè yo, se pi gwo enpak yo genyen sou ekosistèm nan, epi, kòm yon rezilta, plis pèt finansye oswa pwofi jwè mache yo ka resevwa. Se poutèt sa, nan yon nimewo ogmante nan zòn, jwè yo ap adapte yo ak travay la nan algoritm ML (egzanp klasik yo se piblisite, rechèch ak antispam ki deja mansyone).

Epitou, travay aprantisaj machin yo gen yon patikilye: nenpòt, menm minè, chanjman nan sistèm nan ka jenere yon anpil nan travay ak modèl la: travay ak done, re-formation, deplwaman, ki ka pran semèn oswa mwa. Se poutèt sa, pi vit anviwònman an nan ki modèl ou yo opere chanjman, se plis efò li mande pou kenbe yo. Yon ekip ka kreye yon anpil nan sistèm epi yo dwe kontan sou li, men Lè sa a, depanse prèske tout resous li yo kenbe yo, san yo pa opòtinite pou fè anyen nouvo. Nou yon fwa te rankontre yon sitiyasyon konsa nan ekip antispam la. Apre sa, yo te fè konklizyon evidan ke sipò bezwen yo dwe otomatize.

Otomatik

Ki sa ki ka otomatize? Prèske tout bagay, aktyèlman. Mwen te idantifye kat domèn ki defini enfrastrikti aprantisaj machin yo:

  • koleksyon done;
  • fòmasyon adisyonèl;
  • deplwaye;
  • tès ak siveyans.

Si anviwònman an enstab epi li toujou ap chanje, Lè sa a, tout enfrastrikti alantou modèl la vin pi enpòtan pase modèl la tèt li. Li ka yon bon klasifikasyon lineyè fin vye granmoun, men si ou manje li karakteristik yo ki dwat epi jwenn bon fidbak nan men itilizatè yo, li pral travay pi bon pase modèl eta-of-the-art ak tout klòch yo ak sifle.

Feedback Loop

Sik sa a konbine koleksyon done, fòmasyon adisyonèl ak deplwaman - an reyalite, tout sik aktyalizasyon modèl la. Poukisa li enpòtan? Gade orè enskripsyon an pa lapòs:

Operasyon nan aprantisaj machin nan Mail.ru Mail

Yon pwomotè aprantisaj machin te aplike yon modèl anti-bot ki anpeche bots enskri nan imèl. Graf la desann nan yon valè kote sèlman itilizatè reyèl rete. Tout bagay se gwo! Men, kat èdtan pase, bots yo ajiste scripts yo, ak tout bagay retounen nan nòmal. Nan aplikasyon sa a, pwomotè a te pase yon mwa pou ajoute karakteristik ak refòmasyon modèl la, men spame a te kapab adapte nan kat èdtan.

Pou nou pa tèlman douloure epi pou nou pa oblije refè tout bagay pita, nou dwe okòmansman reflechi sou kisa bouk fidbak la pral sanble ak sa nou pral fè si anviwònman an chanje. Ann kòmanse ak kolekte done - sa a se gaz pou algorithm nou yo.

Koleksyon done

Li klè ke pou rezo neral modèn, plis done, pi bon an, epi yo, an reyalite, ki te pwodwi pa itilizatè yo nan pwodwi a. Itilizatè yo ka ede nou lè yo make done yo, men nou pa ka abize sa a, paske nan kèk pwen itilizatè yo ap fatige ranpli modèl ou yo epi yo pral chanje nan yon lòt pwodwi.

Youn nan erè ki pi komen (isit la mwen fè yon referans a Andrew Ng) se twòp konsantre sou mezi sou seri done tès la, epi yo pa sou fidbak soti nan itilizatè a, ki se aktyèlman mezi prensipal la nan bon jan kalite a nan travay, depi nou kreye. yon pwodwi pou itilizatè a. Si itilizatè a pa konprann oswa pa renmen travay la nan modèl la, Lè sa a, tout bagay ap depafini.

Se poutèt sa, itilizatè a ta dwe toujou kapab vote epi yo ta dwe bay yon zouti pou fidbak. Si nou panse ke yon lèt ki gen rapò ak finans te rive nan bwat lèt la, nou bezwen make li "finans" epi trase yon bouton ke itilizatè a ka klike epi di ke sa a se pa finans.

Bon jan kalite fidbak

Ann pale sou bon jan kalite a nan fidbak itilizatè. Premyèman, ou menm ak itilizatè a ka mete siyifikasyon diferan nan yon sèl konsèp. Pou egzanp, ou menm ak manadjè pwodwi ou yo panse ke "finans" vle di lèt ki soti nan bank la, ak itilizatè a panse ke yon lèt nan men granmè sou pansyon li tou refere a finans. Dezyèmman, gen itilizatè ki neglijans renmen peze bouton san okenn lojik. Twazyèmman, itilizatè a ka pwofondman fè erè nan konklizyon li yo. Yon egzanp frape nan pratik nou an se aplikasyon an nan yon klasifikasyon Spam Nijeryen, yon kalite spam trè komik kote itilizatè a mande pou pran plizyè milyon dola nan men yon fanmi byen lwen toudenkou jwenn nan Lafrik. Apre yo fin aplike klasifikasyon sa a, nou tcheke klik "Pa Spam" sou imel sa yo, epi li te tounen soti ke 80% nan yo te juicy Spam Nijeryen, ki sijere ke itilizatè yo ka trè kred.

Epi se pou nou pa bliye ke bouton yo ka klike pa sèlman pa moun, men tou pa tout kalite bots ki pretann yo dwe yon navigatè. Se konsa, fidbak anvan tout koreksyon pa bon pou aprann. Kisa ou ka fè ak enfòmasyon sa yo?

Nou itilize de apwòch:

  • Feedback soti nan lye ML. Pou egzanp, nou gen yon sistèm anti-bot sou entènèt, ki, jan mwen mansyone, pran yon desizyon rapid ki baze sou yon kantite limite nan siy. Apre sa, gen yon dezyèm, sistèm dousman ki travay apre reyalite a. Li gen plis done sou itilizatè a, konpòtman li, elatriye. Kòm yon rezilta, yo pran desizyon ki pi enfòme; kòmsadwa, li gen pi wo presizyon ak konplè. Ou ka dirije diferans lan nan operasyon an nan sistèm sa yo nan premye a kòm done fòmasyon. Kidonk, yon sistèm ki pi senp ap toujou eseye apwoche pèfòmans yon pi konplèks.
  • Klike sou klasifikasyon. Ou ka senpleman klase chak klike sou itilizatè, evalye validite li yo ak itilizasyon li yo. Nou fè sa nan lapòs antispam, lè l sèvi avèk atribi itilizatè, istwa li, atribi moun k ap voye, tèks la tèt li ak rezilta klasifikasyon yo. Kòm yon rezilta, nou jwenn yon sistèm otomatik ki valide fidbak itilizatè. Epi kòm li bezwen yo dwe antrene anpil mwens souvan, travay li ka vin baz pou tout lòt sistèm yo. Priyorite prensipal la nan modèl sa a se presizyon, paske fòmasyon modèl la sou done ki pa kòrèk se plen ak konsekans.

Pandan n ap netwaye done yo ak plis fòmasyon sistèm ML nou yo, nou pa dwe bliye sou itilizatè yo, paske pou nou, dè milye, dè milyon de erè sou graf la se estatistik, epi pou itilizatè a, chak ensèk se yon trajedi. Anplis de sa nan lefèt ke itilizatè a dwe yon jan kanmenm viv ak erè ou nan pwodwi a, apre li fin resevwa fidbak, li espere ke yon sitiyasyon ki sanble yo pral elimine nan lavni an. Se poutèt sa, li toujou vo bay itilizatè yo pa sèlman opòtinite pou yo vote, men tou, yo korije konpòtman an nan sistèm ML, kreye, pou egzanp, euristik pèsonèl pou chak klike sou fidbak; nan ka a nan lapòs, sa a ta ka kapasite nan filtre. lèt sa yo pa moun ki voye ak tit pou itilizatè sa a.

Ou bezwen tou bati yon modèl ki baze sou kèk rapò oswa demann sipò nan yon mòd semi-otomatik oswa manyèl pou lòt itilizatè yo pa soufri ak pwoblèm ki sanble.

Euristik pou aprann

Gen de pwoblèm ak euristik sa yo ak beki. Premye a se ke nimewo a toujou ogmante nan beki difisil a kenbe, se pou kont li bon jan kalite yo ak pèfòmans sou bwote la long. Dezyèm pwoblèm nan se ke erè a pa ka souvan, ak kèk klik nan plis antrene modèl la pa pral ase. Li ta sanble ke de efè ki pa gen rapò sa yo ka netralize siyifikativman si yo aplike apwòch sa a.

  1. Nou kreye yon beki tanporè.
  2. Nou voye done ki soti nan li nan modèl la, li regilyèman mete ajou tèt li, ki gen ladan sou done yo resevwa. Isit la, nan kou, li enpòtan ke euristik yo gen gwo presizyon pou yo pa diminye bon jan kalite a nan done yo nan seri fòmasyon an.
  3. Lè sa a, nou mete siveyans la deklanche beki a, epi si apre kèk tan beki a pa travay ankò epi li konplètman kouvri pa modèl la, Lè sa a, ou ka san danje retire li. Koulye a, pwoblèm sa a se fasil pou rive ankò.

Se konsa, yon lame de beki trè itil. Bagay pwensipal lan se ke sèvis yo se ijan epi yo pa pèmanan.

Fòmasyon adisyonèl

Retraining se pwosesis pou ajoute nouvo done yo jwenn kòm rezilta fidbak nan men itilizatè yo oswa lòt sistèm, ak fòmasyon yon modèl ki deja egziste sou li. Ka gen plizyè pwoblèm ak fòmasyon adisyonèl:

  1. Modèl la ka tou senpleman pa sipòte fòmasyon adisyonèl, men aprann sèlman nan grate.
  2. Okenn kote nan liv lanati yo ekri ke fòmasyon adisyonèl pral sètènman amelyore kalite travay nan pwodiksyon an. Souvan rive opoze a, se sa ki se sèlman deteryorasyon ki posib.
  3. Chanjman yo ka enprevizib. Sa a se yon pwen olye sibtil ke nou te idantifye pou tèt nou. Menm si yon nouvo modèl nan yon tès A/B montre rezilta menm jan an konpare ak aktyèl la, sa pa vle di ke li pral travay idantik. Travay yo ka diferan nan jis yon pousan, ki ka pote nouvo erè oswa retounen ansyen erè ki te deja korije. Tou de nou menm ak itilizatè yo deja konnen ki jan yo viv ak erè aktyèl, epi lè yon gwo kantite nouvo erè rive, itilizatè a ka pa konprann tou sa k ap pase, paske li espere konpòtman previzib.

Se poutèt sa, bagay ki pi enpòtan nan fòmasyon adisyonèl se asire ke modèl la amelyore, oswa omwen pa vin pi mal.

Premye bagay ki vin nan tèt ou lè nou pale sou fòmasyon adisyonèl se apwòch la aprantisaj aktif. Ki sa sa a vle di? Pou egzanp, klasifikasyon an detèmine si yon imèl gen rapò ak finans, epi alantou fwontyè desizyon li yo nou ajoute yon echantiyon nan egzanp ki make. Sa a travay byen, pou egzanp, nan piblisite, kote gen yon anpil nan fidbak epi ou ka fòme modèl la sou entènèt. Men, si gen ti fidbak, Lè sa a, nou jwenn yon echantiyon trè partial relatif nan distribisyon an done pwodiksyon, sou baz la ki li enposib evalye konpòtman an nan modèl la pandan operasyon an.

Operasyon nan aprantisaj machin nan Mail.ru Mail

An reyalite, objektif nou se prezève modèl fin vye granmoun, modèl deja li te ye, ak jwenn nouvo. Kontinwite enpòtan isit la. Modèl la, ke nou souvan te pran gwo doulè pou woule soti, deja ap travay, pou nou ka konsantre sou pèfòmans li.

Modèl diferan yo itilize nan lapòs: pye bwa, lineyè, rezo neral. Pou chak nou fè pwòp algorithm fòmasyon adisyonèl nou an. Nan pwosesis fòmasyon adisyonèl, nou resevwa pa sèlman nouvo done, men tou, souvan nouvo karakteristik, ke nou pral pran an kont nan tout algoritm ki anba yo.

Modèl lineyè

Ann di nou gen regresyon lojistik. Nou kreye yon modèl pèt nan eleman sa yo:

  • LogLoss sou nouvo done;
  • nou regilarize pwa nouvo karakteristik (nou pa manyen ansyen yo);
  • nou aprann tou nan ansyen done yo nan lòd yo prezève ansyen modèl;
  • epi, petèt, bagay ki pi enpòtan an: nou ajoute amonik regilarize, ki garanti ke pwa yo pa pral chanje anpil parapò ak ansyen modèl la dapre nòmal la.

Depi chak eleman Pèt gen koyefisyan, nou ka chwazi pi bon valè pou travay nou an atravè validasyon kwa oswa baze sou kondisyon pwodwi yo.

Operasyon nan aprantisaj machin nan Mail.ru Mail

Деревья

Ann ale nan pye bwa desizyon. Nou te konpile algorithm sa a pou fòmasyon adisyonèl nan pye bwa:

  1. Pwodiksyon an kouri yon forè 100-300 pye bwa, ki fòme sou yon seri done fin vye granmoun.
  2. Nan fen a nou retire M = 5 moso epi ajoute 2M = 10 nouvo, ki resevwa fòmasyon sou seri done a tout antye, men ak yon gwo pwa pou done yo nouvo, ki natirèlman garanti yon chanjman incrémentielle nan modèl la.

Li evidan, sou tan, kantite pye bwa ogmante anpil, epi yo dwe detanzantan redwi yo nan lòd yo satisfè tan yo. Pou fè sa, nou itilize kounye a omniprésente Distilasyon Konesans (KD). Yon ti tan sou prensip operasyon li yo.

  1. Nou gen aktyèl "konplèks" modèl la. Nou kouri li sou seri done fòmasyon an epi jwenn distribisyon pwobabilite klas la nan pwodiksyon an.
  2. Apre sa, nou fòme modèl elèv la (modèl ki gen mwens pye bwa nan ka sa a) pou repete rezilta modèl la lè l sèvi avèk distribisyon klas la kòm varyab sib la.
  3. Li enpòtan sonje isit la ke nou pa sèvi ak maketing nan seri done nan okenn fason, ak Se poutèt sa nou ka itilize done abitrè. Natirèlman, nou itilize yon echantiyon done ki soti nan kouran konba a kòm yon echantiyon fòmasyon pou modèl elèv la. Kidonk, seri fòmasyon an pèmèt nou asire presizyon nan modèl la, ak echantiyon kouran an garanti yon pèfòmans menm jan an sou distribisyon pwodiksyon an, konpanse pou patipri nan seri fòmasyon an.

Operasyon nan aprantisaj machin nan Mail.ru Mail

Konbinezon de teknik sa yo (ajoute pye bwa epi redwi kantite yo detanzantan lè l sèvi avèk Distilasyon Konesans) asire entwodiksyon nouvo modèl ak kontinwite konplè.

Avèk èd KD, nou menm tou nou fè diferan operasyon sou karakteristik modèl, tankou retire karakteristik ak travay sou twou vid ki genyen. Nan ka nou an, nou gen yon kantite karakteristik estatistik enpòtan (pa moun k ap voye, hash tèks, URL, elatriye) ki estoke nan baz done a, ki gen tandans echwe. Modèl la, nan kou, pa pare pou yon devlopman konsa nan evènman yo, depi sitiyasyon echèk pa rive nan seri fòmasyon an. Nan ka sa yo, nou konbine teknik KD ak ogmantasyon: lè fòmasyon pou yon pati nan done yo, nou retire oswa reset karakteristik ki nesesè yo, epi nou pran etikèt orijinal yo (sorti nan modèl aktyèl la), ak modèl elèv la aprann repete distribisyon sa a. .

Operasyon nan aprantisaj machin nan Mail.ru Mail

Nou remake ke manipilasyon modèl ki pi grav rive, se pi gwo pousantaj echantiyon fil yo mande yo.

Retire Karakteristik, operasyon ki pi senp la, mande sèlman yon ti pati nan koule a, depi sèlman yon koup nan karakteristik chanje, ak modèl aktyèl la te resevwa fòmasyon sou menm seri a - diferans lan se minim. Pou senplifye modèl la (diminye kantite pye bwa plizyè fwa), se deja obligatwa 50 a 50. Ak pou omisyon nan karakteristik estatistik enpòtan ki pral seryezman afekte pèfòmans nan modèl la, menm plis koule oblije nivo soti travay la nan la. nouvo modèl ki reziste omisyon sou tout kalite lèt.

Operasyon nan aprantisaj machin nan Mail.ru Mail

FastText

Ann ale nan FastText. Kite m raple w ke reprezantasyon an (Embedding) nan yon mo konsiste de sòm total la nan embedding nan mo a li menm ak tout lèt li yo N-gram, anjeneral, trigram. Depi ka gen anpil trigram, yo itilize Bucket Hashing, se sa ki konvèti tout espas la nan yon sèten hashmap fiks. Kòm yon rezilta, matris pwa a jwenn ak dimansyon kouch enteryè a pou chak kantite mo + bokit.

Avèk fòmasyon adisyonèl, nouvo siy parèt: mo ak trigram. Pa gen anyen enpòtan ki rive nan fòmasyon swivi estanda soti nan Facebook. Se sèlman ansyen pwa ki gen kwa-entropi yo antrene sou nouvo done. Kidonk, nouvo karakteristik yo pa itilize; nan kou, apwòch sa a gen tout dezavantaj ki dekri pi wo a ki asosye ak enprevizib nan modèl la nan pwodiksyon an. Se poutèt sa nou modifye FastText yon ti kras. Nou ajoute tout nouvo pwa (mo ak trigram), elaji tout matris la ak kwa-entropi epi ajoute regilarize Harmony pa analoji ak modèl lineyè a, ki garanti yon chanjman ensiyifyan nan ansyen pwa yo.

Operasyon nan aprantisaj machin nan Mail.ru Mail

CNN

Rezo konvolusyonèl yo yon ti jan pi konplike. Si dènye kouch yo ranpli nan CNN a, Lè sa a, nan kou, ou ka aplike regilarize Harmony ak garanti kontinwite. Men, si yo bezwen fòmasyon adisyonèl nan tout rezo a, Lè sa a, regilarizasyon sa yo pa ka aplike nan tout kouch. Sepandan, gen yon opsyon pou antrene embeddings konplemantè atravè Pèt Triplet (atik orijinal la).

Triple Pèt

Sèvi ak yon travay anti-èskrokri kòm yon egzanp, an n gade nan Pèt Triplet an tèm jeneral. Nou pran logo nou an, osi byen ke egzanp pozitif ak negatif nan logo nan lòt konpayi yo. Nou minimize distans ki genyen ant premye a ak maksimize distans ki genyen ant dezyèm lan, nou fè sa ak yon ti espas asire pi gwo konpak nan klas yo.

Operasyon nan aprantisaj machin nan Mail.ru Mail

Si nou plis antrene rezo a, Lè sa a, espas metrik nou an konplètman chanje, epi li vin konplètman enkonpatib ak yon sèl anvan an. Sa a se yon pwoblèm grav nan pwoblèm ki sèvi ak vektè. Pou jwenn alantou pwoblèm sa a, nou pral melanje nan ansyen embeddings pandan fòmasyon.

Nou te ajoute nouvo done nan seri fòmasyon an epi nou fòme dezyèm vèsyon an nan modèl la nan grate. Nan dezyèm etap la, nou plis antrene rezo nou an (Finetuning): premye kouch nan dènye fini, ak Lè sa a, tout rezo a dekonjle. Nan pwosesis la nan konpoze triple, nou kalkile sèlman yon pati nan embeddings yo lè l sèvi avèk modèl la ki resevwa fòmasyon, rès la - lè l sèvi avèk ansyen an. Kidonk, nan pwosesis fòmasyon adisyonèl, nou asire konpatibilite espas metrik v1 ak v2. Yon vèsyon inik nan regilarize Harmony.

Operasyon nan aprantisaj machin nan Mail.ru Mail

Achitekti tout antye

Si nou konsidere tout sistèm nan lè l sèvi avèk antispam kòm yon egzanp, Lè sa a, modèl yo pa izole, men enbrike youn nan lòt. Nou pran foto, tèks ak lòt karakteristik, lè l sèvi avèk CNN ak Fast Text nou jwenn embeddings. Apre sa, klasifikasyon yo aplike sou tèt embeddings yo, ki bay nòt pou divès klas (kalite lèt, spam, prezans yon logo). Siyal yo ak siy yo deja antre nan forè a nan pye bwa pou desizyon final la dwe pran. Klasifikasyon endividyèl yo nan konplo sa a fè li posib pi byen entèprete rezilta yo nan sistèm nan ak plis espesyalman retraye eleman nan ka ta gen pwoblèm, olye ke manje tout done yo nan pye bwa desizyon nan yon fòm anvan tout koreksyon.

Operasyon nan aprantisaj machin nan Mail.ru Mail

Kòm rezilta, nou garanti kontinwite nan chak nivo. Nan nivo anba a nan CNN ak Fast Text nou itilize regilarize Harmony, pou klasifikasyon yo nan mitan nou tou itilize regilarize Harmony ak kalibrasyon pousantaj pou konsistans nan distribisyon an pwobabilite. Oke, ranfòse pye bwa yo fòme yon ti kras oswa lè l sèvi avèk Distilasyon Konesans.

An jeneral, kenbe tankou yon sistèm aprantisaj machin nich se nòmalman yon doulè, depi nenpòt eleman nan nivo ki pi ba a mennen nan yon aktyalizasyon nan tout sistèm ki anwo a. Men, depi nan konfigirasyon nou an chak eleman chanje yon ti kras epi li konpatib ak yon sèl anvan an, tout sistèm nan ka mete ajou moso pa moso san yo pa bezwen re-antrenasyon an antye estrikti, ki pèmèt li yo dwe sipòte san anlè grav.

Deplwaye

Nou te diskite sou koleksyon done ak fòmasyon adisyonèl nan diferan kalite modèl, kidonk nou ap deplase sou deplwaman yo nan anviwònman pwodiksyon an.

Tès A/B

Kòm mwen te di pi bonè, nan pwosesis la nan kolekte done, anjeneral nou jwenn yon echantiyon partial, ki soti nan ki li enposib evalye pèfòmans nan pwodiksyon nan modèl la. Se poutèt sa, lè deplwaye, modèl la dwe konpare ak vèsyon anvan an yo nan lòd yo konprann ki jan bagay yo ap aktyèlman ale, se sa ki, fè tès A / B. An reyalite, pwosesis la nan woule soti ak analize tablo se byen woutin epi yo ka fasilman otomatize. Nou woule modèl nou yo piti piti nan 5%, 30%, 50% ak 100% itilizatè yo, pandan y ap kolekte tout mezi ki disponib sou repons modèl yo ak fidbak itilizatè yo. Nan ka kèk abitye grav, nou otomatikman woule modèl la, epi pou lòt ka, apre yo fin kolekte yon kantite sifizan klik itilizatè, nou deside ogmante pousantaj la. Kòm yon rezilta, nou pote nouvo modèl la nan 50% itilizatè yo konplètman otomatikman, epi yon moun ap apwouve deplwaye a nan tout odyans lan, byenke etap sa a ka otomatize.

Sepandan, pwosesis tès A/B la ofri plas pou optimize. Reyalite a se ke nenpòt tès A / B se byen long (nan ka nou an li pran soti nan 6 a 24 èdtan depann sou kantite lajan an nan fidbak), ki fè li byen chè ak resous limite. Anplis de sa, yon pousantaj ase wo nan koule pou tès la oblije esansyèlman akselere tan an jeneral nan tès A / B la (rekrite yon echantiyon estatistik enpòtan pou evalye mezi nan yon ti pousantaj ka pran yon tan trè long), ki fè kantite fant A/B trè limite. Li evidan, nou bezwen teste sèlman modèl ki pi pwomèt yo, ki nou resevwa anpil pandan pwosesis fòmasyon adisyonèl la.

Pou rezoud pwoblèm sa a, nou fòme yon klasifikatè separe ki predi siksè yon tès A/B. Pou fè sa, nou pran estatistik pou pran desizyon, Precision, Rapèl ak lòt mezi sou seri fòmasyon an, sou yon sèl la difere, ak sou echantiyon an nan kouran an kòm karakteristik. Nou menm tou nou konpare modèl la ak aktyèl la nan pwodiksyon, ak euristik, epi pran an kont Konpleksite nan modèl la. Sèvi ak tout karakteristik sa yo, yon klasifikasyon ki resevwa fòmasyon sou istwa tès evalye modèl kandida yo, nan ka nou an sa yo se forè nan pye bwa, epi li deside ki youn nan itilize nan tès la A/B.

Operasyon nan aprantisaj machin nan Mail.ru Mail

Nan moman aplikasyon an, apwòch sa a te pèmèt nou ogmante kantite tès A/B ki gen siksè plizyè fwa.

Tès & Siveyans

Tès ak siveyans, etranj ase, pa fè mal sou sante nou; okontrè, yo amelyore li epi soulaje nou nan estrès nesesè. Tès pèmèt ou anpeche yon echèk, ak siveyans pèmèt ou detekte li a tan diminye enpak la sou itilizatè yo.

Li enpòtan pou w konprann isit la ke pi bonè oswa pita sistèm ou a ap toujou fè erè - sa a se akòz sik devlopman nenpòt lojisyèl. Nan konmansman an nan devlopman sistèm toujou gen yon anpil nan pinèz jiskaske tout bagay rezoud epi etap prensipal la nan inovasyon fini. Men, apre yon sèten tan, antropi pran pèyaj li yo, ak erè parèt ankò - akòz degradasyon nan eleman alantou ak chanjman nan done, ki mwen te pale sou nan kòmansman an.

Isit la mwen ta renmen sonje ke nenpòt sistèm aprantisaj machin yo ta dwe konsidere nan pwen de vi nan pwofi li yo nan tout sik lavi li yo. Grafik ki anba a montre yon egzanp sou fason sistèm nan travay pou trape yon kalite spam ki ra (liy nan graf la tou pre zewo). Yon jou, akòz yon atribi mal kachèt, li te tounen fou. Kòm chans ta genyen li, pa te gen okenn siveyans pou deklanche nòmal; kòm yon rezilta, sistèm nan te kòmanse ekonomize lèt an gwo kantite nan katab "Spam" nan fwontyè desizyon an. Malgre korije konsekans yo, sistèm nan te deja fè erè anpil fwa ke li pa pral peye pou tèt li menm nan senk ane. Lè sa a se yon echèk konplè nan pwen de vi nan sik lavi modèl la.

Operasyon nan aprantisaj machin nan Mail.ru Mail

Se poutèt sa, tankou yon bagay senp tankou siveyans ka vin kle nan lavi a nan yon modèl. Anplis de mezi estanda ak evidan, nou konsidere distribisyon repons modèl ak nòt, ansanm ak distribisyon valè karakteristik kle yo. Sèvi ak KL divergence, nou ka konpare distribisyon aktyèl la ak yon sèl istorik la oswa valè yo nan tès A / B la ak rès la nan kouran an, ki pèmèt nou remake anomali nan modèl la ak woule tounen chanjman nan yon fason apwopriye.

Nan pifò ka yo, nou lanse premye vèsyon nou yo nan sistèm lè l sèvi avèk euristik senp oswa modèl ke nou itilize kòm siveyans alavni. Pou egzanp, nou kontwole modèl NER la an konparezon ak sa yo regilye pou magazen sou entènèt espesifik, epi si kouvèti klasifikasyon an gout an konparezon ak yo, Lè sa a, nou konprann rezon ki fè yo. Yon lòt itilizasyon itil nan euristik!

Rezilta

Ann ale sou lide kle yo nan atik la ankò.

  • Fibdeck. Nou toujou panse sou itilizatè a: ki jan li pral viv ak erè nou yo, ki jan li pral kapab rapòte yo. Pa bliye ke itilizatè yo pa yon sous fidbak pi bon kalite pou modèl fòmasyon, epi li bezwen yo dwe otorize ak èd nan sistèm oksilyè ML. Si li pa posib kolekte yon siyal nan men itilizatè a, Lè sa a, nou gade pou sous altènatif nan fidbak, pou egzanp, sistèm konekte.
  • Fòmasyon adisyonèl. Bagay pwensipal lan isit la se kontinwite, kidonk nou konte sou modèl pwodiksyon aktyèl la. Nou fòme nouvo modèl yo pou yo pa diferan anpil de youn anvan an akòz regilarize Harmony ak ke trik nouvèl menm jan an.
  • Deplwaye. Oto-deplwaman ki baze sou mezi redwi anpil tan pou mete ann aplikasyon modèl yo. Siveyans estatistik ak distribisyon nan pran desizyon, kantite tonbe nan itilizatè yo obligatwa pou dòmi trankil ou ak wikenn pwodiktif.

Oke, mwen espere ke sa a ede ou amelyore sistèm ML ou pi vit, fè yo mache pi vit, epi fè yo pi serye ak mwens estrès.

Sous: www.habr.com

Add nouvo kòmantè