Operasyon sa pagkat-on sa makina sa Mail.ru Mail

Operasyon sa pagkat-on sa makina sa Mail.ru Mail

Base sa akong mga pakigpulong sa Highload++ ug DataFest Minsk 2019.

Alang sa kadaghanan karon, ang mail usa ka hinungdanon nga bahin sa online nga kinabuhi. Uban sa tabang niini, nagpahigayon kami mga sulat sa negosyo, nagtipig sa tanan nga mga klase sa hinungdanon nga kasayuran nga may kalabotan sa panalapi, pag-book sa hotel, pagbutang mga order ug daghan pa. Sa tungatunga sa 2018, naghimo kami usa ka estratehiya sa produkto alang sa pagpalambo sa mail. Unsa dapat ang modernong mail?

Mail kinahanglan maalamon, nga mao, pagtabang sa mga tiggamit sa pag-navigate sa nagkadaghang gidaghanon sa impormasyon: pagsala, istruktura ug paghatag niini sa labing sayon ​​​​nga paagi. Siya gyud nga mapuslanon, nga nagtugot kanimo sa pagsulbad sa nagkalain-laing mga buluhaton diha mismo sa imong mailbox, pananglitan, pagbayad og multa (usa ka function nga, subo, akong gigamit). Ug sa parehas nga oras, siyempre, ang mail kinahanglan maghatag proteksyon sa kasayuran, pagputol sa spam ug pagpanalipod batok sa pag-hack, nga mao, mahimong luwas.

Kini nga mga lugar naghubit sa daghang mga hinungdan nga problema, kadaghanan niini mahimong epektibo nga masulbad gamit ang pagkat-on sa makina. Ania ang mga pananglitan sa naa na nga mga bahin nga nahimo isip bahin sa estratehiya - usa alang sa matag direksyon.

  • Smart nga tubag. Ang mail adunay usa ka smart reply feature. Ang neural network nag-analisar sa teksto sa sulat, nakasabut sa kahulogan ug katuyoan niini, ug isip resulta nagtanyag sa tulo ka labing tukma nga mga kapilian sa pagtubag: positibo, negatibo ug neyutral. Makatabang kini nga makadaginot pag-ayo sa oras sa pagtubag sa mga sulat, ug kanunay usab nga pagtubag sa dili sukaranan ug kataw-anan nga paagi.
  • Pag-grupo sa mga emailmay kalabotan sa mga order sa mga online store. Kanunay kaming mamalit online, ug, ingon nga usa ka lagda, ang mga tindahan makapadala daghang mga email alang sa matag order. Pananglitan, gikan sa AliExpress, ang pinakadako nga serbisyo, daghang mga sulat ang moabut alang sa usa ka order, ug among gikalkula nga sa terminal nga kaso ang ilang gidaghanon mahimong moabot sa 29. Busa, gamit ang Named Entity Recognition nga modelo, among gikuha ang order number. ug uban pang impormasyon gikan sa teksto ug grupo sa tanang mga letra sa usa ka hilo. Gipakita usab namon ang sukaranan nga kasayuran bahin sa order sa usa ka bulag nga kahon, nga nagpadali sa pagtrabaho sa kini nga klase sa email.

    Operasyon sa pagkat-on sa makina sa Mail.ru Mail

  • Antiphishing. Ang phishing usa ka partikular nga delikado nga malimbongon nga matang sa email, uban sa tabang nga ang mga tig-atake mosulay sa pagkuha sa pinansyal nga impormasyon (lakip ang mga bank card sa user) ug mga login. Ang ingon nga mga sulat nagsundog sa tinuod nga gipadala sa serbisyo, lakip ang biswal. Busa, uban sa tabang sa Computer Vision, giila namo ang mga logo ug ang disenyo sa estilo sa mga sulat gikan sa dagkong mga kompaniya (pananglitan, Mail.ru, Sber, Alfa) ug gikonsiderar kini uban sa teksto ug uban pang mga bahin sa among spam ug phishing classifiers .

Pagkat-on sa makina

Usa ka gamay bahin sa pagkat-on sa makina sa email sa kinatibuk-an. Ang mail usa ka sistema nga puno kaayo: usa ka aberids nga 1,5 bilyon nga mga sulat matag adlaw ang moagi sa among mga server alang sa 30 milyon nga tiggamit sa DAU. Mga 30 ka sistema sa pagkat-on sa makina nagsuporta sa tanan nga kinahanglan nga mga gimbuhaton ug mga bahin.

Ang matag letra moagi sa tibuok pipeline sa klasipikasyon. Una among giputol ang spam ug gibilin ang maayong mga email. Ang mga tiggamit sa kasagaran dili makamatikod sa buhat sa antispam, tungod kay ang 95-99% sa spam wala gani matapos sa angay nga folder. Ang pag-ila sa spam usa ka importante kaayo nga bahin sa among sistema, ug ang pinakalisud, tungod kay sa natad sa anti-spam adunay makanunayon nga pagpahiangay tali sa mga sistema sa depensa ug pag-atake, nga naghatag usa ka padayon nga hagit sa engineering alang sa among team.

Sunod, among gibulag ang mga sulat gikan sa mga tawo ug mga robot. Ang mga email gikan sa mga tawo mao ang labing hinungdanon, busa naghatag kami mga bahin sama sa Smart Reply alang kanila. Mga sulat gikan sa mga robot gibahin ngadto sa duha ka bahin: transactional - kini mao ang importante nga mga sulat gikan sa mga serbisyo, alang sa panig-ingnan, kumpirmasyon sa mga gipamalit o hotel reservations, panalapi, ug impormasyon - kini mao ang negosyo advertising, mga diskwento.

Kami nagtuo nga ang mga transaksyonal nga mga email parehas sa kamahinungdanon sa personal nga sulat. Sila kinahanglan nga anaa sa kamot, tungod kay kita sa kasagaran kinahanglan sa madali pagpangita sa impormasyon mahitungod sa usa ka order o air ticket reservation, ug kita mogahin og panahon sa pagpangita niini nga mga sulat. Busa, alang sa kasayon, awtomatiko namon nga gibahin kini sa unom ka mga nag-unang kategorya: pagbiyahe, mga order, pinansya, mga tiket, pagrehistro ug, sa katapusan, mga multa.

Ang mga sulat sa impormasyon mao ang kinadak-an ug lagmit dili kaayo importante nga grupo, nga wala magkinahanglan og diha-diha nga tubag, tungod kay walay mahinungdanon nga mausab sa kinabuhi sa tiggamit kon dili niya basahon ang maong sulat. Sa among bag-ong interface, among gihugpong kini sa duha ka mga hilo: mga social network ug mga newsletter, sa ingon biswal nga gilimpyohan ang inbox ug gibilin lamang ang importante nga mga mensahe nga makita.

Operasyon sa pagkat-on sa makina sa Mail.ru Mail

Operasyon

Daghang mga sistema ang hinungdan sa daghang mga kalisud sa operasyon. Human sa tanan, ang mga modelo madaot sa paglabay sa panahon, sama sa bisan unsang software: ang mga feature naguba, ang mga makina mapakyas, ang code mahimong hiwi. Dugang pa, ang datos kanunay nga nagbag-o: ang mga bag-o gidugang, ang mga sumbanan sa pamatasan sa tiggamit giusab, ug uban pa, busa ang usa ka modelo nga wala’y husto nga suporta molihok nga labi ka grabe sa paglabay sa panahon.

Dili nato kalimtan nga ang mas lawom nga pagkat-on sa makina mosulod sa kinabuhi sa mga tiggamit, mas dako ang epekto niini sa ekosistema, ug, isip resulta, mas daghang pagkawala sa pinansyal o ganansya ang madawat sa mga magdudula sa merkado. Busa, sa nagkadaghan nga mga lugar, ang mga magdudula nagpahiangay sa trabaho sa mga algorithm sa ML (klasikong mga pananglitan mao ang advertising, pagpangita ug ang nahisgutan na nga antispam).

Usab, ang mga buluhaton sa pagkat-on sa makina adunay usa ka talagsaon: bisan unsa, bisan gamay, nga pagbag-o sa sistema makamugna og daghang trabaho sa modelo: pagtrabaho uban ang datos, pag-retraining, pag-deploy, nga mahimo’g daghang semana o bulan. Busa, ang labi ka paspas nga pagbag-o sa palibot diin ang imong mga modelo molihok, labi ka daghang paningkamot ang gikinahanglan aron mapadayon kini. Ang usa ka team makahimo og daghang mga sistema ug magmalipayon niini, apan unya mogasto sa halos tanan nga mga kahinguhaan niini sa pagmentinar niini, nga walay oportunidad sa pagbuhat og bag-o. Kas-a among nasugatan ang ingon nga sitwasyon sa antispam team. Ug gihimo nila ang klaro nga konklusyon nga ang suporta kinahanglan nga awtomatiko.

Automation

Unsa ang mahimo nga awtomatiko? Halos tanan, sa tinuod. Nakaila ko og upat ka mga dapit nga naghubit sa imprastraktura sa pagkat-on sa makina:

  • pagkolekta sa datos;
  • dugang nga pagbansay;
  • ipakatap;
  • pagsulay ug pagmonitor.

Kung ang palibot dili lig-on ug kanunay nga nagbag-o, nan ang tibuuk nga imprastraktura sa palibot sa modelo nahimo nga labi ka hinungdanon kaysa sa modelo mismo. Kini mahimo nga usa ka maayo nga daan nga linear classifier, apan kung gipakaon nimo kini sa husto nga mga bahin ug makakuha og maayong feedback gikan sa mga tiggamit, kini molihok nga labi ka maayo kaysa sa mga modelo nga State-Of-The-Art nga adunay tanan nga mga kampanilya ug whistles.

Feedback Loop

Ang kini nga siklo naghiusa sa pagkolekta sa datos, dugang nga pagbansay ug pag-deploy - sa tinuud, ang tibuuk nga siklo sa pag-update sa modelo. Nganong importante kini? Tan-awa ang iskedyul sa pagparehistro sa koreo:

Operasyon sa pagkat-on sa makina sa Mail.ru Mail

Ang usa ka developer sa pagkat-on sa makina nagpatuman usa ka modelo nga anti-bot nga nagpugong sa mga bot sa pagrehistro sa email. Ang graph mikunhod ngadto sa usa ka bili diin ang tinuod nga tiggamit lamang ang nagpabilin. Maayo ang tanan! Apan upat ka oras ang milabay, ang mga bot nag-tweak sa ilang mga script, ug ang tanan mibalik sa normal. Niini nga pagpatuman, ang developer migugol og usa ka bulan sa pagdugang sa mga feature ug pag-retraining sa modelo, apan ang spammer nakahimo sa pagpahiangay sa upat ka oras.

Aron dili na kaayo sakit ug dili na kinahanglan nga balikon ang tanan sa ulahi, kinahanglan una natong hunahunaon kung unsa ang hitsura sa feedback loop ug kung unsa ang atong buhaton kung mabag-o ang palibot. Magsugod kita sa pagkolekta sa datos - kini ang sugnod sa atong mga algorithm.

Pagkolekta sa datos

Kini mao ang tin-aw nga alang sa modernong neural network, ang dugang nga data, ang mas maayo, ug sila, sa pagkatinuod, namugna sa mga tiggamit sa produkto. Ang mga tiggamit makatabang kanamo pinaagi sa pagmarka sa datos, apan dili kami makaabuso niini, tungod kay sa usa ka punto ang mga tiggamit kapoyan sa pagkompleto sa imong mga modelo ug mobalhin sa laing produkto.

Usa sa labing komon nga mga sayop (dinhi naghimo ako og usa ka pakisayran sa Andrew Ng) mao ang sobra nga pag-focus sa mga metrics sa test dataset, ug dili sa feedback gikan sa user, nga sa pagkatinuod mao ang nag-unang sukod sa kalidad sa trabaho, tungod kay kita naghimo. usa ka produkto alang sa tiggamit. Kung ang tiggamit dili makasabut o dili ganahan sa buhat sa modelo, nan ang tanan naguba.

Busa, ang tiggamit kinahanglan kanunay nga makabotar ug kinahanglan hatagan usa ka himan alang sa feedback. Kung gihunahuna namon nga ang usa ka sulat nga may kalabotan sa pinansya miabot sa mailbox, kinahanglan namon nga markahan kini nga "pinansya" ug pagdrowing og usa ka buton nga mahimo’g i-klik sa tiggamit ug isulti nga dili kini pinansya.

Kalidad sa feedback

Hisgutan nato ang kalidad sa feedback sa user. Una, ikaw ug ang user makabutang ug lain-laing mga kahulogan sa usa ka konsepto. Pananglitan, ikaw ug ang imong mga manedyer sa produkto naghunahuna nga ang "pinansya" nagpasabut nga mga sulat gikan sa bangko, ug ang tiggamit naghunahuna nga ang usa ka sulat gikan sa lola bahin sa iyang pensyon nagpasabut usab sa pinansya. Ikaduha, adunay mga tiggamit nga wala’y hunahuna nga gusto nga ipadayon ang mga buton nga wala’y lohika. Ikatulo, ang tiggamit mahimong nasayop pag-ayo sa iyang mga konklusyon. Usa ka talagsaong pananglitan gikan sa atong praktis mao ang pagpatuman sa usa ka classifier spam sa Nigeria, usa ka kataw-anan kaayo nga matang sa spam diin ang user gihangyo sa pagkuha og pipila ka milyon nga dolyares gikan sa usa ka kalit nga nakit-an nga layo nga paryente sa Africa. Human sa pagpatuman niini nga classifier, among gisusi ang "Dili Spam" nga mga pag-klik niini nga mga email, ug kini nahimo nga 80% niini mga juicy nga Nigerian nga spam, nga nagsugyot nga ang mga tiggamit mahimong labi ka dali nga malimbongon.

Ug dili nato kalimtan nga ang mga buton mahimong ma-klik dili lamang sa mga tawo, kondili usab sa tanang matang sa mga bot nga nagpakaaron-ingnon nga usa ka browser. Busa ang hilaw nga feedback dili maayo alang sa pagkat-on. Unsay imong mahimo niini nga impormasyon?

Gigamit namon ang duha ka pamaagi:

  • Feedback gikan sa na-link nga ML. Pananglitan, kami adunay usa ka online nga anti-bot nga sistema, nga, sama sa akong nahisgutan, naghimo usa ka dali nga desisyon base sa limitado nga gidaghanon sa mga timailhan. Ug adunay ikaduha, hinay nga sistema nga molihok pagkahuman sa kamatuoran. Kini adunay daghang datos bahin sa tiggamit, iyang pamatasan, ug uban pa. Ingon usa ka sangputanan, ang labing nahibal-an nga desisyon gihimo; sumala niana, kini adunay mas taas nga katukma ug pagkakompleto. Mahimo nimong idirekta ang kalainan sa operasyon niini nga mga sistema sa una ingon nga datos sa pagbansay. Sa ingon, ang usa ka yano nga sistema kanunay nga mosulay sa pagduol sa paghimo sa usa ka labi ka komplikado.
  • Pag-klik sa klasipikasyon. Mahimo nimo nga maklasipikar ang matag pag-klik sa gumagamit, pagtimbang-timbang sa pagkabalido ug pagkagamit niini. Gihimo namo kini sa antispam nga mail, gamit ang mga hiyas sa tiggamit, iyang kasaysayan, mga hiyas sa nagpadala, ang teksto mismo ug ang resulta sa mga klasipikasyon. Ingon usa ka sangputanan, nakakuha kami usa ka awtomatiko nga sistema nga nagpamatuod sa feedback sa gumagamit. Ug tungod kay kinahanglan kini nga bansay-bansayon ​​pag-usab nga dili kaayo kanunay, ang trabaho niini mahimong sukaranan sa tanan nga ubang mga sistema. Ang panguna nga prayoridad niini nga modelo mao ang katukma, tungod kay ang pagbansay sa modelo sa dili tukma nga datos puno sa mga sangputanan.

Samtang among gilimpyohan ang datos ug dugang nga pagbansay sa among mga sistema sa ML, dili namo kalimtan ang bahin sa mga tiggamit, tungod kay alang kanamo, liboan, milyon nga mga sayup sa graph mga estadistika, ug alang sa tiggamit, ang matag bug usa ka trahedya. Dugang pa sa kamatuoran nga ang tiggamit sa usa ka paagi kinahanglan nga magkinabuhi uban sa imong sayop sa produkto, human makadawat og feedback, siya nagpaabut nga ang usa ka susama nga sitwasyon mawagtang sa umaabot. Busa, kini mao ang kanunay nga bili sa paghatag sa mga tiggamit dili lamang sa oportunidad sa pagboto, apan usab sa pagtul-id sa kinaiya sa ML sistema, paghimo, alang sa panig-ingnan, personal nga heuristics alang sa matag feedback click; sa kaso sa mail, kini mahimo nga ang abilidad sa pagsala. ang ingon nga mga sulat sa nagpadala ug titulo alang niini nga tiggamit.

Kinahanglan ka usab nga maghimo usa ka modelo nga gibase sa pipila nga mga taho o mga hangyo nga suportahan sa usa ka semi-awtomatiko o manual nga paagi aron ang ubang mga tiggamit dili mag-antos sa parehas nga mga problema.

Heuristics alang sa pagkat-on

Adunay duha ka problema niining mga heuristics ug crutches. Ang una mao nga ang kanunay nga pagtaas sa gidaghanon sa crutches lisud nga mapadayon, labi na ang ilang kalidad ug performance sa taas nga paghakot. Ang ikaduha nga problema mao nga ang sayup mahimong dili kanunay, ug ang pipila ka mga pag-klik aron dugang nga pagbansay sa modelo dili igo. Mopatim-aw nga kining duha ka wala'y kalabutan nga mga epekto mahimong ma-neutralize kung ang mosunod nga pamaagi magamit.

  1. Naghimo kami usa ka temporaryo nga crutch.
  2. Nagpadala kami og data gikan niini ngadto sa modelo, kini kanunay nga nag-update sa iyang kaugalingon, lakip ang nadawat nga datos. Dinhi, siyempre, hinungdanon nga ang heuristic adunay taas nga katukma aron dili makunhuran ang kalidad sa datos sa set sa pagbansay.
  3. Dayon among gibutang ang pag-monitor aron ma-trigger ang crutch, ug kung human sa pipila ka panahon ang crutch dili na molihok ug hingpit nga natabonan sa modelo, nan mahimo nimong luwas nga makuha kini. Karon kini nga problema dili tingali mahitabo pag-usab.

Busa ang usa ka kasundalohan sa crutches mapuslanon kaayo. Ang nag-unang butang mao nga ang ilang serbisyo dinalian ug dili permanente.

Dugang nga pagbansay

Ang retraining mao ang proseso sa pagdugang sa bag-ong datos nga nakuha isip resulta sa feedback gikan sa mga tiggamit o ubang mga sistema, ug pagbansay sa kasamtangan nga modelo niini. Mahimong adunay daghang mga problema sa dugang nga pagbansay:

  1. Ang modelo mahimo nga dili mosuporta sa dugang nga pagbansay, apan makakat-on lamang gikan sa wala.
  2. Walay bisan asa sa basahon sa kinaiyahan nga nahisulat nga ang dugang nga pagbansay sa pagkatinuod makapauswag sa kalidad sa trabaho sa produksiyon. Kasagaran ang kaatbang nga mahitabo, nga mao, ang pagkadaot lamang ang posible.
  3. Ang mga pagbag-o mahimong dili matag-an. Kini usa ka labi ka maliputon nga punto nga among giila sa among kaugalingon. Bisan kung ang usa ka bag-ong modelo sa usa ka pagsulay sa A/B nagpakita sa parehas nga mga resulta kung itandi sa karon, wala kini magpasabut nga kini molihok nga parehas. Mahimong magkalainlain ang ilang trabaho sa usa lang ka porsyento, nga mahimong magdala ug bag-ong mga sayup o ibalik ang mga daan nga natul-id na. Kami ug ang mga tiggamit nahibal-an na kung unsaon pagkinabuhi sa kasamtangan nga mga kasaypanan, ug kung ang usa ka dako nga gidaghanon sa mga bag-ong mga kasaypanan motungha, ang tiggamit mahimo usab nga dili makasabut unsa ang nahitabo, tungod kay siya nagpaabut sa matag-an nga kinaiya.

Busa, ang labing hinungdanon nga butang sa dugang nga pagbansay mao ang pagsiguro nga ang modelo mapauswag, o labing menos dili mograbe.

Ang una nga butang nga mosantop sa hunahuna kung maghisgot kita bahin sa dugang nga pagbansay mao ang pamaagi sa Aktibo nga Pagkat-on. Unsay buot ipasabot niini? Pananglitan, gitino sa classifier kung ang usa ka email adunay kalabotan sa pinansya, ug sa palibot sa utlanan sa desisyon niini nagdugang kami usa ka sample sa mga gimarkahan nga mga pananglitan. Maayo kini nga pagtrabaho, pananglitan, sa advertising, diin adunay daghang feedback ug mahimo nimong bansayon ​​ang modelo online. Ug kung adunay gamay nga feedback, nan makakuha kami usa ka labi ka mapihigon nga sample nga may kalabotan sa pag-apod-apod sa datos sa produksiyon, nga gipasukad nga imposible ang pagtimbang-timbang sa pamatasan sa modelo sa panahon sa operasyon.

Operasyon sa pagkat-on sa makina sa Mail.ru Mail

Sa tinuud, ang among katuyoan mao ang pagpreserbar sa daan nga mga sumbanan, nahibal-an na nga mga modelo, ug pag-angkon og mga bag-o. Importante dinhi ang pagpadayon. Ang modelo, nga kanunay namong gihagoan sa pagpalupad, nagtrabaho na, aron makatutok kami sa pasundayag niini.

Lainlaing mga modelo ang gigamit sa koreyo: mga kahoy, linear, neural network. Alang sa matag usa naghimo kami sa among kaugalingon nga dugang nga algorithm sa pagbansay. Sa proseso sa dugang nga pagbansay, kita makadawat dili lamang sa bag-ong data, apan usab sa kasagaran bag-ong mga bahin, nga atong tagdon sa tanan nga mga algorithm sa ubos.

Linear nga mga modelo

Ingnon ta nga kita adunay logistic regression. Naghimo kami usa ka modelo sa pagkawala gikan sa mga musunud nga sangkap:

  • LogLoss sa bag-ong data;
  • gi-regularize namo ang mga gibug-aton sa mga bag-ong feature (dili namo hikapon ang mga daan);
  • nakakat-on usab kita gikan sa daan nga datos aron mapreserbar ang daan nga mga sumbanan;
  • ug, tingali, ang labing hinungdanon nga butang: gidugang namon ang Harmonic Regularization, nga naggarantiya nga ang mga gibug-aton dili kaayo mabag-o nga may kalabotan sa daan nga modelo sumala sa naandan.

Tungod kay ang matag sangkap sa Pagkawala adunay mga coefficient, mahimo naton mapili ang labing kaayo nga mga kantidad alang sa among buluhaton pinaagi sa cross-validation o base sa mga kinahanglanon sa produkto.

Operasyon sa pagkat-on sa makina sa Mail.ru Mail

Mga kahoy

Mopadayon kita sa mga punoan sa desisyon. Gitigum namo ang mosunod nga algorithm alang sa dugang nga pagbansay sa mga kahoy:

  1. Ang produksyon nagpadagan sa usa ka lasang sa 100-300 ka mga kahoy, nga gibansay sa usa ka daan nga data set.
  2. Sa katapusan atong tangtangon ang M = 5 ka piraso ug idugang ang 2M = 10 ka bag-o, nga gibansay sa tibuok set sa datos, apan adunay taas nga gibug-aton alang sa bag-ong datos, nga natural nga naggarantiya sa usa ka incremental nga pagbag-o sa modelo.

Dayag nga sa paglabay sa panahon, ang gidaghanon sa mga kahoy modaghan pag-ayo, ug kini kinahanglan nga matag karon ug unya makunhuran aron matubag ang mga timing. Aron mahimo kini, among gigamit ang karon ubiquitous Knowledge Distillation (KD). Sa mubo mahitungod sa prinsipyo sa operasyon niini.

  1. Adunay kami karon nga "komplikado" nga modelo. Gipadagan namon kini sa set sa datos sa pagbansay ug makuha ang pag-apod-apod sa posibilidad sa klase sa output.
  2. Sunod, among gibansay ang modelo sa estudyante (ang modelo nga adunay gamay nga mga kahoy sa kini nga kaso) aron masubli ang mga resulta sa modelo gamit ang pag-apod-apod sa klase ingon ang target variable.
  3. Importante nga timan-an dinhi nga dili namo gamiton ang data set markup sa bisan unsang paagi, ug busa makagamit kami og arbitraryong datos. Siyempre, naggamit kami og sample sa datos gikan sa combat stream isip sample sa pagbansay alang sa modelo sa estudyante. Sa ingon, ang set sa pagbansay nagtugot kanamo nga masiguro ang katukma sa modelo, ug ang sample sa sapa naggarantiya sa parehas nga pasundayag sa pag-apod-apod sa produksiyon, nga nagbayad sa bias sa set sa pagbansay.

Operasyon sa pagkat-on sa makina sa Mail.ru Mail

Ang kombinasyon niining duha ka mga teknik (pagdugang sa mga kahoy ug matag karon ug unya nga pagkunhod sa ilang gidaghanon gamit ang Knowledge Distillation) nagsiguro sa pagpaila sa bag-ong mga sumbanan ug kompleto nga pagpadayon.

Sa tabang sa KD, naghimo usab kami og lain-laing mga operasyon sa mga feature sa modelo, sama sa pagtangtang sa mga feature ug pagtrabaho sa mga gaps. Sa among kaso, kami adunay ubay-ubay nga importante nga istatistikal nga bahin (sa mga nagpadala, text hash, URL, ug uban pa) nga gitipigan sa database, nga lagmit mapakyas. Ang modelo, siyempre, dili andam alang sa ingon nga pag-uswag sa mga panghitabo, tungod kay ang mga sitwasyon sa kapakyasan wala mahitabo sa set sa pagbansay. Sa ingon nga mga kaso, among gihiusa ang KD ug mga teknik sa pagdugang: kung nagbansay alang sa bahin sa datos, among tangtangon o i-reset ang kinahanglan nga mga bahin, ug among gikuha ang orihinal nga mga label (mga output sa karon nga modelo), ug ang modelo sa estudyante nakakat-on sa pag-usab niini nga pag-apod-apod. .

Operasyon sa pagkat-on sa makina sa Mail.ru Mail

Among namatikdan nga ang mas grabe nga pagmaniobra sa modelo mahitabo, mas dako ang porsiyento sa gikinahanglan nga sampol sa hilo.

Ang pagtangtang sa feature, ang pinakasimple nga operasyon, nagkinahanglan lamang og gamay nga bahin sa dagan, tungod kay duha ra ka mga feature ang nausab, ug ang kasamtangan nga modelo gibansay sa samang set - ang kalainan gamay ra. Aron mapasayon ​​ang modelo (pagkunhod sa gidaghanon sa mga kahoy sa makadaghang higayon), gikinahanglan na ang 50 ngadto sa 50. Ug alang sa mga pagtangtang sa importante nga mga bahin sa estadistika nga seryosong makaapekto sa pasundayag sa modelo, gikinahanglan pa ang dugang nga dagan aron ma-level out ang trabaho sa bag-ong omission-resistant nga modelo sa tanang matang sa mga letra.

Operasyon sa pagkat-on sa makina sa Mail.ru Mail

FastText

Mopadayon kita sa FastText. Pahinumdumi ko nimo nga ang representasyon (Embedding) sa usa ka pulong naglangkob sa sumada sa embedding sa pulong mismo ug sa tanan nga letra niini nga N-grams, kasagaran mga trigram. Tungod kay mahimo nga adunay daghang mga trigrams, gigamit ang Bucket Hashing, nga mao, pag-convert sa tibuuk nga wanang sa usa ka piho nga hashmap. Ingon usa ka sangputanan, nakuha ang gibug-aton nga matrix nga adunay sukod sa sulud sa sulud matag gidaghanon sa mga pulong + mga balde.

Uban sa dugang nga pagbansay, bag-ong mga timailhan makita: mga pulong ug trigrams. Walay mahinungdanon nga mahitabo sa standard follow-up nga pagbansay gikan sa Facebook. Ang mga daan nga gibug-aton nga adunay cross-entropy lamang ang gibansay pag-usab sa bag-ong datos. Sa ingon, ang mga bag-ong bahin wala gigamit, siyempre, kini nga pamaagi adunay tanan nga gihulagway sa ibabaw nga mga disbentaha nga nalangkit sa dili matag-an nga modelo sa produksiyon. Mao nga giusab namo gamay ang FastText. Gidugang namon ang tanan nga bag-ong mga gibug-aton (mga pulong ug trigrams), gipalapdan ang tibuuk nga matrix nga adunay cross-entropy ug gidugang ang harmonic regularization pinaagi sa analohiya sa linear nga modelo, nga naggarantiya sa usa ka dili hinungdanon nga pagbag-o sa mga daan nga gibug-aton.

Operasyon sa pagkat-on sa makina sa Mail.ru Mail

CNN

Ang mga convolutional network medyo mas komplikado. Kung ang katapusan nga mga layer nahuman sa CNN, nan, siyempre, mahimo nimong magamit ang harmonic regularization ug garantiya ang pagpadayon. Apan kung kinahanglan ang dugang nga pagbansay sa tibuuk nga network, nan ang ingon nga regularisasyon dili na magamit sa tanan nga mga layer. Bisan pa, adunay kapilian sa pagbansay sa mga komplementaryong embeddings pinaagi sa Triplet Loss (orihinal nga artikulo).

Triple nga Kapildihan

Gamit ang usa ka anti-phishing nga buluhaton isip usa ka pananglitan, atong tan-awon ang Triplet Loss sa kinatibuk-ang termino. Gikuha namon ang among logo, ingon man ang positibo ug negatibo nga mga pananglitan sa mga logo sa ubang mga kompanya. Gipamubu namo ang gilay-on tali sa una ug gipa-maximize ang gilay-on tali sa ikaduha, gibuhat namo kini sa gamay nga gintang aron maseguro ang mas dako nga pagkakomplikado sa mga klase.

Operasyon sa pagkat-on sa makina sa Mail.ru Mail

Kung gibansay pa namon ang network, nan ang among metric space hingpit nga nagbag-o, ug kini mahimong hingpit nga dili mahiuyon sa nauna. Kini usa ka seryoso nga problema sa mga problema nga naggamit mga vector. Aron masulbad kini nga problema, magsagol kami sa mga daan nga embeddings sa panahon sa pagbansay.

Nagdugang kami og bag-ong datos sa set sa pagbansay ug nagbansay sa ikaduhang bersyon sa modelo gikan sa wala. Sa ikaduha nga yugto, among gibansay ang among network (Finetuning): una ang katapusan nga layer nahuman, ug dayon ang tibuuk nga network wala ma-frozen. Sa proseso sa pag-compose sa mga triplets, among gikalkula ang bahin lamang sa mga embedding gamit ang nabansay nga modelo, ang uban - gamit ang daan. Busa, sa proseso sa dugang nga pagbansay, among gisiguro ang pagkaangay sa metric spaces v1 ug v2. Usa ka talagsaon nga bersyon sa harmonic regularization.

Operasyon sa pagkat-on sa makina sa Mail.ru Mail

Tibuok arkitektura

Kung atong ikonsiderar ang tibuok nga sistema gamit ang antispam isip usa ka pananglitan, nan ang mga modelo dili nahimulag, apan nagsalag sa usag usa. Nagkuha kami mga litrato, teksto ug uban pang mga bahin, gamit ang CNN ug Fast Text nakakuha kami mga embeddings. Sunod, ang mga klasipikasyon gipadapat sa ibabaw sa mga embeddings, nga naghatag mga marka alang sa lainlaing mga klase (mga tipo sa mga letra, spam, presensya sa usa ka logo). Ang mga senyales ug mga timailhan nagsulod na sa lasang sa mga kahoy alang sa katapusang desisyon nga himoon. Ang mga indibidwal nga mga klasipikasyon sa kini nga laraw nagpaposible sa mas maayo nga paghubad sa mga resulta sa sistema ug labi nga espesipiko nga pagbansay sa mga sangkap kung adunay mga problema, kaysa sa pagpakaon sa tanan nga datos sa mga punoan sa desisyon sa usa ka hilaw nga porma.

Operasyon sa pagkat-on sa makina sa Mail.ru Mail

Ingon usa ka sangputanan, gigarantiyahan namon ang pagpadayon sa matag lebel. Sa ubos nga lebel sa CNN ug Fast Text naggamit kami og harmonic regularization, alang sa mga classifier sa tunga naggamit usab kami og harmonic regularization ug rate calibration alang sa pagkamakanunayon sa probability distribution. Aw, ang pagpadako sa kahoy gibansay sa hinay-hinay o paggamit sa Knowledge Distillation.

Sa kinatibuk-an, ang pagpadayon sa ingon nga usa ka nested machine learning system kasagaran usa ka kasakit, tungod kay ang bisan unsang sangkap sa ubos nga lebel magdala ngadto sa usa ka update sa tibuok nga sistema sa ibabaw. Apan tungod kay sa among pag-setup ang matag component nagbag-o gamay ug nahiuyon sa nauna, ang tibuok nga sistema mahimong ma-update matag piraso nga dili kinahanglan nga magbansay pag-usab sa tibuok nga istruktura, nga nagtugot niini nga suportahan nga walay seryoso nga overhead.

Ipakaylap

Gihisgutan namon ang pagkolekta sa datos ug dugang nga pagbansay sa lainlaing mga lahi sa mga modelo, mao nga nagpadayon kami sa ilang pag-deploy sa palibot sa produksiyon.

Pagsulay sa A/B

Sama sa akong giingon sa sayo pa, sa proseso sa pagkolekta sa datos, kasagaran kita makakuha og usa ka biased sample, diin imposible ang pagtimbang-timbang sa performance sa produksyon sa modelo. Busa, sa diha nga ang pag-deploy, ang modelo kinahanglan nga itandi sa miaging bersyon aron masabtan kon sa unsang paagi ang mga butang sa tinuod nga pag-adto, nga mao, pagpahigayon A/B mga pagsulay. Sa tinuud, ang proseso sa paglansad ug pag-analisar sa mga tsart kay naandan na ug dali nga awtomatiko. Among gilusad ang among mga modelo sa hinay-hinay ngadto sa 5%, 30%, 50% ug 100% sa mga tiggamit, samtang gikolekta ang tanang anaa nga metrics sa mga tubag sa modelo ug feedback sa user. Sa kaso sa pipila ka seryoso nga mga outlier, awtomatiko namong ibalik ang modelo, ug alang sa ubang mga kaso, nga nakakolekta og igo nga gidaghanon sa mga pag-klik sa tiggamit, mihukom kami nga dugangan ang porsyento. Ingon usa ka sangputanan, among gidala ang bag-ong modelo sa 50% sa mga tiggamit nga hingpit nga awtomatiko, ug ang paglansad sa tibuuk nga mamiminaw aprobahan sa usa ka tawo, bisan kung kini nga lakang mahimong awtomatiko.

Bisan pa, ang proseso sa pagsulay sa A/B nagtanyag lugar alang sa pag-optimize. Ang tinuod mao nga ang bisan unsang pagsulay sa A/B medyo taas (sa among kaso mokabat kini gikan sa 6 hangtod 24 ka oras depende sa kantidad sa feedback), nga naghimo niini nga medyo mahal ug adunay limitado nga mga kapanguhaan. Dugang pa, ang usa ka igo nga taas nga porsyento sa dagan alang sa pagsulay gikinahanglan aron sa tinuud nga pagpadali sa kinatibuk-ang oras sa pagsulay sa A / B (ang pag-recruit sa usa ka hinungdanon nga sample sa istatistika aron matimbangtimbang ang mga sukatan sa gamay nga porsyento mahimo’g magdugay kaayo), nga naghimo. limitado kaayo ang gidaghanon sa mga A/B slots. Dayag nga kinahanglan natong sulayan lamang ang labing maayong mga modelo, diin daghan ang atong madawat sa panahon sa dugang nga proseso sa pagbansay.

Aron masulbad kini nga problema, nagbansay kami sa usa ka bulag nga classifier nga nagtagna sa kalampusan sa usa ka pagsulay sa A/B. Aron mahimo kini, gikuha namon ang mga istatistika sa paghimog desisyon, Precision, Recall ug uban pang mga sukatan sa set sa pagbansay, sa gi-defer, ug sa sample gikan sa sapa ingon nga mga bahin. Gikumpara usab namo ang modelo sa kasamtangan sa produksyon, nga adunay heuristics, ug gikonsiderar ang pagkakomplikado sa modelo. Gamit ang tanan niini nga mga bahin, ang usa ka classifier nga nabansay sa kasaysayan sa pagsulay nagtimbang-timbang sa mga modelo sa kandidato, sa among kaso kini mga kalasangan sa mga kahoy, ug nagdesisyon kung kinsa ang gamiton sa pagsulay sa A/B.

Operasyon sa pagkat-on sa makina sa Mail.ru Mail

Sa panahon sa pagpatuman, kini nga pamaagi nagtugot kanamo sa pagdugang sa gidaghanon sa malampuson nga mga pagsulay sa A/B sa makadaghang higayon.

Pagsulay ug Pag-monitor

Ang pagsulay ug pag-monitor, sa katingad-an, dili makadaot sa atong kahimsog; hinoon, sa kasukwahi, gipauswag nila kini ug gihupay kita sa wala kinahanglana nga tensiyon. Gitugotan ka sa pagsulay nga mapugngan ang usa ka kapakyasan, ug ang pag-monitor nagtugot kanimo nga makit-an kini sa oras aron makunhuran ang epekto sa mga tiggamit.

Importante nga masabtan dinhi nga sa madugay o sa madali ang imong sistema kanunay nga masayop - kini tungod sa siklo sa pag-uswag sa bisan unsang software. Sa sinugdanan sa pag-uswag sa sistema kanunay adunay daghang mga bug hangtod nga ang tanan nahusay ug ang panguna nga yugto sa kabag-ohan nahuman. Apan sa paglabay sa panahon, ang entropy nag-antus, ug ang mga sayup nagpakita pag-usab - tungod sa pagkadaot sa mga sangkap sa palibot ug mga pagbag-o sa datos, nga akong gihisgutan sa sinugdanan.

Dinhi gusto nako nga timan-an nga ang bisan unsang sistema sa pagkat-on sa makina kinahanglan nga tagdon gikan sa punto sa pagtan-aw sa ganansya sa tibuuk nga siklo sa kinabuhi niini. Ang graph sa ubos nagpakita sa usa ka pananglitan kung giunsa ang sistema nagtrabaho aron makuha ang usa ka talagsaon nga klase sa spam (ang linya sa graph hapit sa zero). Usa ka adlaw, tungod sa sayop nga pagkatago nga hiyas, nabuang siya. Sama sa swerte, wala’y pag-monitor alang sa dili normal nga pag-trigger; ingon usa ka sangputanan, ang sistema nagsugod sa pagtipig sa daghang mga sulat sa folder nga "spam" sa utlanan sa paghimog desisyon. Bisan pa sa pagtul-id sa mga sangputanan, ang sistema nakahimo na sa daghang mga kasaypanan nga kini dili makabayad sa iyang kaugalingon bisan sa lima ka tuig. Ug kini usa ka hingpit nga kapakyasan gikan sa punto sa panglantaw sa siklo sa kinabuhi sa modelo.

Operasyon sa pagkat-on sa makina sa Mail.ru Mail

Busa, ang yano nga butang sama sa pag-monitor mahimong yawe sa kinabuhi sa usa ka modelo. Dugang pa sa mga sumbanan ug klaro nga mga sukatan, among gikonsiderar ang pag-apod-apod sa mga tubag sa modelo ug mga marka, ingon man ang pag-apod-apod sa mga hinungdanon nga kantidad sa bahin. Gamit ang pagkalainlain sa KL, mahimo naton itandi ang karon nga pag-apod-apod sa makasaysayanon o ang mga kantidad sa pagsulay sa A / B sa nahabilin nga sapa, nga nagtugot kanamo nga makamatikod sa mga anomaliya sa modelo ug ibalik ang mga pagbag-o sa tukma nga panahon.

Sa kadaghanan nga mga kaso, gilunsad namo ang among unang mga bersyon sa mga sistema gamit ang yano nga heuristics o mga modelo nga among gamiton isip pagmonitor sa umaabot. Pananglitan, gibantayan namon ang modelo sa NER kung itandi sa mga regular alang sa piho nga mga tindahan sa online, ug kung ang pagsakup sa classifier nahulog kung itandi sa kanila, nan nahibal-an namon ang mga hinungdan. Laing mapuslanon nga paggamit sa heuristic!

Mga resulta

Atong susihon pag-usab ang yawe nga mga ideya sa artikulo.

  • Fibdeck. Kanunay namon nga gihunahuna ang tiggamit: kung giunsa niya pagkinabuhi ang among mga kasaypanan, kung giunsa niya kini ireport. Ayaw kalimti nga ang mga tiggamit dili tinubdan sa puro nga feedback alang sa mga modelo sa pagbansay, ug kini kinahanglan nga malimpyohan sa tabang sa mga auxiliary ML nga sistema. Kung dili posible nga mangolekta usa ka signal gikan sa tiggamit, nan mangita kami mga alternatibong gigikanan sa feedback, pananglitan, konektado nga mga sistema.
  • Dugang nga pagbansay. Ang panguna nga butang dinhi mao ang pagpadayon, mao nga nagsalig kami sa karon nga modelo sa produksiyon. Gibansay namon ang mga bag-ong modelo aron dili sila magkalainlain sa nauna tungod sa harmonic regularization ug parehas nga mga limbong.
  • Ipakaylap. Ang auto-deployment base sa metrics makapakunhod pag-ayo sa panahon sa pagpatuman sa mga modelo. Ang mga istatistika sa pag-monitor ug pag-apod-apod sa paghimog desisyon, ang gidaghanon sa pagkahulog gikan sa mga tiggamit kinahanglan alang sa imong malinawon nga pagkatulog ug produktibo nga katapusan sa semana.

Aw, nanghinaut ko nga kini makatabang kanimo sa pagpausbaw sa imong mga sistema sa ML nga mas paspas, sa pagpadali niini sa merkado, ug paghimo kanila nga mas kasaligan ug dili kaayo makapaguol.

Source: www.habr.com

Idugang sa usa ka comment