Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

Miorina amin'ny kabary nataoko tao amin'ny Highload++ sy DataFest Minsk 2019.

Ho an'ny maro ankehitriny, ny mailaka dia ampahany manan-danja amin'ny fiainana an-tserasera. Miaraka amin'ny fanampiany, manao taratasy ara-barotra izahay, mitahiry ireo karazana fampahalalana manan-danja rehetra mifandraika amin'ny vola, ny famandrihana hotely, ny fametrahana baiko sy ny maro hafa. Tamin'ny tapaky ny taona 2018, namolavola paikady momba ny vokatra ho an'ny fampivoarana mailaka izahay. Tokony hanao ahoana ny mailaka maoderina?

Tsy maintsy misy ny mailaka manan-tsaina, izany hoe, manampy ny mpampiasa hivezivezy amin'ny habetsahan'ny vaovao mitombo: sivana, rafitra ary manome izany amin'ny fomba mety indrindra. Tsy maintsy ho izy ilaina, mamela anao hamaha asa isan-karazany ao amin'ny boaty mailakao, ohatra, mandoa lamandy (asa izay, indrisy, ampiasaiko). Ary amin'izany fotoana izany, mazava ho azy, ny mailaka dia tsy maintsy manome fiarovana ny vaovao, manapaka ny spam ary miaro amin'ny hacking, izany hoe, azo antoka.

Ireo faritra ireo dia mamaritra olana lehibe maromaro, izay maro amin'izy ireo dia azo vahana amin'ny fomba mahomby amin'ny alàlan'ny fianarana milina. Ireto misy ohatra amin'ireo endri-javatra efa misy novolavolaina ho ampahany amin'ny paikady - iray ho an'ny lalana tsirairay.

  • Smart Reply. Ny mailaka dia manana endri-pamaliana marani-tsaina. Ny tambajotra neural dia mamakafaka ny lahatsoratry ny taratasy, mahatakatra ny dikany sy ny tanjony, ary vokatr'izany dia manolotra safidy valiny telo mety indrindra: tsara, ratsy ary tsy miandany. Izany dia manampy amin'ny famatsiana fotoana be rehefa mamaly taratasy, ary matetika mamaly amin'ny fomba tsy manara-penitra sy mahatsikaiky.
  • Fanakambanana mailakamifandraika amin'ny baiko amin'ny fivarotana an-tserasera. Matetika izahay miantsena an-tserasera, ary, raha ny fitsipika, ny fivarotana dia afaka mandefa mailaka maromaro isaky ny kaomandy. Ohatra, avy amin'ny AliExpress, serivisy lehibe indrindra, taratasy maro no tonga ho an'ny baiko iray, ary kajy izahay fa amin'ny tranga terminal dia mety hahatratra hatramin'ny 29 ny isany. ary fampahalalana hafa avy amin'ny lahatsoratra ary arotsaho ao anaty kofehy iray ny litera rehetra. Asehoy ihany koa ny fampahalalana fototra momba ny baiko ao anaty boaty misaraka, izay manamora ny fiasana amin'ity karazana mailaka ity.

    Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

  • Anti-phishing. Ny phishing dia karazana mailaka hosoka mampidi-doza indrindra, miaraka amin'ny fanampian'ny mpanafika manandrana mahazo fampahalalana ara-bola (anisan'izany ny karatra banky an'ny mpampiasa) sy ny fidirana. Ny taratasy toy izany dia maka tahaka ny tena nalefan'ny serivisy, anisan'izany ny maso. Noho izany, miaraka amin'ny fanampian'ny Computer Vision, dia mahafantatra ny logos sy ny fomba fandrafetana taratasy avy amin'ny orinasa lehibe izahay (ohatra, Mail.ru, Sber, Alfa) ary mandray izany miaraka amin'ny lahatsoratra sy ny endri-javatra hafa ao amin'ny sokajy spam sy phishing. .

Fianarana milina

Kely momba ny fianarana milina amin'ny mailaka amin'ny ankapobeny. Ny mailaka dia rafitra feno entana: taratasy 1,5 lavitrisa isan'andro no mandalo amin'ny lohamilinay ho an'ny mpampiasa DAU 30 tapitrisa. Rafitra fianarana milina 30 eo ho eo no manohana ireo fiasa sy endri-javatra ilaina rehetra.

Ny litera tsirairay dia mandalo fantsona fanasokajiana iray manontolo. Tapaka aloha ny spam ary mamela mailaka tsara. Matetika ny mpampiasa dia tsy mahatsikaritra ny asan'ny antispam, satria ny 95-99% amin'ny spam dia tsy miafara amin'ny lahatahiry mety. Ny fanekena ny spam dia ampahany manan-danja amin'ny rafitra misy antsika, ary ny sarotra indrindra, satria eo amin'ny sehatry ny anti-spam dia misy ny fampifanarahana tsy tapaka eo amin'ny rafitra fiarovana sy fanafihana, izay manome fanamby ara-teknika mitohy ho an'ny ekipantsika.

Manaraka izany dia manasaraka ny taratasy amin'ny olona sy ny robots izahay. Ny mailaka avy amin'ny olona no zava-dehibe indrindra, ka manome endri-javatra toy ny Smart Reply ho azy ireo izahay. Ny taratasy avy amin'ny robots dia mizara roa: transactional - ireo dia taratasy manan-danja avy amin'ny serivisy, ohatra, fanamafisana ny fividianana na famandrihana hotely, vola ary fampahalalana - ireo dia dokam-barotra momba ny varotra, fihenam-bidy.

Mino izahay fa mitovy lanja amin'ny taratasim-pifandraisana manokana ny mailaka ara-barotra. Tokony ho eo an-tanana izy ireo, satria matetika isika dia mila mitady fampahalalana haingana momba ny baiko na famandrihana tapakila fiaramanidina, ary mandany fotoana hikaroka ireo taratasy ireo isika. Noho izany, ho an'ny fanamorana, dia zarainay ho sokajy lehibe enina izy ireo: fitsangatsanganana, baiko, fitantanam-bola, tapakila, fisoratana anarana ary farany, lamandy.

Ny taratasy fampahalalam-baovao no vondrona lehibe indrindra ary mety tsy dia manan-danja loatra, izay tsy mitaky valiny haingana, satria tsy hisy fiovana lehibe eo amin'ny fiainan'ny mpampiasa raha tsy mamaky taratasy toy izany izy. Ao amin'ny seha-pifaneraseranay vaovao, dia noravanay ho kofehy roa izy ireo: tambajotra sosialy sy gazety, ka manadio an-tsary ny boaty fidirana ary tsy mamela hafatra manan-danja ho hita.

Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

fitrandrahana

Ny rafitra maro be dia miteraka fahasahiranana maro amin'ny fampandehanana. Rehefa dinihina tokoa, ny modely dia miharatsy rehefa mandeha ny fotoana, toy ny lozisialy rehetra: tapaka ny endri-javatra, tsy mahomby ny milina, lasa mivadika ny code. Fanampin'izany, miova tsy tapaka ny angon-drakitra: ampiana vaovao, ovaina ny lamin'ny fitondran-tenan'ny mpampiasa, sns., Noho izany dia hiharatsy sy hiharatsy kokoa ny modely tsy misy fanohanana araka ny tokony ho izy rehefa mandeha ny fotoana.

Tsy tokony hohadinointsika fa ny fianarana milina lalindalina kokoa dia miditra amin'ny fiainan'ny mpampiasa, ny lehibe kokoa ny fiantraikany eo amin'ny tontolo iainana, ary, vokatr'izany, ny fatiantoka ara-bola na ny tombony azon'ny mpilalao tsena. Noho izany, amin'ny faritra mihamitombo, ny mpilalao dia mampifanaraka ny asan'ny algorithm ML (ohatra mahazatra dia ny dokam-barotra, ny fikarohana ary ny antispam efa voalaza).

Ary koa, ny asa fianarana milina dia manana ny maha-izy azy: na inona na inona, na dia kely aza, ny fiovana ao amin'ny rafitra dia mety hiteraka asa be miaraka amin'ny maodely: miasa miaraka amin'ny angona, famerenana indray, fametrahana, izay mety haharitra herinandro na volana. Noho izany, arakaraky ny fiovan'ny tontolo iasan'ny maodelinao haingana kokoa no ilàna ezaka bebe kokoa hitazomana azy ireo. Ny ekipa iray dia afaka mamorona rafitra maro ary ho faly amin'izany, fa avy eo dia mandany saika ny harenany rehetra amin'ny fikojakojana azy ireo, tsy manana fahafahana hanao zava-baovao. Nisy toe-javatra toy izany izahay indray mandeha tao amin'ny ekipa antispam. Ary nanatsoaka hevitra mazava izy ireo fa mila mandeha ho azy ny fanohanana.

automatique

Inona no azo automatique? Saika ny zava-drehetra, raha ny marina. Nahita sehatra efatra izay mamaritra ny fotodrafitrasa fianarana milina aho:

  • fanangonana angona;
  • fanofanana fanampiny;
  • deploy;
  • fitiliana & fanaraha-maso.

Raha tsy milamina ny tontolo iainana ary miova tsy tapaka, ny fotodrafitrasa manontolo manodidina ny modely dia lasa manan-danja kokoa noho ny modely. Mety ho fanasokajiana tsipika tranainy tsara izy io, fa raha mamahana azy amin'ny endri-javatra mety ianao ary mahazo valiny tsara avy amin'ny mpampiasa, dia hiasa tsara kokoa noho ny maodely State-Of-The-Art miaraka amin'ny lakolosy sy sioka rehetra.

Feedback Loop

Ity tsingerina ity dia manambatra ny fanangonana angona, fanofanana fanampiny ary fametrahana - raha ny marina, ny tsingerin'ny fanavaozana modely manontolo. Nahoana no zava-dehibe izany? Jereo ny fandaharam-potoana fisoratana anarana amin'ny mailaka:

Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

Nametraka modely anti-bot izay manakana ny bots tsy hisoratra anarana amin'ny mailaka ny mpamorona fianarana milina iray. Midina any amin'ny sanda tsy misy afa-tsy mpampiasa tena izy ny kisary. Tsara ny zava-drehetra! Saingy adiny efatra no lasa, ny bots dia manitsy ny sorany, ary miverina amin'ny laoniny ny zava-drehetra. Tamin'ity fampiharana ity, nandany iray volana ny developer nanampy endri-javatra sy namerina ny modely, fa ny spammer dia afaka nampifanaraka tao anatin'ny adiny efatra.

Mba tsy hanaintaina be loatra ka tsy voatery hamerina ny zava-drehetra any aoriana, dia tsy maintsy mieritreritra aloha isika hoe manao ahoana ny endriky ny tamberim-bidy ary inona no hataontsika raha miova ny tontolo iainana. Andao hanomboka amin'ny fanangonana angon-drakitra - ity no solika ho an'ny algorithms.

Fanangonana angona

Mazava fa ho an'ny tambajotra neural maoderina, ny angon-drakitra bebe kokoa, ny tsara kokoa, ary izy ireo, raha ny marina, dia novokarin'ny mpampiasa ny vokatra. Ny mpampiasa dia afaka manampy antsika amin'ny alalan'ny marika angon-drakitra, saingy tsy afaka manararaotra izany izahay, satria amin'ny fotoana sasany dia ho reraka ny mpampiasa amin'ny famitana ny modelyo ary hifindra amin'ny vokatra hafa.

Ny iray amin'ireo lesoka mahazatra indrindra (eto aho dia manao fanondroana an'i Andrew Ng) dia mifantoka be loatra amin'ny metrika amin'ny angon-drakitra fitsapana, fa tsy amin'ny fanehoan-kevitra avy amin'ny mpampiasa, izay no tena fandrefesana ny kalitaon'ny asa, satria mamorona izahay. vokatra ho an'ny mpampiasa. Raha tsy takatry ny mpampiasa na tsy tia ny asan'ny modely, dia rava ny zava-drehetra.

Noho izany, ny mpampiasa dia tokony ho afaka mifidy foana ary tokony homena fitaovana ho an'ny fanehoan-kevitra. Raha mieritreritra isika fa tonga ao amin'ny boaty mailaka ny taratasy mifandraika amin'ny fitantanam-bola, dia mila manisy marika azy io hoe "fitantanam-bola" ary manao bokotra izay azon'ny mpampiasa kitihina ary milaza fa tsy ara-bola izany.

kalitaon'ny hevitra

Andeha isika hiresaka momba ny kalitaon'ny fanehoan-kevitry ny mpampiasa. Voalohany, ianao sy ny mpampiasa dia afaka mametraka dikany samihafa amin'ny foto-kevitra iray. Ohatra, ianao sy ny mpitantana ny vokatrao dia mihevitra fa ny "famatsiam-bola" dia midika hoe taratasy avy amin'ny banky, ary ny mpampiasa dia mihevitra fa ny taratasy avy amin'ny renibeny momba ny fisotroan-drononony dia manondro ara-bola ihany koa. Faharoa, misy ireo mpampiasa izay tia manindry bokotra tsy misy lojika. Fahatelo, mety ho diso hevitra lalina ny mpampiasa amin'ny fanatsoahan-keviny. Ohatra manaitra avy amin'ny fanaontsika ny fampiharana ny fanasokajiana spam Nizeriana, karazana spam tena mampihomehy izay angatahana ny mpampiasa haka vola an-tapitrisany dolara amin'ny havana lavitra hita tampoka any Afrika. Taorian'ny fampiharana ity fanasokajiana ity dia nojerenay ireo kitiho "Not Spam" amin'ireo mailaka ireo, ary hita fa ny 80% amin'izy ireo dia spam Nizeriana be ranony, izay milaza fa mety ho mora voafitaka ny mpampiasa.

Ary aoka tsy hohadinoina fa ny bokotra dia tsy vitan'ny olona ihany, fa koa amin'ny karazana bots rehetra izay mody navigateur. Noho izany, ny fanehoan-kevitra manta dia tsy tsara ho an'ny fianarana. Inona no azonao atao amin'ity fampahalalana ity?

Mampiasa fomba roa izahay:

  • Hevitra avy amin'ny ML mifandray. Ohatra, manana rafitra anti-bot an-tserasera izahay, izay, araka ny nolazaiko, dia mandray fanapahan-kevitra haingana mifototra amin'ny marika voafetra. Ary misy rafitra faharoa miadana izay miasa aorian'ny zava-misy. Manana angona bebe kokoa momba ny mpampiasa, ny fitondran-tenany, sns. Vokatr'izany, ny fanapahan-kevitra tsara indrindra dia raisina, araka izany, dia manana fahamendrehana sy fahafenoana kokoa. Azonao atao ny mitarika ny fahasamihafan'ny fiasan'ireo rafitra ireo amin'ny voalohany ho angona fanofanana. Noho izany, ny rafitra tsotra dia hiezaka hatrany hanatona ny fahombiazan'ny rafitra sarotra kokoa.
  • Click classification. Azonao atao ny manasokajy fotsiny ny kitihin'ny mpampiasa tsirairay, manombatombana ny maha-marina sy azo ampiasaina. Manao izany izahay amin'ny mailaka antispam, mampiasa ny toetran'ny mpampiasa, ny tantarany, ny toetran'ny mpandefa, ny lahatsoratra mihitsy ary ny vokatry ny mpanasokajy. Vokatr'izany dia mahazo rafitra mandeha ho azy izahay izay manamarina ny valin'ny mpampiasa. Ary satria tsy maintsy ampiofanina matetika kokoa izy, dia mety ho lasa fototry ny rafitra hafa rehetra ny asany. Ny laharam-pahamehana lehibe amin'ity modely ity dia ny fahamendrehana, satria ny fanofanana ny modely amin'ny angona tsy marina dia feno vokany.

Na dia manadio ny angon-drakitra sy manofana bebe kokoa ny rafitra ML aza izahay, dia tsy tokony hanadino ny mpampiasa, satria ho anay, an'arivony, an-tapitrisany ny fahadisoana amin'ny grafika dia antontan'isa, ary ho an'ny mpampiasa dia loza ny bibikely rehetra. Ho fanampin'ny zava-misy fa ny mpampiasa dia tsy maintsy miaina amin'ny fahadisoanao amin'ny vokatra, aorian'ny nahazoany valiny, dia manantena izy fa hisy toe-javatra mitovy amin'izany hofoanana amin'ny ho avy. Noho izany, mendrika foana ny manome ny mpampiasa ny fahafahana hifidy, fa koa hanitsy ny fitondran-tenan'ny rafitra ML, mamorona, ohatra, heuristics manokana ho an'ny tsindrim-peo tsirairay; raha ny mailaka, dia mety ho ny fahafahana manivana. taratasy toy izany avy amin'ny mpandefa sy ny lohateny ho an'ity mpampiasa ity.

Mila manangana modely mifototra amin'ny tatitra sasany na fangatahana fanohanana amin'ny fomba semi-automatique na manual ianao mba tsy hiharan'ny olana mitovy amin'izany ny mpampiasa hafa.

Heuristics ho an'ny fianarana

Misy olana roa amin'ireo heuristic sy crutches ireo. Ny voalohany dia sarotra ny fikojakojana ny fitomboan'ny isan'ny tehina, mainka fa ny kalitao sy ny fahombiazany mandritra ny fotoana maharitra. Ny olana faharoa dia ny fahadisoana dia mety tsy ho matetika, ary kitiho vitsivitsy mba hampiofana bebe kokoa ny modely dia tsy ho ampy. Toa mety ho tsy misy ifandraisany ireo vokatra roa tsy misy ifandraisany ireo raha toa ka ampiharina ity fomba fiasa manaraka ity.

  1. Mamorona tehina vonjimaika izahay.
  2. Mandefa angona avy aminy mankany amin'ny modely izahay, manavao tsy tapaka ny tenany, ao anatin'izany ny angona voaray. Eto, mazava ho azy, dia zava-dehibe ny heuristics manana marina avo mba tsy hampihenana ny kalitaon'ny angona ao amin'ny fiofanana napetraka.
  3. Avy eo dia apetrakay ny fanaraha-maso hanesorana ny crutch, ary raha toa ka tsy mandeha intsony ny crutch ary voasarona tanteraka amin'ny modely, dia azonao atao ny manala azy io. Amin'izao fotoana izao dia tsy azo inoana fa hiverina indray io olana io.

Noho izany dia tena ilaina ny tafik'ny tehina. Ny tena zava-dehibe dia ny serivisy ataon'izy ireo maika fa tsy maharitra.

Fanofanana fanampiny

Ny fanazaran-tena indray dia ny dingan'ny fampidirana angon-drakitra vaovao azo vokatry ny tamberin'andraikitra avy amin'ny mpampiasa na ny rafitra hafa, ary ny fanofanana modely efa misy momba izany. Mety misy olana maromaro amin'ny fampiofanana fanampiny:

  1. Ny modely dia mety tsy manohana fiofanana fanampiny, fa mianatra avy amin'ny scratch ihany.
  2. Tsy misy na aiza na aiza ao amin'ny bokin'ny natiora voasoratra fa ny fampiofanana fanampiny dia azo antoka fa hanatsara ny kalitaon'ny asa amin'ny famokarana. Matetika ny mifanohitra amin'izany no mitranga, izany hoe ny fahasimbana ihany no azo atao.
  3. Mety ho tsy azo vinaniana ny fiovana. Ity dia teboka somary saro-pady izay nofantarintsika ho an'ny tenantsika. Na dia misy modely vaovao amin'ny fitsapana A/B aza dia mampiseho valiny mitovy amin'ny ankehitriny, tsy midika izany fa hiasa mitovy. Ny asan'izy ireo dia mety tsy mitovy amin'ny iray isan-jato fotsiny, izay mety hitondra fahadisoana vaovao na hamerina ny taloha efa voahitsy. Na isika na ny mpampiasa dia efa mahafantatra ny fomba hiainana amin'ny fahadisoana ankehitriny, ary rehefa maro ny fahadisoana vaovao mipoitra, ny mpampiasa koa dia mety tsy hahatakatra ny zava-mitranga, satria manantena ny fitondran-tena mialoha.

Noho izany, ny zava-dehibe indrindra amin'ny fanofanana fanampiny dia ny miantoka ny fanatsarana ny modely, na farafaharatsiny tsy miharatsy.

Ny zavatra voalohany tonga ao an-tsaina rehefa miresaka momba ny fiofanana fanampiny dia ny fomba Active Learning. Inona no dikan'ity? Ohatra, ny fanasokajiana dia mamaritra raha misy ifandraisany amin'ny fitantanam-bola ny mailaka iray, ary manodidina ny fetran'ny fanapahan-keviny dia manampy santionany amin'ny ohatra misy marika izahay. Izany dia miasa tsara, ohatra, amin'ny dokam-barotra, izay misy fanehoan-kevitra be dia be ary azonao atao ny manofana ny modely amin'ny Internet. Ary raha misy fanehoan-kevitra kely, dia mahazo santionany mitongilana amin'ny fizarana angon-drakitra famokarana, izay mifototra amin'ny tsy azo atao ny manombatombana ny fihetsiky ny modely mandritra ny fandidiana.

Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

Raha ny marina, ny tanjonay dia ny hitahiry ireo lamina taloha, ireo modely efa fantatra ary ny fahazoana vaovao. Zava-dehibe eto ny fitohizana. Ny maodely, izay matetika no nisedra mafy ny hamoahana azy, dia efa miasa, mba hahafahantsika mifantoka amin'ny zava-bitany.

Modely samihafa no ampiasaina amin'ny mailaka: hazo, linear, tambajotra neural. Ho an'ny tsirairay dia manao algorithm fanofanana fanampiny ho anay manokana izahay. Ao anatin'ny dingan'ny fampiofanana fanampiny, tsy ny angon-drakitra vaovao ihany no raisinay, fa matetika koa ireo endri-javatra vaovao, izay horaisinay amin'ny algorithm rehetra etsy ambany.

Linear modely

Aoka hatao hoe manana fihemorana ara-pitaovana isika. Mamorona modely fatiantoka izahay avy amin'ireto singa manaraka ireto:

  • LogLoss amin'ny angona vaovao;
  • ataontsika ara-dalàna ny lanjan'ny endri-javatra vaovao (tsy mikasika ny taloha);
  • mianatra avy amin'ny angona taloha ihany koa isika mba hitahiry ireo lamina taloha;
  • ary, angamba, ny zava-dehibe indrindra: ampianay ny Harmonic Regularization, izay miantoka fa ny lanjany dia tsy hiova be raha oharina amin'ny modely taloha araka ny mahazatra.

Satria ny singa Loss tsirairay dia manana coefficient, afaka misafidy ny soatoavina tsara indrindra ho an'ny asantsika isika amin'ny alàlan'ny fanamarinana cross-validation na mifototra amin'ny fepetra takian'ny vokatra.

Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

hazo

Andeha isika hiroso amin'ny hazo fanapahan-kevitra. Nanangona ity algorithm manaraka ity izahay ho an'ny fampiofanana hazo fanampiny:

  1. Ny famokarana dia mitantana ala misy hazo 100-300, izay voaofana amin'ny angon-drakitra tranainy.
  2. Amin'ny farany dia manaisotra ny M = 5 izahay ary ampiana 2M = 10 vaovao, voaofana amin'ny fitambaran'ny angon-drakitra manontolo, saingy miaraka amin'ny lanjany avo lenta ho an'ny angon-drakitra vaovao, izay miantoka ny fiovan'ny modely.

Mazava ho azy fa mitombo be ny isan'ny hazo rehefa mandeha ny fotoana, ary tsy maintsy ahena tsindraindray izy ireo mba hahafeno ny fotoana. Mba hanaovana izany, dia mampiasa ny Fahalalana Distillation (KD) ankehitriny. Fohy momba ny fitsipiky ny asany.

  1. Manana ny modely "sarotra" ankehitriny isika. Mihazakazaka izany amin'ny angon-drakitra fanofanana izahay ary mahazo ny fizarana mety amin'ny kilasy amin'ny vokatra.
  2. Manaraka, mampiofana ny modelin'ny mpianatra izahay (ilay maodely misy hazo vitsy kokoa amin'ity tranga ity) mba hamerina ny valin'ny modely amin'ny fampiasana ny fizarana kilasy ho ny fari-piadidiana kendrena.
  3. Zava-dehibe ny manamarika eto fa tsy mampiasa ny mari-pamantarana napetraka izahay amin'ny fomba rehetra, ary noho izany dia afaka mampiasa data tsy misy dikany izahay. Mazava ho azy fa mampiasa santionany angona avy amin'ny renirano miady ho santionany fanofanana ho an'ny modely mpianatra. Noho izany, ny seta fanofanana dia ahafahantsika miantoka ny fahamarinan'ny modely, ary ny santionan'ny renirano dia miantoka ny fampisehoana mitovy amin'izany amin'ny fizarana famokarana, manonitra ny fitongilanan'ny setroka fanofanana.

Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

Ny fampifangaroana ireo teknika roa ireo (fampiana hazo sy fampihenana tsindraindray ny isany amin'ny alàlan'ny Distillation Fahalalana) dia miantoka ny fampidirana lamina vaovao sy ny fitohizana tanteraka.

Miaraka amin'ny fanampian'ny KD, dia manao hetsika isan-karazany amin'ny endri-javatra maodely ihany koa izahay, toy ny fanesorana ny endri-javatra sy ny fiasana amin'ny banga. Amin'ny tranga misy antsika dia manana endri-javatra statistika manan-danja maromaro (avy amin'ny mpandefa, hashes lahatsoratra, URL, sns.) izay voatahiry ao amin'ny tahiry, izay matetika tsy mahomby. Ny modely, mazava ho azy, dia tsy vonona amin'ny fivoaran'ny hetsika toy izany, satria ny toe-javatra tsy fahombiazana dia tsy mitranga ao amin'ny toeram-piofanana. Amin'ny toe-javatra toy izany, dia manambatra ny KD sy ny teknika fampitomboana: rehefa miofana amin'ny ampahany amin'ny angon-drakitra, dia manala na mamerina ireo endri-javatra ilaina, ary maka ny etikety tany am-boalohany (vokatry ny modely ankehitriny), ary mianatra mamerina izany fizarana izany ny modely mpianatra. .

Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

Tsikaritray fa ny fanodinkodinana maodely matotra kokoa no lehibe kokoa ny isan-jaton'ny santionan'ny kofehy ilaina.

Ny fanesorana endri-javatra, ny asa tsotra indrindra, dia tsy mitaky afa-tsy ampahany kely amin'ny fikorianan'ny rivotra, satria ny endri-javatra roa ihany no miova, ary ny modely amin'izao fotoana izao dia nampiofanina tamin'ny andiany iray ihany - ny fahasamihafana dia kely indrindra. Mba hanatsorana ny maodely (fampihenana imbetsaka ny isan'ny hazo), dia efa ilaina ny 50 ka hatramin'ny 50. Ary ho an'ny tsy fisian'ny endri-javatra statistika manan-danja izay hisy fiantraikany lehibe amin'ny fanatanterahana ny maodely, dia ilaina ny mikoriana bebe kokoa mba hampitony ny asan'ny maodely vaovao mahatohitra fanalana amin'ny karazana litera rehetra.

Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

FastText

Andao hiroso amin'ny FastText. Mamelà ahy hampahatsiahy anao fa ny fanehoana (Embedding) ny teny iray dia ahitana ny fitambaran'ny fametahana ny teny sy ny litera N-gram rehetra, matetika trigrama. Koa satria mety ho be dia be ny trigrama, dia ampiasaina ny Bucket Hashing, izany hoe mamadika ny habaka manontolo ho sari-tany raikitra. Vokatr'izany, ny matrix lanja dia azo miaraka amin'ny refin'ny sosona anatiny isaky ny isan'ny teny + siny.

Miaraka amin'ny fampiofanana fanampiny dia misy famantarana vaovao: teny sy trigrama. Tsy misy zava-dehibe mitranga amin'ny fanofanana fanaraha-maso mahazatra avy amin'ny Facebook. Ny lanja taloha miaraka amin'ny cross-entropy ihany no averina amin'ny angona vaovao. Noho izany dia tsy ampiasaina ny endri-javatra vaovao, mazava ho azy, io fomba io dia manana ny tsy fahampiana voalaza etsy ambony mifandray amin'ny tsy fahampian'ny modely amin'ny famokarana. Izany no antony nanovantsika kely ny FastText. Ampio ireo lanja vaovao rehetra (teny sy trigrama) izahay, manitatra ny matrix manontolo miaraka amin'ny cross-entropy ary manampy ny harmonic regularization amin'ny alàlan'ny fanoharana amin'ny modely tsipika, izay miantoka ny fiovana tsy dia misy dikany amin'ny lanjany taloha.

Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

CNN

Ny tambajotra convolutional dia somary sarotra kokoa. Raha vita ao amin'ny CNN ny sosona farany, dia mazava ho azy fa azonao atao ny mampihatra ny harmonic regularization ary miantoka ny fitohizana. Saingy raha ilaina ny fampiofanana fanampiny amin'ny tambajotra iray manontolo, dia tsy azo ampiharina amin'ny sosona rehetra intsony ny regularization toy izany. Na izany aza, misy safidy hanofanana fampitaovana fanampiny amin'ny alàlan'ny Triplet Loss (lahatsoratra tany am-boalohany).

Faharoa telo

Amin'ny fampiasana asa manohitra ny phishing ho ohatra, andeha hojerentsika ny Triplet Loss amin'ny ankapobeny. Raisinay ny logonay, ary koa ny ohatra tsara sy ratsy momba ny logo an'ny orinasa hafa. Manamaivana ny elanelana misy eo amin'ny voalohany isika ary mampitombo ny elanelana misy eo amin'ny faharoa, manao izany miaraka amin'ny banga kely izahay mba hiantohana ny firindran'ny kilasy.

Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

Raha mampiofana bebe kokoa ny tambajotra isika, dia miova tanteraka ny habaka metrika, ary lasa tsy mifanaraka tanteraka amin'ny teo aloha. Olana lehibe amin'ny olana mampiasa vectors izany. Mba hialana amin'ity olana ity, dia hampifangaro ny embeddings taloha izahay mandritra ny fiofanana.

Nanampy angon-drakitra vaovao ho an'ny setroka fanofanana izahay ary manofana ny dikan-teny faharoa amin'ny modely hatramin'ny voalohany. Amin'ny dingana faharoa dia mampiofana bebe kokoa ny tambajotra (Finetuning): vita ny sosona farany voalohany, ary avy eo dia tsy mivaingana ny tambajotra manontolo. Ao amin'ny dingan'ny famoronana triplets dia kajy ny ampahany amin'ny embeddings mampiasa ny modely voaofana, ny sisa - mampiasa ny taloha. Noho izany, amin'ny dingan'ny fanofanana fanampiny, dia miantoka ny fampifanarahana ny habaka metrika v1 sy v2. Dika tsy manam-paharoa amin'ny regularization harmonic.

Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

Architecture manontolo

Raha raisina ho ohatra ny rafitra iray manontolo mampiasa antispam, dia tsy mitoka-monina ireo modely, fa mifanakaiky. Maka sary, lahatsoratra ary endri-javatra hafa izahay, amin'ny fampiasana CNN sy Fast Text dia mahazo embeddings. Manaraka, ny fanasokajiana dia ampiharina eo an-tampon'ny embeddings, izay manome isa ho an'ny kilasy isan-karazany (karazana litera, spam, fisian'ny logo). Efa miditra amin’ny alan’ny hazo ny famantarana sy ny famantarana mba handraisana fanapahan-kevitra farany. Ny fanasokajiana tsirairay ao anatin'ity rafitra ity dia ahafahana mandika tsara kokoa ny valin'ny rafitra ary manofana manokana ireo singa raha misy olana, fa tsy mamahana ny angon-drakitra rehetra amin'ny hazo fanapahan-kevitra amin'ny endrika manta.

Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

Vokatr'izany dia miantoka ny fitohizana amin'ny ambaratonga rehetra izahay. Amin'ny ambaratonga ambany ao amin'ny CNN sy Fast Text dia mampiasa regularization harmonic izahay, ho an'ny mpanasokajy eo afovoany dia mampiasa regularization harmonic sy calibration ihany koa izahay ho an'ny tsy fitoviana amin'ny fizarana mety. Eny, ny fampitomboana ny hazo dia miofana tsikelikely na mampiasa Fandidiana Fahalalana.

Amin'ny ankapobeny, fanaintainana matetika ny fitazonana rafitra fianarana milina misy akany toy izany, satria ny singa rehetra amin'ny ambaratonga ambany dia mitondra fanavaozana ny rafitra manontolo etsy ambony. Saingy satria ao amin'ny setup ataontsika dia miova kely ny singa tsirairay ary mifanaraka amin'ny teo aloha, ny rafitra manontolo dia azo havaozina isaky ny ampahany tsy mila manofana ny rafitra manontolo, izay mamela azy ho tohanana tsy misy overhead.

miisa

Niresaka momba ny fanangonana angon-drakitra sy fanofanana fanampiny momba ireo karazana modely izahay, noho izany dia miroso amin'ny fametrahana azy ireo amin'ny tontolo famokarana izahay.

Fitsapana A/B

Araka ny nolazaiko teo aloha, eo amin'ny dingan'ny fanangonana angon-drakitra dia matetika isika no mahazo santionany mitongilana, izay tsy azo atao ny manombana ny fahombiazan'ny famokarana ny modely. Noho izany, rehefa manaparitaka, ny modely dia tsy maintsy ampitahaina amin'ny dikan-teny teo aloha mba hahatakarana ny tena fandehan'ny zava-drehetra, izany hoe, manao fitiliana A/B. Raha ny marina, ny fizotran'ny famoahana sy famakafakana tabilao dia mahazatra ary azo atao ho azy mora foana. Mamoaka tsikelikely ny maodely amin'ny 5%, 30%, 50% ary 100% amin'ny mpampiasa izahay, sady manangona ny metrika rehetra misy momba ny valin'ny modely sy ny valin'ny mpampiasa. Amin'ny toe-javatra tsy fahita firy dia averinay ho azy ny maodely, ary amin'ny tranga hafa, rehefa nanangona tsindrin'ny mpampiasa ampy izahay, dia manapa-kevitra ny hampitombo ny isan-jato. Vokatr'izany, mitondra ny maodely vaovao ho an'ny 50% amin'ny mpampiasa mandeha ho azy tanteraka izahay, ary ny fandefasana ho an'ny mpihaino iray manontolo dia ankatoavin'ny olona iray, na dia azo atao ho azy aza io dingana io.

Na izany aza, ny fizotry ny fitiliana A/B dia manome toerana ho an'ny fanatsarana. Ny zava-misy dia ny fitsapana A/B rehetra dia lava be (amin'ny tranga misy antsika dia mila 6 ka hatramin'ny 24 ora miankina amin'ny habetsahan'ny fanehoan-kevitra), izay mahatonga azy io ho lafo sy manana loharano voafetra. Ho fanampin'izany, ny salan'isa avo lenta amin'ny fikorianan'ny fitsapana dia takiana mba hanafainganana ny fotoana ankapoben'ny fitsapana A/B (mety haharitra ela ny fandraisana santionany manan-danja ara-statistika hanombanana ny metrika amin'ny isan-jato kely), izay mahatonga izany. voafetra be ny isan'ny slot A/B. Mazava ho azy fa tsy mila mitsapa afa-tsy ireo modely mampanantena indrindra isika, izay azonay betsaka mandritra ny dingana fanofanana fanampiny.

Mba hamahana an'io olana io, dia nampiofana mpanasokajiana manokana izay maminavina ny fahombiazan'ny fitsapana A/B. Mba hanaovana izany, dia maka antontan'isa fandraisana fanapahan-kevitra, Precision, Recall ary metrika hafa amin'ny seta fanofanana, amin'ny nahemotra, ary amin'ny santionany avy amin'ny renirano ho endri-javatra. Ampitahainay koa ny modely amin'ny famokarana ankehitriny, miaraka amin'ny heuristika, ary raisinay ny fahasarotan'ny modely. Amin'ny fampiasana ireo endri-javatra rehetra ireo, ny mpanasokajiana voaofana amin'ny tantaran'ny fitsapana dia manombana ny maodely kandidà, amin'ny tranga misy antsika dia ala ireny, ary manapa-kevitra hoe iza no hampiasaina amin'ny fitsapana A/B.

Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

Tamin'ny fotoana fampiharana, io fomba fiasa io dia namela anay hampitombo ny isan'ny fitsapana A/B mahomby imbetsaka.

Fitsapana & Fanaraha-maso

Ny fitsapana sy ny fanaraha-maso, mahagaga, dia tsy manimba ny fahasalamantsika, fa ny mifanohitra amin'izany, manatsara izany ary manamaivana antsika amin'ny adin-tsaina tsy ilaina. Ny fitsapana dia ahafahanao misoroka ny tsy fahombiazana, ary ny fanaraha-maso dia ahafahanao mamantatra izany ara-potoana mba hampihenana ny fiantraikan'ny mpampiasa.

Zava-dehibe ny mahatakatra eto fa na ho ela na ho haingana dia hanao fahadisoana foana ny rafitrao - izany dia noho ny tsingerin'ny fivoaran'ny rindrambaiko rehetra. Amin'ny fiandohan'ny fivoaran'ny rafitra dia misy bibikely maro foana mandra-pilamina ny zava-drehetra ary vita ny dingana lehibe amin'ny fanavaozana. Saingy rehefa mandeha ny fotoana, dia mihena ny entropy, ary miseho indray ny fahadisoana - noho ny fahasimban'ny singa manodidina sy ny fiovan'ny data, izay noresahiko tany am-boalohany.

Eto aho dia te-hanamarika fa ny rafitra fianarana milina rehetra dia tokony hojerena amin'ny fomba fijerin'ny tombony azony mandritra ny androm-piainany manontolo. Ny kisary etsy ambany dia mampiseho ohatra iray amin'ny fomba fiasan'ny rafitra hisambotra karazana spam tsy fahita firy (eo akaikin'ny aotra ny tsipika ao amin'ny grafika). Indray andro, noho ny toetra tsy voatahiry tsara dia lasa adala izy. Araka ny mety ho vintana dia tsy nisy fanaraha-maso ho an'ny firongatry ny tsy ara-dalàna; vokatr'izany, nanomboka nitahiry taratasy betsaka tao amin'ny lahatahiry “spam” eo amin'ny sisin-tanin'ny fanapahan-kevitra ny rafitra. Na dia eo aza ny fanitsiana ny voka-dratsiny, dia efa nanao fahadisoana imbetsaka ny rafitra ka tsy handoa vola ho azy na dia afaka dimy taona aza. Ary izany dia tsy fahombiazana tanteraka amin'ny fomba fijerin'ny tsingerin'ny fiainan'ny modely.

Fampandehanana ny fianarana milina amin'ny Mail.ru Mail

Noho izany, ny zavatra tsotra toy ny fanaraha-maso dia mety ho lasa zava-dehibe amin'ny fiainan'ny modely. Ho fanampin'ny metrika manara-penitra sy miharihary, dia heverintsika ny fitsinjarana ny valin'ny modely sy ny isa, ary koa ny fitsinjarana ireo soatoavina manan-danja. Amin'ny fampiasana ny divergence KL, azontsika atao ny mampitaha ny fizarana amin'izao fotoana izao amin'ny tantara iray na ny soatoavina ao amin'ny fitsapana A/B miaraka amin'ny sisa amin'ny renirano, izay ahafahantsika mahatsikaritra ny tsy fetezana amin'ny maodely ary mamerina ny fiovana ara-potoana.

Amin'ny ankamaroan'ny toe-javatra, dia manomboka ny dikan-ny rafitra voalohany amin'ny fampiasana heuristika tsotra na maodely izay ampiasainay ho fanaraha-maso amin'ny ho avy. Ohatra, manara-maso ny maodely NER izahay raha ampitahaina amin'ny mahazatra ho an'ny magazay an-tserasera manokana, ary raha midina ny fandrakofana fanasokajiana raha ampitahaina amin'izy ireo, dia azontsika ny antony. Fampiasana heuristika hafa mahasoa!

vokatra

Andeha hojerentsika indray ny hevi-dehiben’ilay lahatsoratra.

  • Fibdeck. Mieritreritra foana momba ny mpampiasa izahay: ny fomba hiainany miaraka amin'ny fahadisoantsika, ny fomba ahafahany mitatitra izany. Aza adino fa ny mpampiasa dia tsy loharanon'ny fanehoan-kevitra madio ho an'ny modely fanofanana, ary mila esorina miaraka amin'ny fanampian'ny rafitra ML fanampiny. Raha tsy azo atao ny manangona famantarana avy amin'ny mpampiasa, dia mitady loharanom-baovao hafa izahay, ohatra, ny rafitra mifandray.
  • Fanofanana fanampiny. Ny zava-dehibe eto dia ny fitohizana, noho izany dia miantehitra amin'ny modely famokarana ankehitriny isika. Manofana modely vaovao izahay mba tsy hitovy amin'ny teo aloha noho ny fandrindrana ny harmonic sy ny tricks mitovy.
  • miisa. Ny fandefasana mandeha ho azy mifototra amin'ny metrika dia mampihena be ny fotoana fampiharana ny maodely. Ny antontan'isa fanaraha-maso sy ny fitsinjarana ny fandraisana fanapahan-kevitra, ny isan'ny fianjeran'ny mpampiasa dia tsy maintsy atao amin'ny torimasonao milamina sy ny faran'ny herinandro mamokatra.

Eny, manantena aho fa hanampy anao hanatsara ny rafitra ML anao haingana kokoa izany, hahatonga azy ireo hivarotra haingana kokoa, ary hahatonga azy ireo ho azo antoka kokoa sy tsy dia mahasosotra kokoa.

Source: www.habr.com

Add a comment