Aiki na koyon inji a cikin Mail.ru Mail

Aiki na koyon inji a cikin Mail.ru Mail

Dangane da jawabaina a Highload++ da DataFest Minsk 2019.

Ga mutane da yawa a yau, wasiƙa wani bangare ne na rayuwar kan layi. Tare da taimakonsa, muna gudanar da wasiƙun kasuwanci, adana kowane irin muhimman bayanai da suka shafi kuɗi, ajiyar otal, yin oda da ƙari mai yawa. A tsakiyar 2018, mun tsara dabarun samfur don haɓaka wasiku. Yaya ya kamata wasikun zamani su kasance?

Dole ne imel ya kasance mai hankali, wato, taimaka wa masu amfani don kewaya ƙarar ƙarar bayanai: tacewa, tsari da kuma samar da shi ta hanya mafi dacewa. Dole ta kasance mai amfani, ba ka damar warware ayyuka daban-daban daidai a cikin akwatin gidan waya, misali, biyan tara (aikin da, da rashin alheri, na yi amfani da shi). Kuma a lokaci guda, ba shakka, imel dole ne ya ba da kariya ga bayanai, yanke spam da kuma kariya daga hacking, wato, zama. lafiya.

Waɗannan wuraren suna bayyana wasu mahimman matsalolin, waɗanda yawancinsu za'a iya magance su yadda ya kamata ta amfani da koyan na'ura. Anan akwai misalan abubuwan da aka riga aka ƙera a matsayin ɓangare na dabarun - ɗaya don kowane shugabanci.

  • Smart amsa. Wasiku yana da fasalin amsa mai wayo. Cibiyar sadarwa ta jijiyoyi tana nazarin rubutun harafin, fahimtar ma'anarsa da manufarsa, kuma a sakamakon haka yana ba da zaɓuɓɓukan amsa guda uku mafi dacewa: tabbatacce, korau da tsaka tsaki. Wannan yana taimakawa wajen adana lokaci mai mahimmanci yayin amsa haruffa, kuma sau da yawa yana amsawa ta hanyar da ba daidai ba da ban dariya.
  • Rukunin imelmasu alaƙa da umarni a cikin shagunan kan layi. Sau da yawa muna siyayya akan layi, kuma, a matsayin mai mulkin, shaguna na iya aika imel da yawa don kowane oda. Misali, daga AliExpress, sabis mafi girma, haruffa da yawa sun shigo don tsari ɗaya, kuma mun ƙididdige cewa a cikin tashar tashar adadin su zai iya kai har zuwa 29. Don haka, ta amfani da samfurin Gane Mai Suna, muna fitar da lambar tsari. da sauran bayanai daga rubutu da rukuni duk haruffa a cikin zare ɗaya. Muna kuma nuna mahimman bayanai game da tsari a cikin wani akwati dabam, wanda ke sauƙaƙa aiki tare da irin wannan imel ɗin.

    Aiki na koyon inji a cikin Mail.ru Mail

  • Anti-phishing. Fishing wani nau'in imel ne na yaudara musamman mai haɗari, tare da taimakon wanda maharan ke ƙoƙarin samun bayanan kuɗi (ciki har da katunan banki na mai amfani) da shiga. Irin waɗannan haruffa suna kwaikwayi na ainihi waɗanda sabis ɗin ya aika, gami da na gani. Sabili da haka, tare da taimakon hangen nesa na Kwamfuta, mun gane tambura da tsarin ƙirar haruffa daga manyan kamfanoni (misali, Mail.ru, Sber, Alfa) kuma muyi la'akari da wannan tare da rubutu da sauran fasalulluka a cikin masu rarraba spam da phishing. .

Injin aiki

Kadan game da koyon inji a cikin imel gabaɗaya. Wasiƙa tsari ne mai nauyi sosai: matsakaita na haruffa biliyan 1,5 kowace rana suna wucewa ta sabar mu don masu amfani da DAU miliyan 30. Kimanin tsarin koyo na inji 30 suna goyan bayan duk ayyuka da fasali masu mahimmanci.

Kowane harafi yana wucewa ta cikin bututun rarrabawa gabaɗaya. Da farko mun yanke spam kuma mu bar imel mai kyau. Masu amfani sau da yawa ba sa lura da aikin antispam, saboda 95-99% na spam ba ya ƙare a cikin babban fayil ɗin da ya dace. Ƙididdigar spam wani ɓangare ne mai mahimmanci na tsarinmu, kuma mafi wuya, tun da yake a fagen anti-spam akwai daidaituwa tsakanin tsarin tsaro da hare-hare, wanda ke ba da kalubale na injiniya mai ci gaba ga ƙungiyarmu.

Bayan haka, muna ware haruffa daga mutane da mutummutumi. Imel daga mutane sune mafi mahimmanci, don haka muna ba da fasaloli kamar Amsa Mai Kyau gare su. Haruffa daga mutummutumi sun kasu kashi biyu: ma'amala - waɗannan mahimman haruffa ne daga sabis, misali, tabbatar da sayayya ko ajiyar otal, kuɗi, da bayanai - waɗannan tallan kasuwanci ne, ragi.

Mun yi imanin cewa imel ɗin ma'amala daidai yake da mahimmanci ga wasiƙar sirri. Ya kamata su kasance a hannu, domin sau da yawa muna buƙatar samun bayanai da sauri game da oda ko ajiyar tikitin jirgin sama, kuma muna ɗaukar lokaci don neman waɗannan haruffa. Don haka, don dacewa, muna raba su kai tsaye zuwa manyan nau'ikan guda shida: tafiya, oda, kuɗi, tikiti, rajista da, a ƙarshe, tara.

Haruffa na bayanai sune mafi girma kuma mai yiwuwa ba su da mahimmanci, waɗanda ba sa buƙatar amsa nan da nan, tun da babu wani abu mai mahimmanci da zai canza a rayuwar mai amfani idan bai karanta irin wannan wasika ba. A cikin sabon tsarin mu, muna rushe su zuwa zare guda biyu: cibiyoyin sadarwar jama'a da wasiƙun labarai, ta haka za a share akwatin saƙo mai shiga cikin gani da barin saƙo mai mahimmanci kawai.

Aiki na koyon inji a cikin Mail.ru Mail

Ayyuka

Yawancin tsarin yana haifar da matsaloli masu yawa a cikin aiki. Bayan haka, samfura suna ƙasƙantar da lokaci, kamar kowace software: fasalolin fasali, injina sun gaza, lambar ta zama karkatacciyar hanya. Bugu da ƙari, bayanai suna canzawa akai-akai: ana ƙara sababbi, ana canza dabi'un halayen masu amfani, da dai sauransu, don haka samfurin ba tare da tallafin da ya dace ba zai yi aiki mafi muni da muni a tsawon lokaci.

Kada mu manta cewa zurfin koyon injin yana shiga cikin rayuwar masu amfani, mafi girman tasirin da suke da shi akan yanayin muhalli, kuma, a sakamakon haka, yawan asarar kuɗi ko riba 'yan kasuwa za su iya samu. Sabili da haka, a cikin ƙara yawan yankunan, 'yan wasa suna daidaitawa da aikin ML algorithms (misali na yau da kullum shine talla, bincike da antispam da aka ambata).

Har ila yau, ayyukan ilmantarwa na na'ura suna da mahimmanci: kowane, ko da ƙananan, canji a cikin tsarin zai iya haifar da aiki mai yawa tare da samfurin: aiki tare da bayanai, sake horarwa, ƙaddamarwa, wanda zai iya ɗaukar makonni ko watanni. Don haka, saurin yanayin da samfuran ku ke aiki da canje-canje, ƙarin ƙoƙarin da ake buƙata don kiyaye su. Ƙungiya za ta iya ƙirƙirar tsarin da yawa kuma suyi farin ciki game da shi, amma sai suka kashe kusan dukkanin albarkatunta don kula da su, ba tare da damar yin wani sabon abu ba. Mun taɓa fuskantar irin wannan yanayin a cikin ƙungiyar antispam. Kuma sun yanke shawarar cewa tallafin yana buƙatar sarrafa kansa.

Autom

Me za a iya sarrafa kansa? Kusan komai, a zahiri. Na gano wurare guda huɗu waɗanda suka ayyana kayan aikin koyon injin:

  • tattara bayanai;
  • ƙarin horo;
  • tura;
  • gwaji & saka idanu.

Idan yanayin ba shi da kwanciyar hankali kuma yana canzawa akai-akai, to, duk kayan aikin da ke kewaye da samfurin ya juya ya zama mafi mahimmanci fiye da samfurin kanta. Yana iya zama tsohuwar mai rarraba layin layi mai kyau, amma idan kun ciyar da shi abubuwan da suka dace kuma ku sami ra'ayi mai kyau daga masu amfani, zai yi aiki da kyau fiye da ƙirar-Shugaba-Of-The-Art tare da duk karrarawa da whistles.

Madauki na martani

Wannan sake zagayowar ya haɗu da tattara bayanai, ƙarin horo da turawa - a zahiri, duk tsarin sabunta ƙirar. Me yasa yake da mahimmanci? Dubi jadawalin rajista a cikin wasiku:

Aiki na koyon inji a cikin Mail.ru Mail

Mai haɓaka koyon injin ya aiwatar da samfurin anti-bot wanda ke hana bots yin rajista a imel. Jadawalin ya faɗi zuwa ƙima inda masu amfani na gaske kawai suka rage. Komai yana da kyau! Amma sa'o'i hudu sun shude, bots suna tweak rubutun su, kuma komai ya dawo daidai. A cikin wannan aiwatarwa, mai haɓakawa ya ciyar da wata guda yana ƙara fasali da kuma sake horar da samfurin, amma spamer ya sami damar daidaitawa a cikin sa'o'i hudu.

Domin kada mu kasance mai raɗaɗi mai raɗaɗi kuma kada mu sake yin komai daga baya, dole ne mu fara tunanin yadda madauki na amsa zai yi kama da abin da za mu yi idan yanayin ya canza. Bari mu fara da tattara bayanai - wannan shine man fetur ga algorithms.

Tarin bayanai

A bayyane yake cewa ga cibiyoyin sadarwa na zamani, mafi yawan bayanai, mafi kyau, kuma su, a gaskiya, masu amfani da samfurin ne suka samar. Masu amfani za su iya taimaka mana ta hanyar yin alama, amma ba za mu iya cin zarafin wannan ba, saboda a wani lokaci masu amfani za su gaji da kammala samfuran ku kuma za su canza zuwa wani samfur.

Ɗaya daga cikin kuskuren da aka fi sani (a nan na yi la'akari da Andrew Ng) ya fi mayar da hankali kan ma'auni a kan bayanan gwajin, kuma ba a kan martani daga mai amfani ba, wanda shine ainihin ma'auni na ingancin aikin, tun da mun ƙirƙira. samfurin ga mai amfani. Idan mai amfani bai fahimta ko ba ya son aikin samfurin, to duk abin ya lalace.

Don haka, mai amfani ya kamata koyaushe ya iya yin zaɓe kuma a ba shi kayan aiki don amsawa. Idan muna tunanin cewa wasiƙar da ke da alaƙa da kuɗi ta isa cikin akwatin wasiku, muna buƙatar sanya alama "kudi" kuma zana maballin da mai amfani zai iya danna kuma ya ce wannan ba kuɗi ba ne.

ingancin martani

Bari muyi magana game da ingancin ra'ayin mai amfani. Da fari dai, kai da mai amfani za ku iya sanya ma'anoni daban-daban cikin ra'ayi ɗaya. Misali, kai da manajojin samfuran ku kuna tunanin cewa “kudi” na nufin wasiƙu daga banki, kuma mai amfani yana tunanin cewa wasiƙar daga kakarta game da fensho ita ma tana nufin kuɗi. Abu na biyu, akwai masu amfani waɗanda suke son latsa maɓalli ba tare da wata dabara ba. Na uku, mai amfani zai iya yin kuskure sosai a cikin sakamakonsa. Misali mai ban sha'awa daga aikinmu shine aiwatar da mai rarrabawa spam na Najeriya, Wani nau'i mai ban dariya na spam inda aka nemi mai amfani ya dauki daloli da dama daga wani dangi mai nisa ba zato ba tsammani a Afirka. Bayan aiwatar da wannan rabe-rabe, mun bincika danna "Ba Spam" akan waɗannan imel ɗin, kuma ya zama cewa kashi 80% na su masu ɗanɗano ne na Najeriya, wanda ke nuna cewa masu amfani za su iya zama masu fahariya.

Kuma kar mu manta cewa za a iya danna maballin ba kawai ta hanyar mutane ba, har ma da kowane nau'i na bots waɗanda suke yin kamar su mai bincike ne. Don haka danyen martani ba shi da kyau ga koyo. Me za ku iya yi da wannan bayanin?

Muna amfani da hanyoyi guda biyu:

  • Jawabin daga ML mai alaƙa. Misali, muna da tsarin hana bot na kan layi, wanda, kamar yadda na ambata, ya yanke shawara mai sauri dangane da ƙayyadaddun alamun. Kuma akwai na biyu, tsarin jinkirin da ke aiki bayan gaskiyar. Yana da ƙarin bayanai game da mai amfani, halayensa, da sauransu. A sakamakon haka, an yanke shawarar da aka fi sani; saboda haka, yana da daidaito mafi girma da cikawa. Kuna iya jagorantar bambancin aiki na waɗannan tsarin zuwa na farko azaman bayanan horo. Don haka, tsarin da ya fi sauƙi koyaushe zai yi ƙoƙari ya kusanci aikin mafi rikitarwa.
  • Danna rarrabawa. Kuna iya kawai rarraba kowane danna mai amfani, kimanta ingancin sa da amfaninsa. Muna yin haka a cikin wasiƙar antispam, ta amfani da halayen mai amfani, tarihinsa, halayen mai aikawa, rubutun da kansa da sakamakon masu rarrabawa. A sakamakon haka, muna samun tsarin atomatik wanda ke tabbatar da ra'ayin mai amfani. Kuma tun da yake yana buƙatar sake horar da shi sau da yawa, aikinsa na iya zama tushen duk sauran tsarin. Babban fifiko a cikin wannan samfurin shine daidaito, saboda horar da samfurin akan bayanan da ba daidai ba yana cike da sakamako.

Yayin da muke tsaftace bayanan da kuma kara horar da tsarin mu na ML, kada mu manta game da masu amfani, domin a gare mu, dubban, miliyoyin kurakurai a kan jadawali sune ƙididdiga, kuma ga mai amfani, kowane kwaro wani bala'i ne. Bugu da ƙari, cewa mai amfani dole ne ko ta yaya ya rayu tare da kuskuren ku a cikin samfurin, bayan karɓar amsa, yana tsammanin za a kawar da irin wannan yanayin a nan gaba. Sabili da haka, koyaushe yana da daraja ba masu amfani ba kawai damar yin zaɓe ba, har ma don gyara halayen tsarin ML, ƙirƙirar, alal misali, ilimin kimiya na mutum don kowane danna ra'ayi; a cikin yanayin saƙo, wannan na iya zama ikon tacewa. irin waɗannan haruffa ta mai aikawa da take ga wannan mai amfani.

Hakanan kuna buƙatar gina samfuri dangane da wasu rahotanni ko buƙatun don tallafawa a cikin na'ura ta atomatik ko na hannu domin sauran masu amfani kada su sha wahala daga irin wannan matsala.

Heuristics don koyo

Akwai matsaloli guda biyu tare da waɗannan ma'auni da crutches. Na farko shi ne cewa yawan adadin sandunan da ke ƙaruwa yana da wuyar kiyayewa, balle ingancinsu da aikinsu na tsawon lokaci. Matsala ta biyu ita ce, kuskuren bazai kasance akai-akai ba, kuma dannawa kaɗan don ƙara horar da ƙirar ba zai isa ba. Zai yi kama da cewa waɗannan tasirin biyu da ba su da alaƙa za a iya kawar da su sosai idan aka yi amfani da wannan hanya mai zuwa.

  1. Mun ƙirƙiri kumfa na ɗan lokaci.
  2. Muna aika bayanai daga gare ta zuwa samfurin, yana sabunta kanta akai-akai, gami da bayanan da aka karɓa. A nan, ba shakka, yana da mahimmanci cewa ma'aikatan heuristics suna da daidaitattun daidaito don kada su rage ingancin bayanai a cikin tsarin horo.
  3. Sa'an nan kuma mu saita saka idanu don kunna kullun, kuma idan bayan wani lokaci kullun ba ya aiki kuma samfurin ya rufe gaba daya, to, za ku iya cire shi lafiya. Yanzu da wuya wannan matsalar ta sake faruwa.

Don haka rundunar sanduna tana da amfani sosai. Babban abu shi ne cewa sabis ɗin su na gaggawa ne kuma ba na dindindin ba.

Ƙarin horo

Sake horarwa shine tsarin ƙara sabbin bayanai da aka samu sakamakon martani daga masu amfani ko wasu tsare-tsare, da horar da ƙirar da ke akwai akansa. Ana iya samun matsaloli da yawa tare da ƙarin horo:

  1. Samfurin ƙila ba zai goyi bayan ƙarin horo ba, amma koya kawai daga karce.
  2. Babu wani wuri a cikin littafin yanayi da aka rubuta cewa ƙarin horo tabbas zai inganta ingancin aikin samarwa. Sau da yawa akasin hakan yana faruwa, wato lalacewa kawai zai yiwu.
  3. Canje-canje na iya zama marasa tabbas. Wannan batu ne mai da hankali da muka gano da kanmu. Ko da sabon samfurin a cikin gwajin A/B ya nuna irin wannan sakamako idan aka kwatanta da na yanzu, wannan baya nufin cewa zai yi aiki iri ɗaya. Ayyukansu na iya bambanta da kashi ɗaya kawai, wanda zai iya kawo sababbin kurakurai ko mayar da tsofaffin da aka riga aka gyara. Dukanmu da masu amfani sun riga sun san yadda za su rayu tare da kurakurai na yanzu, kuma lokacin da yawancin sababbin kurakurai suka taso, mai amfani bazai fahimci abin da ke faruwa ba, saboda yana tsammanin halin da ake iya gani.

Sabili da haka, abu mafi mahimmanci a cikin ƙarin horo shine tabbatar da cewa samfurin ya inganta, ko aƙalla ba ya tsananta ba.

Abu na farko da ke zuwa hankali lokacin da muke magana game da ƙarin horo shine tsarin ilmantarwa mai aiki. Menene ma'anar wannan? Misali, mai rarrabawa yana ƙayyade ko imel ɗin yana da alaƙa da kuɗi, kuma a kusa da iyakar shawararsa muna ƙara samfurin misalai masu lakabi. Wannan yana aiki da kyau, alal misali, a cikin talla, inda akwai ra'ayi mai yawa kuma za ku iya horar da samfurin akan layi. Kuma idan akwai ƙananan ra'ayi, to, muna samun samfurin da ba daidai ba dangane da rarraba bayanan samarwa, a kan abin da ba shi yiwuwa a kimanta halin samfurin a lokacin aiki.

Aiki na koyon inji a cikin Mail.ru Mail

A haƙiƙa, burinmu shine mu adana tsoffin ƙira, samfuran da aka riga aka sani, da samun sababbi. Ci gaba yana da mahimmanci a nan. Samfurin, wanda sau da yawa muna shan wahala sosai don fitar da shi, ya riga ya yi aiki, don haka za mu iya mai da hankali kan aikin sa.

Ana amfani da samfura daban-daban a cikin wasiku: bishiyoyi, layin layi, hanyoyin sadarwa na jijiyoyi. Ga kowane muna yin namu ƙarin horo algorithm. A cikin aiwatar da ƙarin horo, muna karɓar ba kawai sababbin bayanai ba, har ma sau da yawa sababbin siffofi, waɗanda za mu yi la'akari da duk algorithms da ke ƙasa.

Tsarin layi

Bari mu ce muna da koma bayan dabaru. Mun ƙirƙiri samfurin asara daga abubuwan da ke biyowa:

  • LogLoss akan sabbin bayanai;
  • muna daidaita ma'auni na sababbin siffofi (ba mu taɓa tsofaffi ba);
  • muna kuma koya daga tsoffin bayanai don adana tsofaffin alamu;
  • kuma, watakila, abu mafi mahimmanci: mun ƙara Daidaita Daidaitawa, wanda ke ba da tabbacin cewa ma'auni ba zai canza da yawa dangane da tsohon samfurin bisa ga al'ada ba.

Tun da kowane ɓangaren hasara yana da ƙididdiga masu ƙima, za mu iya zaɓar mafi kyawun ƙima don aikinmu ta hanyar tabbatar da giciye ko dangane da buƙatun samfur.

Aiki na koyon inji a cikin Mail.ru Mail

Itatuwa

Bari mu matsa zuwa yanke shawara bishiyoyi. Mun tattara algorithm mai zuwa don ƙarin horar da bishiyoyi:

  1. Samuwar yana gudanar da gandun daji na bishiyoyi 100-300, wanda aka horar da shi akan tsohuwar saitin bayanai.
  2. A ƙarshe muna cire M = guda 5 kuma muna ƙara 2M = 10 sababbi, horar da kan duk saitin bayanai, amma tare da babban nauyi don sabon bayanan, wanda a zahiri yana ba da garantin haɓaka haɓakawa a cikin ƙirar.

Babu shakka, bayan lokaci, adadin bishiyoyin yana ƙaruwa sosai, kuma dole ne a rage su lokaci-lokaci don saduwa da lokutan lokaci. Don yin wannan, za mu yi amfani da yanzu a ko'ina Ilimi Distillation (KD). A taƙaice game da ka'idar aikinsa.

  1. Muna da samfurin "hadaddun" na yanzu. Muna gudanar da shi akan saitin bayanan horo kuma muna samun rarraba yiwuwar aji a fitarwa.
  2. Na gaba, muna horar da ƙirar ɗalibi (samfurin tare da ƙananan bishiyoyi a cikin wannan yanayin) don maimaita sakamakon samfurin ta amfani da rarraba aji azaman madaidaicin manufa.
  3. Yana da mahimmanci a lura a nan cewa ba ma amfani da alamar saitin bayanai ta kowace hanya, don haka za mu iya amfani da bayanan sabani. Tabbas, muna amfani da samfurin bayanai daga rafin yaƙi a matsayin samfurin horo don ƙirar ɗalibi. Don haka, tsarin horarwa yana ba mu damar tabbatar da daidaiton samfurin, kuma samfurin rafi yana ba da tabbacin irin wannan aikin akan rarrabawar samarwa, ramawa ga rashin daidaituwa na tsarin horo.

Aiki na koyon inji a cikin Mail.ru Mail

Haɗin waɗannan fasahohin guda biyu (ƙara bishiyoyi da rage adadin su lokaci-lokaci ta amfani da Distillation Ilimi) yana tabbatar da gabatar da sabbin salo da cikakken ci gaba.

Tare da taimakon KD, muna kuma yin ayyuka daban-daban akan fasalulluka, kamar cire fasali da aiki akan giɓi. A cikin yanayinmu, muna da mahimman abubuwan ƙididdiga masu yawa (ta masu aikawa, hashes na rubutu, URLs, da sauransu) waɗanda aka adana a cikin ma'ajin bayanai, waɗanda sukan gaza. Samfurin, ba shakka, ba a shirye don irin wannan ci gaban abubuwan da suka faru ba, tun lokacin da yanayin rashin nasara ba ya faruwa a cikin tsarin horo. A irin waɗannan lokuta, muna haɗa KD da dabarun haɓakawa: lokacin horo don wani ɓangare na bayanan, muna cirewa ko sake saita abubuwan da suka dace, kuma muna ɗaukar alamun asali (fitilar samfurin na yanzu), kuma ƙirar ɗalibi ta koyi maimaita wannan rarraba. .

Aiki na koyon inji a cikin Mail.ru Mail

Mun lura cewa mafi munin magudin samfur yana faruwa, mafi girman adadin samfurin zaren da ake buƙata.

Siffar cirewa, aiki mafi sauƙi, yana buƙatar ƙaramin yanki kawai na kwarara, tunda kawai nau'ikan sifofi ne kawai ke canzawa, kuma an horar da ƙirar na yanzu akan saiti ɗaya - bambanci kaɗan ne. Don sauƙaƙe samfurin (rage yawan bishiyar sau da yawa), an riga an buƙaci 50 zuwa 50. Kuma don ƙetare mahimman siffofi na ƙididdiga waɗanda za su yi tasiri sosai ga aikin samfurin, har ma ana buƙatar ƙarin kwarara don ƙaddamar da aikin aikin. sabon samfurin tsallakewa akan kowane nau'in haruffa.

Aiki na koyon inji a cikin Mail.ru Mail

FastText

Bari mu matsa zuwa FastText. Bari in tunatar da ku cewa wakilcin (Embedding) kalma ya ƙunshi jimlar shigar kalmar kanta da duk harafinta N-grams, yawanci trigrams. Tunda ana iya samun nau'ikan trigram masu yawa, ana amfani da Bucket Hashing, wato, canza sararin samaniya zuwa takamaiman taswirar hashmap. A sakamakon haka, ana samun matrix nauyi tare da girman Layer na ciki ta adadin kalmomi + buckets.

Tare da ƙarin horo, sababbin alamu sun bayyana: kalmomi da trigrams. Babu wani abu mai mahimmanci da ke faruwa a daidaitaccen horon bin diddigin daga Facebook. Tsofaffin ma'aunin nauyi tare da giciye-entropy an sake horar da su akan sabbin bayanai. Don haka, ba a amfani da sabbin abubuwa ba, ba shakka, wannan hanyar tana da duk rashin lahani da aka bayyana a sama da ke da alaƙa da rashin tsinkayar samfurin a cikin samarwa. Shi ya sa muka gyara FastText kadan. Muna ƙara duk sabbin ma'auni (kalmomi da trigrams), faɗaɗa matrix gabaɗaya tare da giciye-entropy kuma muna ƙara daidaita daidaituwa ta hanyar kwatankwacin ƙirar layi, wanda ke ba da garantin canji maras muhimmanci a cikin tsoffin ma'aunin nauyi.

Aiki na koyon inji a cikin Mail.ru Mail

CNN

Hanyoyin sadarwa na juyin juya hali sun ɗan fi rikitarwa. Idan an kammala yadudduka na ƙarshe a cikin CNN, to, ba shakka, za ku iya amfani da daidaitawar jituwa da tabbatar da ci gaba. Amma idan ana buƙatar ƙarin horo na cibiyar sadarwar gabaɗaya, to, ba za a iya ƙara yin amfani da irin wannan na yau da kullun ga duk yadudduka ba. Koyaya, akwai zaɓi don horar da kayan haɗin gwiwa ta hanyar Triplet Loss (labarin asali).

Asarar Sau Uku

Yin amfani da aikin anti-phishing a matsayin misali, bari mu kalli Loss Triplet a gabaɗaya. Muna ɗaukar tambarin mu, da kuma misalai masu kyau da marasa kyau na tambura na wasu kamfanoni. Muna rage nisa tsakanin na farko kuma muna haɓaka nisa tsakanin na biyu, muna yin wannan tare da ƙaramin rata don tabbatar da ƙarancin azuzuwan.

Aiki na koyon inji a cikin Mail.ru Mail

Idan muka kara horar da hanyar sadarwa, to, sararin awonmu ya canza gaba daya, kuma ya zama gaba daya mara dacewa da na baya. Wannan babbar matsala ce a cikin matsalolin da ke amfani da vectors. Don shawo kan wannan matsala, za mu haɗu a cikin tsofaffin abubuwan haɓakawa yayin horo.

Mun ƙara sabbin bayanai zuwa tsarin horo kuma muna horar da sigar na biyu daga karce. A mataki na biyu, muna ƙara horar da hanyar sadarwar mu (Finetuning): na farko an gama Layer na ƙarshe, sannan gabaɗayan cibiyar sadarwa ba ta daskarewa. A cikin tsarin hada uku, muna lissafin kawai ɓangare na abubuwan da aka haɗa ta amfani da samfurin horarwa, sauran - ta amfani da tsohuwar. Don haka, yayin aiwatar da ƙarin horo, muna tabbatar da dacewa da ma'auni na sararin samaniya v1 da v2. Siga na musamman na daidaita daidaiton jituwa.

Aiki na koyon inji a cikin Mail.ru Mail

Gabaɗaya gine-gine

Idan muka yi la'akari da dukan tsarin ta amfani da antispam a matsayin misali, sa'an nan model ba ware, amma gida a cikin juna. Muna ɗaukar hotuna, rubutu da sauran fasalulluka, ta amfani da CNN da Rubutu Mai Sauri muna samun abubuwan sakawa. Bayan haka, ana amfani da masu rarrabawa a saman abubuwan da aka saka, waɗanda ke ba da maki don nau'o'i daban-daban (nau'ikan haruffa, spam, kasancewar tambari). Alamun da alamun sun riga sun shiga cikin gandun daji na bishiyoyi don yanke shawarar karshe da za a yanke. Masu rarrafe guda ɗaya a cikin wannan makirci suna ba da damar mafi kyawun fassara sakamakon tsarin da ƙarin horo na musamman idan akwai matsaloli, maimakon ciyar da duk bayanan cikin bishiyar yanke shawara a cikin ɗanyen tsari.

Aiki na koyon inji a cikin Mail.ru Mail

Sakamakon haka, muna bada garantin ci gaba a kowane mataki. A matakin ƙasa a cikin CNN da Rubutu Mai Sauri muna amfani da daidaita daidaiton jituwa, ga masu ƙira a tsakiya kuma muna amfani da daidaita daidaitattun daidaito da daidaita ƙimar ƙima don daidaiton rabon yuwuwar. Da kyau, ana horar da haɓakar bishiyu da ƙari ko amfani da Distillation na Ilimi.

Gabaɗaya, kiyaye irin wannan tsarin ilmantarwa na injuna yawanci yana da zafi, tunda kowane sashi a matakin ƙasa yana haifar da sabuntawa ga duka tsarin da ke sama. Amma tun da yake a cikin saitin mu kowane ɓangaren yana canzawa kaɗan kuma yana dacewa da na baya, za a iya sabunta tsarin gaba ɗaya gaba ɗaya ba tare da buƙatar sake horar da tsarin gaba ɗaya ba, wanda ke ba da damar tallafawa ba tare da wuce gona da iri ba.

tura

Mun tattauna tarin bayanai da ƙarin horar da nau'ikan nau'ikan samfura, saboda haka muna tafiya zuwa tura su cikin yanayin samarwa.

Gwajin A/B

Kamar yadda na fada a baya, a cikin tsarin tattara bayanai, yawanci muna samun samfurin nuna bambanci, daga abin da ba shi yiwuwa a kimanta aikin samar da samfurin. Don haka, lokacin turawa, dole ne a kwatanta samfurin da sigar da ta gabata don fahimtar yadda abubuwa ke gudana a zahiri, wato, gudanar da gwajin A/B. A haƙiƙa, tsarin birgima da nazarin ginshiƙi abu ne na yau da kullun kuma ana iya sarrafa shi cikin sauƙi. Muna fitar da samfuran mu sannu a hankali zuwa 5%, 30%, 50% da 100% na masu amfani, yayin da muke tattara duk wasu ma'auni akan martanin samfurin da ra'ayin mai amfani. A cikin yanayin wasu manyan fitattu, muna jujjuya samfurin ta atomatik, kuma ga wasu lokuta, bayan tattara isassun adadin dannawa mai amfani, mun yanke shawarar ƙara kashi. A sakamakon haka, muna kawo sabon samfurin zuwa kashi 50% na masu amfani gaba ɗaya ta atomatik, kuma ƙaddamarwa ga duka masu sauraro za su sami amincewa da mutum, kodayake wannan matakin na iya sarrafa kansa.

Koyaya, tsarin gwajin A/B yana ba da ɗaki don haɓakawa. Gaskiyar ita ce, kowane gwajin A/B yana da tsayi sosai (a cikin yanayinmu yana ɗaukar daga 6 zuwa 24 hours dangane da adadin martani), wanda ya sa ya zama tsada sosai kuma tare da iyakataccen albarkatu. Bugu da kari, ana buƙatar isassun babban adadin kwarara don gwajin don gaske saurin haɓaka lokacin gwajin A/B gabaɗaya (ɗaukar samfurin ƙididdiga don kimanta ma'auni a ƙaramin kaso na iya ɗaukar lokaci mai tsawo), wanda ya sa. adadin A/B ramummuka musamman iyaka. Babu shakka, muna buƙatar gwada kawai mafi kyawun samfura, waɗanda muke karɓar abubuwa da yawa yayin ƙarin tsarin horo.

Don magance wannan matsalar, mun horar da wani nau'i na daban wanda ke hasashen nasarar gwajin A/B. Don yin wannan, muna ɗaukar ƙididdigar yanke shawara, Daidaitawa, Tunawa da sauran ma'auni akan tsarin horo, akan wanda aka jinkirta, kuma akan samfurin daga rafi azaman fasali. Har ila yau, muna kwatanta samfurin tare da na yanzu a cikin samarwa, tare da heuristics, kuma muna la'akari da Complexity na samfurin. Yin amfani da duk waɗannan fasalulluka, mai ƙira da aka horar akan tarihin gwaji yana kimanta ƙirar ɗan takara, a cikin yanayinmu waɗannan gandun daji ne na bishiyoyi, kuma ya yanke shawarar wacce za a yi amfani da ita a gwajin A/B.

Aiki na koyon inji a cikin Mail.ru Mail

A lokacin aiwatarwa, wannan hanya ta ba mu damar ƙara yawan nasarar gwajin A / B sau da yawa.

Gwaji & Kulawa

Gwaji da saka idanu, abin banƙyama, ba sa cutar da lafiyarmu; maimakon haka, akasin haka, suna inganta shi kuma suna kawar mana da damuwa mara amfani. Gwaji yana ba ku damar hana gazawar, kuma saka idanu yana ba ku damar gano shi cikin lokaci don rage tasirin masu amfani.

Yana da mahimmanci a fahimci a nan cewa ba dade ko ba dade na'urar ku koyaushe za ta yi kuskure - wannan ya faru ne saboda ci gaban kowace software. A farkon ci gaban tsarin akwai kullun da yawa har sai komai ya daidaita kuma an kammala babban mataki na sababbin abubuwa. Amma bayan lokaci, entropy yana ɗaukar nauyinsa, kuma kurakurai sun sake bayyana - saboda lalacewar abubuwan da ke kewaye da canje-canje a cikin bayanai, wanda na yi magana a farkon.

A nan ina so in lura cewa duk wani tsarin koyon injin ya kamata a yi la’akari da shi ta fuskar ribar da yake samu a duk tsawon rayuwarsa. Hoton da ke ƙasa yana nuna misalin yadda tsarin ke aiki don kama nau'in spam mai wuya (layin da ke cikin jadawali yana kusa da sifili). Wata rana, saboda wani sifa da ba daidai ba, ta yi hauka. Kamar yadda aka yi sa'a, ba a sami sa ido don tayar da hankali ba; sakamakon haka, tsarin ya fara adana haruffa da yawa zuwa babban fayil na "spam" a iyakar yanke shawara. Duk da gyara sakamakon, tsarin ya riga ya yi kurakurai sau da yawa wanda ba zai biya kansa ba ko da a cikin shekaru biyar. Kuma wannan shi ne cikakken gazawa daga ra'ayi na tsarin rayuwa na rayuwa.

Aiki na koyon inji a cikin Mail.ru Mail

Saboda haka, irin wannan abu mai sauƙi kamar saka idanu zai iya zama mabuɗin a cikin rayuwar abin ƙira. Baya ga ma'auni da ma'auni na bayyane, muna la'akari da rarraba amsoshi da ƙima, da kuma rarraba mahimman ƙimar fasalin. Yin amfani da bambancin KL, za mu iya kwatanta rarrabawar yanzu tare da tarihin tarihi ko dabi'u a cikin gwajin A / B tare da sauran rafi, wanda ke ba mu damar lura da rashin daidaituwa a cikin samfurin kuma mu juya baya canje-canje a cikin lokaci.

A mafi yawan lokuta, muna ƙaddamar da nau'ikan tsarin mu na farko ta amfani da sauƙi mai sauƙi ko ƙira waɗanda muke amfani da su azaman saka idanu a nan gaba. Misali, muna saka idanu da samfurin NER idan aka kwatanta da na yau da kullun don takamaiman shagunan kan layi, kuma idan ɗaukar hoto ya faɗi idan aka kwatanta da su, to mun fahimci dalilan. Wani amfani mai amfani na heuristics!

Sakamakon

Bari mu sake komawa kan mahimman ra'ayoyin labarin.

  • Fibdeck. Kullum muna tunanin mai amfani: yadda zai rayu tare da kurakuranmu, yadda zai iya ba da rahoton su. Kar ka manta cewa masu amfani ba su zama tushen tsattsauran ra'ayi don samfuran horo ba, kuma yana buƙatar sharewa tare da taimakon tsarin ML na taimako. Idan ba zai yiwu a tattara sigina daga mai amfani ba, to muna neman madadin hanyoyin amsawa, misali, tsarin haɗin gwiwa.
  • Ƙarin horo. Babban abu a nan shi ne ci gaba, don haka muna dogara ga samfurin samarwa na yanzu. Muna horar da sabbin samfura don kada su bambanta da yawa da na baya saboda daidaita daidaito da dabaru iri ɗaya.
  • tura. Aiwatar da kai bisa ma'auni yana rage lokacin aiwatar da samfuri sosai. Kididdigar sa ido da rarraba yanke shawara, adadin faɗuwa daga masu amfani ya zama tilas don hutun barcin ku da ƙarshen mako mai albarka.

To, ina fata wannan yana taimaka muku haɓaka tsarin ML ɗinku cikin sauri, sa su kasuwa cikin sauri, kuma ku sa su zama masu dogaro da ƙarancin damuwa.

source: www.habr.com

Add a comment