Gnìomh ionnsachadh innealan ann Mail.ru Mail

Gnìomh ionnsachadh innealan ann Mail.ru Mail

Stèidhichte air na h-òraidean agam aig Highload ++ agus DataFest Minsk 2019.

Dha mòran an-diugh, tha post na phàirt riatanach de bheatha air-loidhne. Le a chuideachadh, bidh sinn a’ dèanamh conaltradh gnìomhachais, a’ stòradh a h-uile seòrsa fiosrachaidh cudromach co-cheangailte ri ionmhas, glèidheadh ​​thaighean-òsta, a’ cur òrdughan agus mòran a bharrachd. Ann am meadhan 2018, chuir sinn ri chèile ro-innleachd toraidh airson leasachadh puist. Cò ris a bu chòir post ùr a bhith coltach?

Feumaidh post a bhith glic, is e sin, a’ cuideachadh luchd-cleachdaidh le bhith a’ seòladh an àireamh fiosrachaidh a tha a’ sìor fhàs: sìoltachan, structar agus thoir seachad e anns an dòigh as freagarraiche. Feumaidh i a bhith feumail, a’ toirt cothrom dhut diofar ghnìomhan fhuasgladh anns a’ bhogsa-puist agad, mar eisimpleir, càin a phàigheadh ​​(gnìomh a bhios mi, gu mì-fhortanach, a’ cleachdadh). Agus aig an aon àm, gu dearbh, feumaidh post dìon fiosrachaidh a thoirt seachad, gearradh dheth spama agus dìon an aghaidh hacking, is e sin, a bhith sàbhailte.

Tha na raointean sin a’ mìneachadh grunn phrìomh dhuilgheadasan, agus faodar mòran dhiubh fhuasgladh gu h-èifeachdach a’ cleachdadh ionnsachadh innealan. Seo eisimpleirean de fheartan gnàthaichte a chaidh a leasachadh mar phàirt den ro-innleachd - aon airson gach taobh.

  • Sgòthan geala. Tha feart freagairt snasail aig post. Bidh an lìonra neural a’ dèanamh anailis air teacsa na litreach, a’ tuigsinn a brìgh agus a h-adhbhar, agus mar thoradh air sin a’ tabhann na trì roghainnean freagairt as iomchaidh: dearbhach, àicheil agus neodrach. Bidh seo a 'cuideachadh le bhith a' sàbhaladh ùine gu mòr nuair a bhios tu a 'freagairt litrichean, agus cuideachd gu tric a' freagairt ann an dòigh neo-àbhaisteach agus èibhinn.
  • A' cruinneachadh phuist-dco-cheangailte ri òrdughan ann am bùthan air-loidhne. Bidh sinn gu tric a’ ceannach air-loidhne, agus, mar riaghailt, faodaidh stòran grunn phuist-d a chuir airson gach òrdugh. Mar eisimpleir, bho AliExpress, an t-seirbheis as motha, bidh tòrr litrichean a’ tighinn a-steach airson aon òrdugh, agus rinn sinn a-mach gum faodadh an àireamh aca ruighinn suas gu 29 sa chùis crìche. agus fiosrachadh eile bhon teacsa agus cuir na litrichean uile còmhla ann an aon snàithlean. Bidh sinn cuideachd a’ taisbeanadh fiosrachadh bunaiteach mun òrdugh ann am bogsa air leth, a tha ga dhèanamh nas fhasa obrachadh leis an t-seòrsa post-d seo.

    Gnìomh ionnsachadh innealan ann Mail.ru Mail

  • Frith-phishing. Tha phishing na sheòrsa de phost-d meallta gu sònraichte cunnartach, le cuideachadh bhon fheadhainn a bhios luchd-ionnsaigh a’ feuchainn ri fiosrachadh ionmhais fhaighinn (a’ toirt a-steach cairtean banca an neach-cleachdaidh) agus logaichean. Tha na litrichean sin coltach ri fìor fheadhainn a chuir an t-seirbheis a-steach, a’ toirt a-steach sealladh lèirsinneach. Mar sin, le cuideachadh bho Computer Vision, tha sinn ag aithneachadh suaicheantasan agus stoidhle dealbhaidh litrichean bho chompanaidhean mòra (mar eisimpleir, Mail.ru, Sber, Alfa) agus bheir sinn aire don seo còmhla ri teacsa agus feartan eile nar seòrsachadh spama is phishing. .

Ionnsachadh inneal

Beagan mu ionnsachadh innealan ann am post-d san fharsaingeachd. Tha post na shiostam làn luchdaichte: bidh cuibheasachd de 1,5 billean litir gach latha a’ dol tro na frithealaichean againn airson 30 millean neach-cleachdaidh DAU. Bidh timcheall air 30 siostam ionnsachaidh inneal a’ toirt taic do na gnìomhan agus na feartan riatanach uile.

Bidh gach litir a’ dol tro loidhne-phìoban seòrsachaidh gu lèir. An toiseach gheàrr sinn dheth spama agus fàgaidh sinn post-d math. Gu tric chan eil luchd-cleachdaidh a 'toirt fa-near obair antispam, oir chan eil 95-99% de spam eadhon a' tighinn gu crìch anns a 'phasgan iomchaidh. Tha aithneachadh spam na phàirt glè chudromach den t-siostam againn, agus an rud as duilghe, oir ann an raon an-aghaidh spama tha atharrachadh cunbhalach eadar siostaman dìon agus ionnsaigh, a tha na dhùbhlan innleadaireachd leantainneach don sgioba againn.

An uairsin, bidh sinn a 'sgaradh litrichean bho dhaoine agus innealan-fuadain. Is e puist-d bho dhaoine an fheadhainn as cudromaiche, agus mar sin bidh sinn a’ toirt seachad feartan leithid Smart Reply dhaibh. Tha litrichean bho innealan-fuadain air an roinn ann an dà phàirt: malairt - tha iad sin nan litrichean cudromach bho sheirbheisean, mar eisimpleir, dearbhadh air ceannach no glèidheadh ​​​​taigh-òsta, ionmhas, agus fiosrachadh - is iad sin sanasachd gnìomhachais, lasachaidhean.

Tha sinn den bheachd gu bheil puist-d malairt co-ionann a thaobh cudromachd ri conaltradh pearsanta. Bu chòir dhaibh a bhith ri làimh, oir gu tric feumaidh sinn fiosrachadh a lorg gu sgiobalta mu òrdugh no glèidheadh ​​tiogaid adhair, agus bidh sinn a’ caitheamh ùine a’ lorg nan litrichean sin. Mar sin, airson goireasachd, bidh sinn gu fèin-obrachail gan roinn ann an sia prìomh roinnean: siubhal, òrdughan, ionmhas, tiogaidean, clàraidhean agus, mu dheireadh, càin.

Is e litrichean fiosrachaidh am buidheann as motha agus is dòcha nach eil cho cudromach, nach eil feumach air freagairt sa bhad, leis nach atharraich dad cudromach ann am beatha an neach-cleachdaidh mura leugh e litir mar sin. Anns an eadar-aghaidh ùr againn, bidh sinn gan tuiteam ann an dà snàithlean: lìonraidhean sòisealta agus cuairt-litrichean, mar sin a’ glanadh a’ bhogsa a-steach gu fradharcach agus a’ fàgail dìreach teachdaireachdan cudromach rim faicinn.

Gnìomh ionnsachadh innealan ann Mail.ru Mail

Gnìomh

Tha àireamh mhòr de shiostaman ag adhbhrachadh mòran dhuilgheadasan ann an obrachadh. Às deidh na h-uile, bidh modailean a 'crìonadh thar ùine, mar bathar-bog sam bith: bidh feartan a' briseadh, innealan a 'fàilligeadh, còd a' fàs cam. A bharrachd air an sin, tha dàta an-còmhnaidh ag atharrachadh: thèid feadhainn ùra a chur ris, tha pàtrain giùlan luchd-cleachdaidh air an cruth-atharrachadh, msaa, agus mar sin obraichidh modail gun taic cheart nas miosa agus nas miosa thar ùine.

Cha bu chòir dhuinn dìochuimhneachadh gu bheil ionnsachadh innealan nas doimhne a’ dol a-steach do bheatha luchd-cleachdaidh, mar as motha a’ bhuaidh a bhios aca air an eag-shiostam, agus, mar thoradh air an sin, mar as motha de chall ionmhasail no prothaidean a gheibh cluicheadairean margaidh. Mar sin, ann an àireamh a tha a’ sìor fhàs de raointean, tha cluicheadairean ag atharrachadh gu obair algorithms ML (tha eisimpleirean clasaigeach mar sanasachd, sgrùdadh agus an antispam a chaidh ainmeachadh mar-thà).

Cuideachd, tha gnìomhan ionnsachaidh inneal sònraichte: faodaidh atharrachadh sam bith, eadhon beag, san t-siostam tòrr obrach a ghineadh leis a’ mhodail: obrachadh le dàta, ath-thrèanadh, cleachdadh, a bheir seachdainean no mìosan. Mar sin, mar as luaithe a dh’ atharraicheas an àrainneachd anns a bheil na modailean agad ag obair, is ann as motha a dh’ fheumas e gus an cumail suas. Faodaidh sgioba tòrr shiostaman a chruthachadh agus a bhith toilichte mu dheidhinn, ach an uairsin caitheamh cha mhòr a h-uile goireas aca gan cumail, gun chothrom dad ùr a dhèanamh. Thachair sinn aon uair ri suidheachadh mar sin anns an sgioba antispam. Agus thàinig iad gu co-dhùnadh follaiseach gum feum taic a bhith fèin-ghluasadach.

Automation

Dè as urrainn a bhith fèin-ghluasadach? Cha mhòr a h-uile càil, gu dearbh. Tha mi air ceithir raointean a chomharrachadh a tha a’ mìneachadh bun-structair ionnsachadh inneal:

  • cruinneachadh dàta;
  • trèanadh a bharrachd;
  • cleachdadh;
  • deuchainn & sgrùdadh.

Ma tha an àrainneachd neo-sheasmhach agus daonnan ag atharrachadh, bidh am bun-structar gu lèir timcheall air a 'mhodail tòrr nas cudromaiche na am modail fhèin. Is dòcha gur e seann seòrsaiche sreathach a th’ ann, ach ma bheir thu na feartan ceart dha agus ma gheibh thu deagh fhios air ais bho luchd-cleachdaidh, obraichidh e tòrr nas fheàrr na modalan State-of-The-Art leis na glagan is na fìdeagan uile.

Cearcall fios-air-ais

Bidh an cearcall seo a’ cothlamadh cruinneachadh dàta, trèanadh a bharrachd agus cleachdadh - gu dearbh, cearcall ùrachadh a’ mhodail gu lèir. Carson a tha e cudromach? Thoir sùil air a’ chlàr clàraidh sa phost:

Gnìomh ionnsachadh innealan ann Mail.ru Mail

Tha leasaiche ionnsachadh inneal air modal anti-bot a chuir an gnìomh a chuireas casg air botaichean bho bhith a’ clàradh ann am post-d. Bidh an graf a’ tuiteam gu luach far nach eil ach fìor luchd-cleachdaidh air fhàgail. Tha a h-uile rud sgoinneil! Ach bidh ceithir uairean a’ dol seachad, bidh na botaichean ag atharrachadh na sgriobtaichean aca, agus bidh a h-uile càil a’ tilleadh gu àbhaisteach. Anns a 'bhuileachadh seo, chuir an leasaiche seachad mìos a' cur feartan ris agus ag ath-thrèanadh a 'mhodail, ach bha e comasach don spamadair atharrachadh ann an ceithir uairean a thìde.

Gus nach bi sinn cho pianail agus gun a bhith a’ dèanamh a h-uile càil nas fhaide air adhart, feumaidh sinn an toiseach smaoineachadh air cò ris a bhios an lùb fios-air-ais coltach agus dè nì sinn ma dh’ atharraicheas an àrainneachd. Feuch an tòisich sinn le bhith a’ cruinneachadh dàta - is e seo an connadh airson ar n-algorithms.

Cruinneachadh dàta

Tha e soilleir gur ann airson lìonraidhean neural an latha an-diugh, mar as motha de dhàta, is ann as fheàrr, agus gu dearbh tha iad air an cruthachadh le luchd-cleachdaidh an toraidh. Faodaidh luchd-cleachdaidh ar cuideachadh le bhith a’ comharrachadh dàta, ach chan urrainn dhuinn ana-cleachdadh a dhèanamh air seo, oir aig àm air choreigin bidh luchd-cleachdaidh sgìth de bhith a’ crìochnachadh do mhodalan agus gluaisidh iad gu toradh eile.

Is e aon de na mearachdan as cumanta (an seo tha mi a’ toirt iomradh air Anndra Ng) cus fòcas air meatrach air an dàta deuchainn, agus chan ann air fios air ais bhon neach-cleachdaidh, a tha dha-rìribh na phrìomh thomhas de chàileachd na h-obrach, leis gu bheil sinn a’ cruthachadh toradh airson an neach-cleachdaidh. Mura h-eil an neach-cleachdaidh a 'tuigsinn no a' còrdadh ri obair a 'mhodail, tha a h-uile dad air a mhilleadh.

Mar sin, bu chòir gum biodh an neach-cleachdaidh an-còmhnaidh comasach air bhòtadh agus bu chòir inneal a thoirt dhaibh airson fios air ais. Ma tha sinn den bheachd gu bheil litir co-cheangailte ri ionmhas air am bogsa puist a ruighinn, feumaidh sinn “ionmhas” a chomharrachadh agus putan a tharraing a dh’ fhaodas an neach-cleachdaidh a bhriogadh agus a ràdh nach e ionmhas a tha seo.

Càileachd fios air ais

Bruidhnidh sinn mu chàileachd fios air ais bho luchd-cleachdaidh. An toiseach, faodaidh tu fhèin agus an neach-cleachdaidh brìgh eadar-dhealaichte a chuir ann an aon bhun-bheachd. Mar eisimpleir, tha thu fhèin agus do mhanaidsearan toraidh den bheachd gu bheil “ionmhas” a’ ciallachadh litrichean bhon bhanca, agus tha an neach-cleachdaidh den bheachd gu bheil litir bho sheanmhair mun pheinnsean aice cuideachd a’ toirt iomradh air ionmhas. San dàrna h-àite, tha luchd-cleachdaidh ann a tha dèidheil air putanan a bhrùthadh gun loidsig sam bith. San treas àite, faodaidh an neach-cleachdaidh a bhith air a mhearachdachadh gu mòr anns na co-dhùnaidhean aige. Is e eisimpleir iongantach bhon chleachdadh againn a bhith a’ cur an gnìomh seòrsaiche spam à Nigeria, seòrsa de spama gu math èibhinn far a bheilear ag iarraidh air an neach-cleachdaidh grunn mhilleanan dolar a thoirt bho neach-dàimh a chaidh a lorg gu h-obann ann an Afraga. Às deidh dhuinn an seòrsaiche seo a chuir an gnìomh, rinn sinn sgrùdadh air na cliogan “Not Spam” air na puist-d sin, agus thionndaidh e a-mach gur e spama juicy Nigerian a bh ’ann an 80% dhiubh, a tha a’ moladh gum faod luchd-cleachdaidh a bhith gu math so-leònte.

Agus na dìochuimhnich sinn gum faod na putanan a bhith air an cliogadh chan ann a-mhàin le daoine, ach cuideachd leis a h-uile seòrsa de bhotan a tha a’ leigeil orra gur e brobhsair a th’ annta. Mar sin chan eil fios air ais amh math airson ionnsachadh. Dè as urrainn dhut a dhèanamh leis an fhiosrachadh seo?

Bidh sinn a’ cleachdadh dà dhòigh-obrach:

  • Fios air ais bho ML ceangailte. Mar eisimpleir, tha siostam anti-bot air-loidhne againn, a tha, mar a thuirt mi, a 'dèanamh co-dhùnadh luath stèidhichte air àireamh chuingealaichte de shoidhnichean. Agus tha dàrna siostam slaodach ann a bhios ag obair às deidh an fhìrinn. Tha barrachd dàta aige mun neach-cleachdaidh, a ghiùlan, msaa. Mar thoradh air an sin, thèid an co-dhùnadh as fiosraichte a dhèanamh; a rèir sin, tha cruinneas agus iomlanachd nas àirde aige. Faodaidh tu an eadar-dhealachadh ann an obrachadh nan siostaman sin a stiùireadh chun chiad fhear mar dàta trèanaidh. Mar sin, bidh siostam nas sìmplidh an-còmhnaidh a’ feuchainn ri dèiligeadh ri coileanadh siostam nas iom-fhillte.
  • Cliog air seòrsachadh. Faodaidh tu dìreach gach cliog cleachdaiche a sheòrsachadh, measadh a dhèanamh air dligheachd agus cleachdadh. Bidh sinn a’ dèanamh seo ann am post antispam, a’ cleachdadh buadhan neach-cleachdaidh, an eachdraidh aige, buadhan an t-seoladair, an teacsa fhèin agus toradh nan seòrsachadh. Mar thoradh air an sin, gheibh sinn siostam fèin-ghluasadach a dhearbhas fios air ais bho luchd-cleachdaidh. Agus leis gu feumar a bhith air ath-thrèanadh mòran nas trice, faodaidh an obair aige a bhith na bhunait airson a h-uile siostam eile. Is e am prìomh phrìomhachas sa mhodail seo mionaideachd, leis gu bheil trèanadh a’ mhodail air dàta mearachdach làn de bhuilean.

Fhad ‘s a tha sinn a’ glanadh an dàta agus a ’trèanadh ar siostaman ML, cha bu chòir dhuinn dìochuimhneachadh mun luchd-cleachdaidh, oir dhuinne, tha mìltean, milleanan de mhearachdan air a’ ghraf nan staitistig, agus airson an neach-cleachdaidh, tha a h-uile biast na bhròn-chluich. A bharrachd air an fhìrinn gum feum an neach-cleachdaidh dòigh air choireigin a bhith beò leis a ’mhearachd agad san toradh, às deidh dha fios air ais fhaighinn, tha e an dùil gun tèid an aon suidheachadh a chuir às san àm ri teachd. Mar sin, is fhiach an-còmhnaidh cothrom a thoirt do luchd-cleachdaidh chan ann a-mhàin bhòtadh, ach cuideachd giùlan siostaman ML a cheartachadh, a’ cruthachadh, mar eisimpleir, heuristics pearsanta airson gach cliog air ais; a thaobh post, dh’ fhaodadh seo a bhith na chomas sìoladh litrichean mar sin le neach-cuiridh agus tiotal airson a’ chleachdaiche seo.

Feumaidh tu cuideachd modail a thogail stèidhichte air cuid de dh'aithisgean no iarrtasan airson taic ann am modh leth-fèin-ghluasadach no làimhe gus nach bi luchd-cleachdaidh eile a 'fulang le duilgheadasan coltach ris.

Heuristics airson ionnsachadh

Tha dà dhuilgheadas ann leis na heuristics agus na crutches sin. Is e a’ chiad fhear gu bheil e duilich an àireamh de bhagaichean a tha a’ sìor fhàs a chumail suas, gun luaidh air an càileachd agus an coileanadh thairis air an t-slighe fhada. Is e an dàrna duilgheadas gur dòcha nach bi a’ mhearachd tric, agus cha bhith gu leòr cliogan gus am modail a thrèanadh tuilleadh. Bhiodh e coltach gum faodar an dà bhuaidh neo-cheangailte seo a neodachadh gu mòr ma thèid an dòigh-obrach a leanas a chleachdadh.

  1. Bidh sinn a 'cruthachadh crutch sealach.
  2. Bidh sinn a 'cur dàta bhuaithe chun a' mhodail, bidh e ag ùrachadh gu cunbhalach, a 'gabhail a-steach an dàta a gheibhear. An seo, gu dearbh, tha e cudromach gu bheil cruinneas àrd aig na heuristics gus nach lughdaich iad càileachd an dàta anns an t-seata trèanaidh.
  3. An uairsin shuidhich sinn an sgrùdadh gus an crutch a bhrosnachadh, agus mura h-eil an crutch ag obair tuilleadh agus gu bheil e còmhdaichte gu tur leis a ’mhodail, faodaidh tu a thoirt air falbh gu sàbhailte. A-nis chan eil coltas ann gun tachair an duilgheadas seo a-rithist.

Mar sin tha arm de crutches glè fheumail. Is e am prìomh rud gu bheil an t-seirbheis aca èiginneach agus nach eil maireannach.

Trèanadh a bharrachd

Is e ath-thrèanadh am pròiseas airson dàta ùr a gheibhear mar thoradh air fios air ais bho luchd-cleachdaidh no siostaman eile a chuir ris, agus modal a th’ ann mar-thà a thrèanadh air. Faodaidh grunn dhuilgheadasan a bhith ann le trèanadh a bharrachd:

  1. Is dòcha nach bi am modail dìreach a’ toirt taic do thrèanadh a bharrachd, ach ag ionnsachadh dìreach bhon fhìor thoiseach.
  2. Chan eil àite sam bith ann an leabhar nàdair air a sgrìobhadh gum bi trèanadh a bharrachd gu cinnteach a 'leasachadh càileachd na h-obrach ann an riochdachadh. Gu math tric bidh an taobh eile a 'tachairt, is e sin, chan eil ach crìonadh comasach.
  3. Faodaidh atharrachaidhean a bhith do-chreidsinneach. Is e puing caran seòlta a tha seo a dh’ ainmich sinn dhuinn fhìn. Eadhon ged a sheallas modal ùr ann an deuchainn A/B toraidhean coltach ris an fhear a th’ ann an-dràsta, chan eil seo a’ ciallachadh gun obraich e san aon dòigh. Faodaidh an obair aca a bhith eadar-dhealaichte ann an dìreach aon sa cheud, a dh’ fhaodadh mearachdan ùra adhbhrachadh no seann fheadhainn a chaidh a cheartachadh mar-thà a thilleadh. Tha fios againn fhèin agus an luchd-cleachdaidh mar-thà mar a dhèiligeas sinn ri mearachdan gnàthach, agus nuair a dh’ èiricheas àireamh mhòr de mhearachdan ùra, is dòcha nach tuig an neach-cleachdaidh na tha a ’tachairt, leis gu bheil e an dùil giùlan sùbailte.

Mar sin, is e an rud as cudromaiche ann an trèanadh a bharrachd dèanamh cinnteach gu bheil am modail air a leasachadh, no co-dhiù gun a bhith nas miosa.

Is e a’ chiad rud a thig gu inntinn nuair a bhios sinn a’ bruidhinn mu thrèanadh a bharrachd an dòigh-obrach Ionnsachadh Gnìomhach. Dè tha seo a' ciallachadh? Mar eisimpleir, bidh an seòrsaiche a’ dearbhadh a bheil post-d co-cheangailte ri ionmhas, agus timcheall air a chrìoch co-dhùnaidh cuiridh sinn sampall de eisimpleirean le bileagan ris. Bidh seo ag obair gu math, mar eisimpleir, ann an sanasachd, far a bheil tòrr fios air ais agus faodaidh tu am modail a thrèanadh air-loidhne. Agus mura h-eil mòran fios air ais ann, gheibh sinn sampall gu math claon an coimeas ri sgaoileadh dàta toraidh, air a bheil e do-dhèanta giùlan a’ mhodail a mheasadh rè obrachadh.

Gnìomh ionnsachadh innealan ann Mail.ru Mail

Gu dearbh, is e ar n-amas seann phàtranan a ghleidheadh, modalan a tha aithnichte mar-thà, agus feadhainn ùra fhaighinn. Tha leantainneachd cudromach an seo. Tha am modail, a bha sinn gu tric air a bhith gu math duilich airson a sgaoileadh, ag obair mar-thà, gus an urrainn dhuinn fòcas a chuir air a choileanadh.

Tha diofar mhodalan air an cleachdadh ann am post: craobhan, loidhneach, lìonraidhean neural. Airson gach fear bidh sinn a’ dèanamh an algairim trèanaidh a bharrachd againn fhèin. Anns a 'phròiseas trèanaidh a bharrachd, bidh sinn a' faighinn chan e a-mhàin dàta ùr, ach cuideachd gu tric feartan ùra, a bheir sinn aire do na h-algorithms gu h-ìosal.

Modailean sreathach

Canaidh sinn gu bheil ais-tharraing loidsigeach againn. Bidh sinn a 'cruthachadh modail call bho na pàirtean a leanas:

  • LogLoss air dàta ùr;
  • bidh sinn a’ riaghladh cuideaman feartan ùra (cha bhith sinn a’ suathadh ris na seann fheadhainn);
  • bidh sinn cuideachd ag ionnsachadh bho sheann dàta gus seann phàtranan a ghleidheadh;
  • agus, 's dòcha, an rud as cudromaiche: bidh sinn a' cur ris co-sheirmeach Riaghladh, a tha a 'gealltainn nach atharraich na cuideaman mòran an coimeas ris an t-seann mhodail a rèir an àbhaist.

Leis gu bheil co-èifeachdan aig gach pàirt Call, is urrainn dhuinn na luachan as fheàrr a thaghadh airson ar gnìomh tro thar-dhearbhadh no stèidhichte air riatanasan toraidh.

Gnìomh ionnsachadh innealan ann Mail.ru Mail

Craobhan

Gluaisidh sinn air adhart gu craobhan co-dhùnaidh. Tha sinn air an algairim a leanas a chuir ri chèile airson trèanadh a bharrachd de chraobhan:

  1. Bidh an riochdachadh a 'ruith coille de chraobhan 100-300, a tha air a thrèanadh air seann sheata dàta.
  2. Aig an deireadh bheir sinn air falbh pìosan M = 5 agus cuiridh sinn 2M = 10 feadhainn ùra, air an trèanadh air an t-seata dàta gu lèir, ach le cuideam àrd airson an dàta ùr, a tha gu nàdarrach a’ gealltainn atharrachadh mean air mhean sa mhodail.

Gu dearbh, thar ùine, tha an àireamh de chraobhan a 'meudachadh gu mòr, agus feumaidh iad a bhith air an lùghdachadh bho àm gu àm gus coinneachadh ris na h-amannan. Gus seo a dhèanamh, bidh sinn a’ cleachdadh an Grùdaireachd Eòlais (KD) a tha a-nis uile-làthaireach. Beagan mu phrionnsabal a h-obrachaidh.

  1. Tha am modail "iom-fhillte" againn an-dràsta. Bidh sinn ga ruith air an t-seata dàta trèanaidh agus a’ faighinn cuairteachadh coltachd clas aig an toradh.
  2. An ath rud, bidh sinn a’ trèanadh modal nan oileanach (am modail le nas lugha de chraobhan sa chùis seo) gus toraidhean a’ mhodail ath-aithris a’ cleachdadh cuairteachadh a’ chlas mar an caochladair targaid.
  3. Tha e cudromach toirt fa-near an seo nach bi sinn a’ cleachdadh comharradh an t-seata dàta ann an dòigh sam bith, agus mar sin is urrainn dhuinn dàta neo-riaghailteach a chleachdadh. Gu dearbh, bidh sinn a’ cleachdadh sampall dàta bhon t-sruth sabaid mar shampall trèanaidh airson modal nan oileanach. Mar sin, tha an seata trèanaidh a’ toirt cothrom dhuinn dèanamh cinnteach gu bheil am modail ceart, agus tha an sampall sruth a’ gealltainn coileanadh co-chosmhail air an cuairteachadh toraidh, a’ dèanamh dìoladh airson claonadh an t-seata trèanaidh.

Gnìomh ionnsachadh innealan ann Mail.ru Mail

Tha cothlamadh an dà dhòigh seo (a’ cur chraobhan ris agus bho àm gu àm a’ lughdachadh an àireamh le bhith a’ cleachdadh Grùdaireachd Eòlais) a’ dèanamh cinnteach gun tèid pàtrain ùra a thoirt a-steach agus leantalachd iomlan.

Le cuideachadh bho KD, bidh sinn cuideachd a’ coileanadh diofar obrachaidhean air feartan modail, leithid toirt air falbh feartan agus obrachadh air beàrnan. Anns a 'chùis againn, tha grunn fheartan staitistigeil cudromach againn (le luchd-cuiridh, hashes teacsa, URLan, msaa) a tha air an stòradh san stòr-dàta, a tha buailteach a bhith a' fàilligeadh. Chan eil am modail, gu dearbh, deiseil airson a leithid de leasachadh de thachartasan, leis nach eil suidheachaidhean fàiligeadh anns an t-seata trèanaidh. Ann an leithid de shuidheachaidhean, bidh sinn a’ cothlamadh KD agus dòighean àrdachadh: nuair a bhios sinn a’ trèanadh airson pàirt den dàta, bidh sinn a’ toirt air falbh no ag ath-shuidheachadh nam feartan riatanach, agus bidh sinn a’ gabhail na bileagan tùsail (toraidhean a’ mhodail làithreach), agus bidh modal nan oileanach ag ionnsachadh an sgaoileadh seo ath-aithris. .

Gnìomh ionnsachadh innealan ann Mail.ru Mail

Mhothaich sinn mar a bhios làimhseachadh mhodail nas cunnartaiche a’ tachairt, is ann as motha a bhios an àireamh sa cheud de shampall snàithlean a dhìth.

Feumaidh toirt air falbh feart, an obrachadh as sìmplidh, dìreach pàirt bheag den t-sruth, leis nach eil ach feart no dhà ag atharrachadh, agus chaidh am modail gnàthach a thrèanadh air an aon sheata - chan eil an diofar ach glè bheag. Gus am modail a dhèanamh nas sìmplidhe (a 'lùghdachadh àireamh nan craobhan grunn thursan), tha feum air 50 gu 50 mu thràth. modail ùr a tha an aghaidh dearmad air gach seòrsa litrichean.

Gnìomh ionnsachadh innealan ann Mail.ru Mail

FastText

Gluaisidh sinn air adhart gu FastText. Leig leam do chuimhneachadh gu bheil riochdachadh (Embedding) facal a 'gabhail a-steach suim stèidheachadh an fhacail fhèin agus a litir N-gram gu lèir, mar as trice trigraman. Leis gum faod tòrr thrigraman a bhith ann, thathas a’ cleachdadh Bucket Hashing, is e sin, ag atharrachadh an àite gu lèir gu hashmap stèidhichte. Mar thoradh air an sin, gheibhear am matrix cuideam le meud an t-sreath a-staigh a rèir àireamh fhaclan + bucaid.

Le trèanadh a bharrachd, nochdaidh comharran ùra: faclan agus trigraman. Chan eil dad cudromach a’ tachairt ann an trèanadh leanmhainn àbhaisteach bho Facebook. Chan eil ach seann cuideaman le tar-entropy air an ath-thrèanadh air dàta ùr. Mar sin, chan eil feartan ùra gan cleachdadh; gu dearbh, tha na h-eas-bhuannachdan gu h-àrd aig an dòigh-obrach seo co-cheangailte ri neo-chunbhalachd a’ mhodail ann an cinneasachadh. Sin as coireach gun do dh'atharraich sinn FastText beagan. Bidh sinn a’ cur ris a h-uile cuideam ùr (faclan is trigraman), a’ leudachadh a’ mhaitrix gu lèir le tar-entropy agus a’ cur cunbhalachadh harmonic ris a rèir a’ mhodail sreathach, a tha a’ gealltainn atharrachadh beag anns na seann cuideaman.

Gnìomh ionnsachadh innealan ann Mail.ru Mail

CNN

Tha lìonraidhean connspaideach beagan nas iom-fhillte. Ma thèid na sreathan mu dheireadh a chrìochnachadh anns an CNN, an uairsin, gu dearbh, faodaidh tu cunbhalachadh harmonic a chuir an sàs agus leantalachd a ghealltainn. Ach ma tha feum air trèanadh a bharrachd air an lìonra gu lèir, chan urrainnear a leithid de riaghailteachadh a chuir an sàs anns a h-uile sreath tuilleadh. Ach, tha roghainn ann a bhith a’ trèanadh in-ghabhail co-phàirteach tro Triplet Loss (artaigil tùsail).

Trì-call

A’ cleachdadh gnìomh an-aghaidh phishing mar eisimpleir, leig dhuinn sùil a thoirt air Triplet Loss san fharsaingeachd. Gabhaidh sinn an suaicheantas againn, a bharrachd air eisimpleirean adhartach is àicheil de shuaicheantas chompanaidhean eile. Bidh sinn a 'lùghdachadh an astair eadar a' chiad fhear agus a 'meudachadh an astair eadar an dàrna fear, bidh sinn a' dèanamh seo le beàrn beag gus dèanamh cinnteach gu bheil na clasaichean nas cruaidhe.

Gnìomh ionnsachadh innealan ann Mail.ru Mail

Ma bhios sinn a 'trèanadh an lìonra tuilleadh, bidh an t-àite meatrach againn ag atharrachadh gu tur, agus bidh e gu tur neo-chòrdail ris an fhear roimhe. Is e fìor dhuilgheadas a tha seo ann an duilgheadasan a tha a’ cleachdadh vectaran. Gus faighinn timcheall air an duilgheadas seo, bidh sinn a 'measgachadh seann fhrith-rathaidean rè trèanadh.

Tha sinn air dàta ùr a chuir ris an t-seata trèanaidh agus tha sinn a’ trèanadh an dàrna dreach den mhodail bhon fhìor thoiseach. Aig an dàrna ìre, bidh sinn a 'trèanadh an lìonra againn tuilleadh (Finetuning): an toiseach tha an sreath mu dheireadh air a chrìochnachadh, agus an uairsin tha an lìonra gu lèir gun reothadh. Anns a 'phròiseas a bhith a' dèanamh triplets, bidh sinn a 'cunntadh ach pàirt de na h-ionadan a' cleachdadh a 'mhodail trèanaidh, an còrr - a' cleachdadh an t-seann fhear. Mar sin, ann am pròiseas trèanaidh a bharrachd, bidh sinn a’ dèanamh cinnteach gu bheil àiteachan meatrach v1 agus v2 co-fhreagarrach. Tionndadh sònraichte de riaghladh harmonic.

Gnìomh ionnsachadh innealan ann Mail.ru Mail

Ailtireachd iomlan

Ma tha sinn a 'beachdachadh air an t-siostam gu lèir a' cleachdadh antispam mar eisimpleir, chan eil na modailean iomallach, ach air an neadachadh taobh a-staigh a chèile. Bidh sinn a’ togail dhealbhan, teacsa agus feartan eile, a’ cleachdadh CNN agus Fast Text gheibh sinn in-ghabhail. An ath rud, tha luchd-seòrsachaidh air an cur an sàs air mullach an in-ghabhail, a bheir seachad sgòran airson diofar chlasaichean (seòrsaichean litrichean, spama, làthaireachd suaicheantas). Tha na comharran agus na soidhnichean mu thràth a’ dol a-steach don choille chraobhan airson an co-dhùnadh deireannach a dhèanamh. Bidh luchd-seòrsachaidh fa leth san sgeama seo ga dhèanamh comasach mìneachadh nas fheàrr a dhèanamh air toraidhean an t-siostaim agus gu sònraichte ath-thrèanadh co-phàirtean gun fhios nach bi duilgheadasan ann, seach a bhith a’ biathadh an dàta gu lèir gu craobhan co-dhùnaidh ann an cruth amh.

Gnìomh ionnsachadh innealan ann Mail.ru Mail

Mar thoradh air an sin, tha sinn a’ gealltainn leantainneachd aig gach ìre. Aig an ìre as ìsle ann an CNN agus Fast Text bidh sinn a’ cleachdadh cunbhalachadh harmonic, airson an seòrsachadh sa mheadhan bidh sinn cuideachd a’ cleachdadh cunbhalachadh harmonic agus calibration reata airson cunbhalachd cuairteachadh coltachd. Uill, tha àrdachadh chraobhan air a thrèanadh mean air mhean no a’ cleachdadh eòlas grùdaireachd.

San fharsaingeachd, mar as trice tha e na phian a bhith a’ cumail suas siostam ionnsachaidh inneal neadachaidh mar seo, leis gu bheil pàirt sam bith aig an ìre as ìsle a’ leantainn gu ùrachadh air an t-siostam gu h-àrd. Ach leis gu bheil gach pàirt san t-suidheachadh againn ag atharrachadh beagan agus gu bheil e co-chosmhail ris an fhear a bh’ ann roimhe, faodar an siostam gu lèir ùrachadh mean air mhean gun fheum air an structar gu lèir ath-thrèanadh, a leigeas leis taic fhaighinn às aonais fìor chosgais.

Sgaoileadh

Tha sinn air beachdachadh air cruinneachadh dàta agus trèanadh a bharrachd de dhiofar sheòrsaichean mhodalan, agus mar sin tha sinn a’ gluasad air adhart gu bhith gan cleachdadh san àrainneachd cinneasachaidh.

A/B deuchainn

Mar a thuirt mi na bu thràithe, anns a 'phròiseas a bhith a' cruinneachadh dàta, mar as trice bidh sinn a 'faighinn sampall claon, às a bheil e do-dhèanta measadh a dhèanamh air coileanadh toraidh a' mhodail. Mar sin, nuair a thathar ga chleachdadh, feumar coimeas a dhèanamh eadar am modail agus an dreach roimhe gus tuigse fhaighinn air mar a tha cùisean a’ dol, is e sin, dèan deuchainnean A/B. Gu dearbh, tha am pròiseas sgaoileadh agus sgrùdadh chlàran gu math àbhaisteach agus faodar a dhèanamh fèin-ghluasadach gu furasta. Bidh sinn a’ sgaoileadh ar modailean mean air mhean gu 5%, 30%, 50% agus 100% de luchd-cleachdaidh, agus sinn a’ cruinneachadh a h-uile meatrach a tha ri fhaighinn air freagairtean modail agus fios air ais bho luchd-cleachdaidh. Ann an cùis cuid de dhroch dhaoine a-muigh, bidh sinn gu fèin-ghluasadach a’ toirt air ais am modail, agus ann an cùisean eile, às deidh dhuinn àireamh gu leòr de chlican cleachdaiche a chruinneachadh, tha sinn a’ co-dhùnadh an àireamh sa cheud àrdachadh. Mar thoradh air an sin, bheir sinn am modail ùr gu 50% de luchd-cleachdaidh gu tur fèin-ghluasadach, agus thèid an sgaoileadh chun luchd-èisteachd gu lèir aontachadh le neach, ged a dh’ fhaodadh an ceum seo a bhith fèin-ghluasadach.

Ach, tha pròiseas deuchainn A / B a’ tabhann àite airson optimization. Is e an fhìrinn gu bheil deuchainn A / B sam bith gu math fada (anns a ’chùis againn bheir e bho 6 gu 24 uairean a rèir na tha de fhios air ais), a tha ga dhèanamh gu math daor agus le goireasan cuibhrichte. A bharrachd air an sin, tha feum air ceudad àrd gu leòr de shruth airson an deuchainn gus ùine iomlan an deuchainn A / B a luathachadh (faodaidh fastadh sampall a tha cudromach gu staitistigeil gus meatrach a mheasadh aig ìre bheag sa cheud ùine mhòr a thoirt), a tha a’ ciallachadh tha an àireamh de shliotan A/B gu math cuingealaichte. Gu dearbh, feumaidh sinn deuchainn a dhèanamh a-mhàin as gealltanach modailean, a tha sinn a 'faighinn tòrr rè a' phròiseas trèanaidh a bharrachd.

Gus an duilgheadas seo fhuasgladh, rinn sinn trèanadh air seòrsaiche air leth a tha a’ ro-innse soirbheachas deuchainn A/B. Gus seo a dhèanamh, bidh sinn a’ gabhail staitistig co-dhùnaidh, Precision, Recall agus metrics eile air an t-seata trèanaidh, air an fhear a chaidh a chuir dheth, agus air an sampall bhon t-sruth mar fheartan. Bidh sinn cuideachd a 'dèanamh coimeas eadar a' mhodail leis an fhear a th 'ann an-dràsta ann an riochdachadh, le heuristics, agus a' toirt aire do cho iom-fhillteachd a 'mhodail. A’ cleachdadh na feartan sin uile, bidh neach-seòrsachaidh air a thrèanadh ann an eachdraidh deuchainn a’ measadh mhodalan tagraiche, anns a’ chùis againn is e coilltean chraobhan a tha seo, agus a’ co-dhùnadh dè am fear a chleachdas anns an deuchainn A/B.

Gnìomh ionnsachadh innealan ann Mail.ru Mail

Aig àm buileachaidh, leig an dòigh-obrach seo leinn an àireamh de dheuchainnean soirbheachail A/B a mheudachadh grunn thursan.

Deuchainn & Sgrùdadh

Gu h-annasach gu leòr, cha dèan deuchainn agus sgrùdadh cron air ar slàinte; an àite sin, air an làimh eile, bidh iad ga leasachadh agus gar faochadh bho uallach neo-riatanach. Leigidh deuchainnean leat casg a chuir air fàiligeadh, agus leigidh sgrùdadh leat a lorg ann an àm gus a’ bhuaidh air luchd-cleachdaidh a lughdachadh.

Tha e cudromach tuigsinn an seo gum bi an siostam agad an-còmhnaidh a’ dèanamh mhearachdan nas luaithe no nas fhaide air adhart - tha seo mar thoradh air cearcall leasachaidh bathar-bog sam bith. Aig toiseach leasachadh an t-siostaim tha an-còmhnaidh tòrr bhiteagan gus an socraich a h-uile càil agus gus am bi am prìomh ìre de ùr-ghnàthachadh deiseil. Ach thar ùine, bidh entropy a 'toirt a' chìs, agus tha mearachdan a 'nochdadh a-rithist - mar thoradh air a bhith a' crìonadh nan co-phàirtean mun cuairt agus atharrachaidhean ann an dàta, air an do bhruidhinn mi aig an toiseach.

An seo bu mhath leam a thoirt fa-near gum bu chòir beachdachadh air siostam ionnsachaidh inneal sam bith bho shealladh a phrothaid fad a chuairt-beatha gu lèir. Tha an graf gu h-ìosal a’ sealltainn eisimpleir air mar a tha an siostam ag obair gus seòrsa tearc de spam a ghlacadh (tha an loidhne sa ghraf faisg air neoni). Aon latha, air sgàth feart a chaidh a thasgadh gu ceàrr, chaidh i às mo chiall. Mar a bhiodh fortanach, cha robh sgrùdadh sam bith ann airson brosnachaidhean neo-àbhaisteach; mar thoradh air an sin, thòisich an siostam a’ sàbhaladh litrichean ann am meudan mòra chun phasgan “spam” aig a’ chrìoch co-dhùnaidh. A dh 'aindeoin na builean a cheartachadh, tha an siostam air mearachdan a dhèanamh cho tric' s nach pàigh e air a shon fhèin eadhon ann an còig bliadhna. Agus is e fàilligeadh iomlan a tha seo bho shealladh cearcall beatha a’ mhodail.

Gnìomh ionnsachadh innealan ann Mail.ru Mail

Mar sin, faodaidh rud cho sìmplidh ri sgrùdadh a bhith cudromach ann am beatha modail. A bharrachd air meatrach àbhaisteach agus follaiseach, bidh sinn a’ beachdachadh air cuairteachadh freagairtean modail agus sgòran, a bharrachd air cuairteachadh prìomh luachan feart. A’ cleachdadh eadar-dhealachadh KL, is urrainn dhuinn coimeas a dhèanamh eadar an cuairteachadh gnàthach leis an fhear eachdraidheil no na luachan anns an deuchainn A / B leis a’ chòrr den t-sruth, a leigeas leinn mothachadh a thoirt air neo-riaghailteachdan sa mhodail agus atharrachaidhean a thoirt air ais ann an deagh àm.

Anns a’ mhòr-chuid de chùisean, bidh sinn a’ cur air bhog ar ciad dreachan de shiostaman a’ cleachdadh heuristics sìmplidh no modalan a bhios sinn a’ cleachdadh mar sgrùdadh san àm ri teachd. Mar eisimpleir, bidh sinn a’ cumail sùil air modal NER an taca ris an fheadhainn àbhaisteach airson stòran sònraichte air-loidhne, agus ma thuiteas an còmhdach seòrsachaidh an coimeas riutha, tuigidh sinn na h-adhbharan. Cleachdadh feumail eile de heuristics!

Builean

Rachamaid thairis air prìomh bheachdan an artaigil a-rithist.

  • Fiobdeck. Bidh sinn an-còmhnaidh a 'smaoineachadh air an neach-cleachdaidh: mar a bhios e beò le ar mearachdan, mar a bhios e comasach air aithris orra. Na dì-chuimhnich nach eil luchd-cleachdaidh nan stòr de fhios air ais fìor airson modalan trèanaidh, agus feumar a ghlanadh le cuideachadh bho shiostaman ML cuideachail. Mura h-urrainnear comharra a chruinneachadh bhon neach-cleachdaidh, bidh sinn a’ coimhead airson tobraichean fios air ais eile, mar eisimpleir, siostaman ceangailte.
  • Trèanadh a bharrachd. Is e am prìomh rud an seo leantalachd, agus mar sin tha sinn an urra ris a’ mhodail riochdachaidh gnàthach. Bidh sinn a’ trèanadh mhodalan ùra gus nach bi iad gu math eadar-dhealaichte bhon fhear a bh’ ann roimhe air sgàth cunbhalachadh harmonic agus cleasan coltach ris.
  • Sgaoileadh. Bidh cleachdadh fèin-ghluasadach stèidhichte air meatrach a’ lughdachadh gu mòr an ùine airson modalan a bhuileachadh. A 'cumail sùil air staitistig agus a' cuairteachadh co-dhùnaidhean, tha an àireamh de luchd-cleachdaidh a 'tuiteam riatanach airson do chadal sàmhach agus deireadh-seachdain toraidh.

Uill, tha mi an dòchas gun cuidich seo thu gus na siostaman ML agad a leasachadh nas luaithe, toirt orra margaidheachd nas luaithe, agus an dèanamh nas earbsaiche agus nas lugha de chuideam.

Source: www.habr.com

Cuir beachd ann