Амали омӯзиши мошинсозӣ дар Mail.ru Mail

Амали омӯзиши мошинсозӣ дар Mail.ru Mail

Бар асоси суханрониҳои ман дар Highload++ ва DataFest Minsk 2019.

Барои бисёриҳо имрӯз почта як қисми ҷудонашавандаи ҳаёти онлайн аст. Бо ёрии он, мо мукотибаи тиҷорӣ анҷом медиҳем, ҳама гуна маълумоти муҳимро вобаста ба молия, фармоиши меҳмонхонаҳо, ҷойгиркунии фармоишҳо ва ғайра нигоҳ медорем. Дар нимаи соли 2018 мо стратегияи маҳсулотро барои рушди почта таҳия кардем. Почтаи муосир бояд чӣ гуна бошад?

Почта бояд бошад доно, яъне кӯмак ба корбарон дар паймоиши ҳаҷми афзояндаи иттилоот: филтр, сохтор ва бо роҳи мувофиқтарин таъмин кардани он. Вай бояд бошад муфид, ба шумо имкон медиҳад, ки вазифаҳои гуногунро мустақиман дар паёмдони худ ҳал кунед, масалан, ҷарима пардохт кунед (функсияе, ки мутаассифона, ман истифода мекунам). Ва дар айни замон, албатта, почта бояд ҳифзи иттилоотро таъмин кунад, спамро қатъ кунад ва аз ҳакерӣ муҳофизат кунад, яъне бехатар.

Ин соҳаҳо як қатор мушкилоти асосиро муайян мекунанд, ки бисёре аз онҳоро бо истифодаи омӯзиши мошинсозӣ самаранок ҳал кардан мумкин аст. Инҳоянд намунаҳои хусусиятҳои мавҷуда, ки ҳамчун як қисми стратегия таҳия шудаанд - якто барои ҳар як самт.

  • Smart Reply. Почта дорои хусусияти ҷавоби оқилона мебошад. Шабакаи нейрон матни мактубро тахлил карда, маъно ва максади онро мефахмад ва дар натича се варианти мувофики чавоб пешниход мекунад: мусбат, манфй ва бетараф. Ин барои ба таври назаррас сарфа кардани вақт ҳангоми ҷавоб додан ба мактубҳо кӯмак мекунад ва инчунин аксар вақт ба тарзи ғайристандартӣ ва хандовар ҷавоб медиҳад.
  • Гурӯҳбандии почтаи электронӣвобаста ба фармоиш дар мағозаҳои онлайн. Мо аксар вақт онлайн харид мекунем ва чун қоида, мағозаҳо метавонанд барои ҳар як фармоиш якчанд мактуб фиристанд. Масалан, аз AliExpress, бузургтарин хидматрасонӣ, барои як фармоиш ҳарфҳои зиёде ворид мешаванд ва мо ҳисоб кардем, ки шумораи онҳо метавонад то 29 адад бошад. Аз ин рӯ, бо истифода аз модели Шинохти номбаршуда мо рақами фармоишро берун мекунем. ва дигар маълумот аз матн ва гурӯҳбандии ҳамаи ҳарфҳо дар як ришта. Мо инчунин маълумоти асосиро дар бораи фармоиш дар қуттии алоҳида нишон медиҳем, ки кор бо ин намуди почтаи электронӣ осонтар мешавад.

    Амали омӯзиши мошинсозӣ дар Mail.ru Mail

  • Антифишинг. Фишинг як намуди махсусан хатарноки қаллобии почтаи электронӣ мебошад, ки ҳамлагарон бо ёрии он маълумоти молиявӣ (аз ҷумла кортҳои бонкии корбар) ва воридшавӣ ба даст меоранд. Чунин мактубҳо ба мактубҳои воқеии фиристодаи хадамот, аз ҷумла ба таври визуалӣ тақлид мекунанд. Аз ин рӯ, бо ёрии Computer Vision, мо логотипҳо ва услуби тарҳрезии номаҳои ширкатҳои бузургро (масалан, Mail.ru, Sber, Alfa) эътироф мекунем ва инро дар баробари матн ва дигар хусусиятҳо дар таснифи спам ва фишингҳои худ ба назар мегирем. .

Омӯзиши мошинҳо

Каме дар бораи омӯзиши мошинсозӣ дар почтаи электронӣ дар маҷмӯъ. Почта як системаи пурбор аст: ба ҳисоби миёна дар як рӯз 1,5 миллиард мактуб аз серверҳои мо барои 30 миллион корбарони DAU мегузарад. Тақрибан 30 системаҳои омӯзиши мошинсозӣ ҳама вазифаҳо ва хусусиятҳои заруриро дастгирӣ мекунанд.

Ҳар як ҳарф аз тамоми лӯлаи таснифот мегузарад. Аввал мо спамро бурида, мактубҳои хуб мегузорем. Истифодабарандагон аксар вақт кори антиспамро пай намебаранд, зеро 95-99% спам ҳатто дар папкаи мувофиқ намемонад. Шинохти спам як ҷузъи хеле муҳими системаи мо ва аз ҳама мушкил аст, зеро дар соҳаи зидди спам мутобиқати доимӣ байни системаҳои дифоъ ва ҳамла вуҷуд дорад, ки барои дастаи мо мушкилоти доимии муҳандисиро таъмин мекунад.

Баъдан, мо ҳарфҳоро аз одамон ва роботҳо ҷудо мекунем. Паёмҳои почтаи электронӣ аз одамон муҳимтаринанд, аз ин рӯ мо барои онҳо хусусиятҳоеро ба мисли Smart Reply пешниҳод мекунем. Мактубҳои роботҳо ба ду қисм тақсим мешаванд: транзаксионалӣ - инҳо мактубҳои муҳим аз хидматҳо мебошанд, масалан, тасдиқи харид ё фармоиши меҳмонхонаҳо, молия ва иттилоотӣ - инҳо таблиғи тиҷоратӣ, тахфифҳо мебошанд.

Мо боварӣ дорем, ки мактубҳои транзаксионӣ аз ҷиҳати аҳамият ба мукотибаи шахсӣ баробаранд. Онҳо бояд дар даст бошанд, зеро ба мо лозим меояд, ки зуд дар бораи фармоиш ё брон кардани чиптаҳои ҳавопаймо маълумот пайдо кунем ва мо барои ҷустуҷӯи ин ҳарфҳо вақт сарф мекунем. Аз ин рӯ, барои роҳат мо онҳоро ба таври худкор ба шаш категорияи асосӣ тақсим мекунем: сафар, фармоиш, молия, чиптаҳо, бақайдгирӣ ва ниҳоят ҷарима.

Номаҳои иттилоотӣ гурӯҳи калонтарин ва эҳтимолан камтар муҳиманд, ки посухи фаврӣ талаб намекунанд, зеро дар ҳаёти корбар ҳеҷ чизи муҳиме тағир намеёбад, агар ӯ чунин номаро нахонад. Дар интерфейси нави мо, мо онҳоро ба ду ришта тақсим мекунем: шабакаҳои иҷтимоӣ ва бюллетенҳо, ба ин васила паёмдони паёмро тоза мекунем ва танҳо паёмҳои муҳимро намоён мегузорем.

Амали омӯзиши мошинсозӣ дар Mail.ru Mail

Амалиёт

Шумораи зиёди системаҳо дар кор душвориҳои зиёдеро ба вуҷуд меоранд. Дар ниҳоят, моделҳо бо мурури замон, мисли ҳама гуна нармафзорҳо таназзул мекунанд: хусусиятҳо мешикананд, мошинҳо аз кор мебароянд, код каҷ мешавад. Илова бар ин, маълумот доимо тағйир меёбад: навҳои нав илова карда мешаванд, намунаҳои рафтори корбарон тағир меёбанд ва ғайра, аз ин рӯ модели бидуни дастгирии дуруст бо мурури замон бадтар ва бадтар кор мекунад.

Мо набояд фаромӯш кунем, ки омӯзиши мошинсозӣ ҳар қадар амиқтар ба ҳаёти корбарон ворид шавад, ҳамон қадар таъсири онҳо ба экосистема зиёдтар мешавад ва дар натиҷа, талафоти молиявӣ ё фоидаи бозигарони бозор бештар мешаванд. Аз ин рӯ, дар шумораи афзояндаи соҳаҳо, бозигарон ба кори алгоритмҳои ML мутобиқ мешаванд (мисолҳои классикӣ таблиғ, ҷустуҷӯ ва антиспамҳои қаблан зикршуда мебошанд).

Инчунин, вазифаҳои омӯзиши мошинсозӣ хусусияти хос доранд: ҳама гуна тағирот, ҳатто ночиз, дар система метавонад кори зиёдеро бо модел эҷод кунад: кор бо маълумот, бозомӯзӣ, ҷойгиркунӣ, ки метавонад ҳафтаҳо ё моҳҳоро дар бар гирад. Аз ин рӯ, чӣ қадаре ки муҳите, ки моделҳои шумо дар он кор мекунанд, зудтар тағир ёбад, барои нигоҳ доштани онҳо кӯшиши бештар лозим аст. Як даста метавонад системаҳои зиёдеро эҷод кунад ва аз он хурсанд бошад, аммо баъдан қариб тамоми захираҳои худро барои нигоҳдории онҳо сарф мекунад, бидуни имкони иҷрои ягон чизи нав. Мо боре дар дастаи антиспам бо чунин вазъият дучор шудем. Ва онҳо ба хулосае омаданд, ки дастгирӣ бояд автоматӣ карда шавад.

Автоматика

Чиро автоматӣ кардан мумкин аст? Қариб ҳама чиз, дар асл. Ман чор соҳаеро муайян кардам, ки инфрасохтори омӯзиши мошинро муайян мекунанд:

  • ҷамъоварии маълумот;
  • омӯзиши иловагӣ;
  • ҷойгир кардан;
  • санҷиш ва мониторинг.

Агар муҳит ноустувор ва доимо тағйирёбанда бошад, пас тамоми инфрасохтори атрофи модел назар ба худи модел хеле муҳимтар мешавад. Он метавонад як таснифгари хуби хаттии кӯҳна бошад, аммо агар шумо онро бо хусусиятҳои дуруст таъмин кунед ва аз корбарон фикру мулоҳизаҳои хуб гиред, он нисбат ба моделҳои муосири муосир бо ҳама зангҳо ва ҳуштакҳо хеле беҳтар кор мекунад.

Давраи бозгашт

Ин давра ҷамъоварии маълумот, омӯзиши иловагӣ ва ҷойгиркунӣ - дар асл тамоми давраи навсозии моделро дар бар мегирад. Чаро муҳим аст? Ба ҷадвали бақайдгирӣ дар почта нигаред:

Амали омӯзиши мошинсозӣ дар Mail.ru Mail

Як таҳиягари омӯзиши мошинсозӣ модели зиддиботро ҷорӣ кардааст, ки аз сабти номи ботҳо дар почтаи электронӣ монеъ мешавад. Графика ба арзише меафтад, ки дар он танҳо корбарони воқеӣ боқӣ мемонанд. Ҳама чиз бузург аст! Аммо чор соат мегузарад, ботҳо скриптҳои худро тағир медиҳанд ва ҳама чиз ба ҳолати муқаррарӣ бармегардад. Дар ин татбиқ, таҳиякунанда як моҳро барои илова кардани хусусиятҳо ва бозомӯзии модел сарф кард, аммо спамер тавонист дар тӯли чаҳор соат мутобиқ шавад.

Барои он ки ин қадар дардовар набошем ва ҳама чизро баъдтар такрор накунем, мо бояд аввал дар бораи он фикр кунем, ки ҳалқаи бозгашт чӣ гуна хоҳад буд ва дар сурати тағир додани муҳити зист мо чӣ кор хоҳем кард. Биёед бо ҷамъоварии маълумот оғоз кунем - ин сӯзишвории алгоритмҳои мост.

Ҷамъоварии маълумот

Равшан аст, ки барои шабакаҳои нейронии муосир ҳар қадар маълумот бештар бошад, ҳамон қадар беҳтар аст ва онҳо дар асл аз ҷониби корбарони маҳсулот тавлид мешаванд. Истифодабарандагон метавонанд бо нишон додани маълумот ба мо кӯмак расонанд, аммо мо наметавонем аз ин сӯиистифода кунем, зеро дар баъзе мавридҳо корбарон аз пур кардани моделҳои шумо хаста мешаванд ва ба маҳсулоти дигар мегузаранд.

Яке аз хатогиҳои маъмултарин (дар ин ҷо ман ба Эндрю Нг истинод мекунам) ин тамаркузи аз ҳад зиёд ба ченакҳо дар маҷмӯи додаҳои санҷишӣ мебошад, на ба фикру мулоҳизаҳои корбар, ки воқеан ченаки асосии сифати кор аст, зеро мо маҳсулот барои истифодабаранда. Агар корбар кори моделро нафаҳмад ва ё маъқул накунад, ҳама чиз вайрон мешавад.

Аз ин рӯ, корбар бояд ҳамеша имкони овоздиҳӣ дошта бошад ва бояд асбоби фикру мулоҳизаҳоро диҳад. Агар мо фикр кунем, ки мактуби марбут ба молия ба қуттии почта омадааст, мо бояд онро "молия" қайд кунем ва тугмаеро кашем, ки корбар метавонад онро пахш кунад ва бигӯяд, ки ин молия нест.

Сифати бозгашт

Биёед дар бораи сифати фикру мулоҳизаҳои корбарон сӯҳбат кунем. Аввалан, шумо ва корбар метавонед маънои гуногунро дар як консепсия ҷойгир кунед. Масалан, шумо ва менеҷерони маҳсулоти шумо фикр мекунанд, ки "молия" маънои номаҳои бонкро дорад ва корбар фикр мекунад, ки номаи бибиаш дар бораи нафақааш ба молия низ дахл дорад. Сониян, корбароне ҳастанд, ки бе ягон мантиқ пахш кардани тугмаҳоро дӯст медоранд. Сеюм, корбар метавонад дар хулосаҳои худ сахт хато кунад. Мисоли равшани амалияи мо татбиқи классификатор мебошад Спам Нигерия, як намуди хеле хандовар спам, ки дар он аз корбар хоҳиш карда мешавад, ки аз як хеши дури ногаҳон дар Африқо якчанд миллион доллар бигирад. Пас аз татбиқи ин таснифот, мо кликҳои "Не Спам" -ро дар ин мактубҳо тафтиш кардем ва маълум шуд, ки 80% онҳо спамҳои боллазату шаҳдбори Нигерия буданд, ки аз он шаҳодат медиҳад, ки корбарон метавонанд бениҳоят боваринок бошанд.

Ва биёед фаромӯш накунем, ки тугмаҳоро на танҳо одамон, балки ҳама гуна ботҳо, ки худро браузер вонамуд мекунанд, клик кардан мумкин аст. Пас, фикру мулоҳизаҳои хом барои омӯзиш хуб нест. Шумо бо ин маълумот чӣ кор карда метавонед?

Мо ду равишро истифода мебарем:

  • Алоқа аз ML алоқаманд. Масалан, мо системаи онлайнии зиддибот дорем, ки он тавре ки ман зикр кардам, дар асоси шумораи маҳдуди аломатҳо қарори зуд қабул мекунад. Ва системаи дуввуми суст вуҷуд дорад, ки пас аз он кор мекунад. Он дорои маълумоти бештар дар бораи корбар, рафтори ӯ ва ғайра. Дар натиҷа, қарори оқилонатарин қабул карда мешавад, мувофиқан он дақиқ ва пуррагии баландтар дорад. Шумо метавонед фарқиятро дар кори ин системаҳо ба аввалин ҳамчун маълумоти омӯзишӣ равона кунед. Ҳамин тариқ, системаи соддатар ҳамеша кӯшиш мекунад, ки ба иҷрои як системаи мураккабтар наздик шавад.
  • Таснифро клик кунед. Шумо метавонед танҳо ҳар як клики корбарро тасниф кунед, эътибор ва қобили истифода будани онро арзёбӣ кунед. Мо инро дар почтаи антиспам бо истифода аз атрибутҳои корбар, таърихи ӯ, атрибутҳои ирсолкунанда, худи матн ва натиҷаи таснифкунандагон анҷом медиҳем. Дар натиҷа, мо системаи автоматие мегирем, ки фикру мулоҳизаҳои корбаронро тасдиқ мекунад. Ва азбаски он бояд камтар аз нав омода карда шавад, кори он метавонад барои ҳама системаҳои дигар асос гардад. Афзалияти асосӣ дар ин модел дақиқ аст, зеро омӯзиши модел дар бораи маълумоти нодуруст бо оқибатҳои зиёд дорад.

Ҳангоми тоза кардани маълумот ва омӯзиши минбаъдаи системаҳои ML, мо набояд дар бораи корбарон фаромӯш кунем, зеро барои мо ҳазорҳо, миллионҳо хатогиҳои графикӣ оморанд ва барои корбар ҳар хатогӣ як фоҷиа аст. Илова бар он, ки корбар бояд бо хатогии шумо дар маҳсулот зиндагӣ кунад, пас аз гирифтани фикру мулоҳизаҳо, ӯ интизор аст, ки вазъияти шабеҳ дар оянда бартараф карда мешавад. Аз ин рӯ, ҳамеша ба корбарон на танҳо имкони овоздиҳӣ додан лозим аст, балки инчунин ислоҳ кардани рафтори системаҳои ML, эҷод кардани, масалан, эвристикаи шахсӣ барои ҳар як клики бозгашт; дар мавриди почта, ин метавонад қобилияти филтр кардани чунин ҳарфҳо аз ҷониби ирсолкунанда ва унвони барои ин корбар.

Шумо инчунин бояд моделеро дар асоси баъзе гузоришҳо ё дархостҳо барои дастгирӣ дар реҷаи нимаавтоматӣ ё дастӣ созед, то корбарони дигар аз мушкилоти шабеҳ гирифтор нашаванд.

Эвристика барои омӯзиш

Бо ин эвристика ва асобагон ду мушкилот вуҷуд дорад. Якум он аст, ки шумораи рузафзуни асобачахоро нигох доштан душвор аст, бигузор сифат ва кори онхоро дар муддати дуру дароз нигох доштан душвор аст. Мушкилоти дуюм ин аст, ки хатогӣ метавонад зуд-зуд набошад ва чанд клик барои омӯзиши минбаъдаи модел кофӣ нахоҳад буд. Чунин ба назар мерасад, ки ин ду таъсири ба ҳам алоқаманд метавонанд ба таври назаррас безарар карда шаванд, агар усули зерин истифода шавад.

  1. Мо як асои муваққатӣ эҷод мекунем.
  2. Мо аз он ба модел маълумот мефиристем, он мунтазам худро навсозӣ мекунад, аз ҷумла дар бораи маълумоти гирифташуда. Дар ин ҷо, албатта, муҳим аст, ки эвристика дақиқии баланд дошта бошад, то сифати маълумот дар маҷмӯи таълим паст нашавад.
  3. Сипас, мо мониторингро барои ба кор андохтани асобача муқаррар кардем ва агар пас аз чанд вақт асобача дигар кор накунад ва бо модел пурра фаро гирифта шавад, шумо метавонед онро бехатар хориҷ кунед. Акнун ин мушкилот дубора такрор нашавад.

Пас, лашкари асобагон хеле фоиданок аст. Чизи асосй он аст, ки хизмати онхо таъчилй ва доимй нест.

Омӯзиши иловагӣ

Бозомӯзӣ раванди илова кардани маълумоти навест, ки дар натиҷаи фикру мулоҳизаҳо аз корбарон ё системаҳои дигар ба даст оварда шудааст ва омӯзиши модели мавҷуда дар он. Ҳангоми омӯзиши иловагӣ метавонад якчанд мушкилот вуҷуд дошта бошад:

  1. Модел метавонад омӯзиши иловагиро дастгирӣ накунад, аммо танҳо аз сифр ёд гиред.
  2. Дар ягон чои китоби табиат навишта нашудааст, ки таълими иловагй бешубха сифати корро дар истехсолот бехтар мекунад. Аксар вақт баръакс рӯй медиҳад, яъне танҳо бадшавӣ имконпазир аст.
  3. Тағйирот метавонад пешгӯинашаванда бошад. Ин як нуқтаи хеле нозук аст, ки мо барои худ муайян кардаем. Ҳатто агар модели нав дар санҷиши A/B дар муқоиса бо модели ҷорӣ натиҷаҳои шабеҳ нишон диҳад, ин маънои онро надорад, ки он якхела кор хоҳад кард. Кори онҳо метавонад танҳо як фоиз фарқ кунад, ки метавонад хатогиҳои нав ба бор орад ё хатоҳои кӯҳнаро, ки аллакай ислоҳ шудаанд, баргардонад. Ҳам мо ва ҳам корбарон аллакай медонем, ки чӣ гуна бо хатогиҳои ҷорӣ зиндагӣ кунем ва вақте ки шумораи зиёди хатогиҳои нав ба миён меоянд, корбар инчунин метавонад дарк накунад, ки чӣ рӯй дода истодааст, зеро ӯ рафтори пешбинишавандаро интизор аст.

Аз ин ру, дар таълими иловагй чизи аз хама му-химтарин он аст, ки модел такмил дода шавад ва ё акаллан бадтар нашавад.

Аввалин чизе, ки мо дар бораи омӯзиши иловагӣ сухан меронем, ин равиши омӯзиши фаъол аст. Ин чӣ маъно дорад? Масалан, таснифкунанда муайян мекунад, ки оё почтаи электронӣ ба молия алоқаманд аст ва дар атрофи сарҳади қарори он мо намунаҳои нишондодашударо илова мекунем. Ин хуб кор мекунад, масалан, дар таблиғ, ки дар он ҷо фикру мулоҳизаҳои зиёд мавҷуданд ва шумо метавонед моделро онлайн омӯзед. Ва агар фикру мулоҳизаҳои каме вуҷуд дошта бошанд, пас мо нисбат ба тақсимоти маълумоти истеҳсолӣ як намунаи хеле ғаразнок мегирем, ки дар асоси он баҳо додан ба рафтори модел ҳангоми кор имконнопазир аст.

Амали омӯзиши мошинсозӣ дар Mail.ru Mail

Дарвоқеъ, ҳадафи мо нигоҳ доштани намунаҳои кӯҳна, моделҳои аллакай маълум ва ба даст овардани намунаҳои нав аст. Дар ин ҷо пайвастагӣ муҳим аст. Моделе, ки мо аксар вақт барои баровардан заҳмати зиёд мекашидем, аллакай кор мекунад, аз ин рӯ мо метавонем ба иҷрои он тамаркуз кунем.

Дар почта моделҳои гуногун истифода мешаванд: дарахтҳо, шабакаҳои хатӣ, нейронӣ. Барои ҳар як мо алгоритми омӯзиши иловагии худро месозем. Дар раванди таълими иловагӣ мо на танҳо маълумоти нав, балки аксар вақт хусусиятҳои нав мегирем, ки мо онҳоро дар ҳама алгоритмҳои дар поён ба назар гирифтаем.

Моделҳои хатӣ

Фарз мекунем, ки мо регрессияи логистикӣ дорем. Мо модели талафотро аз ҷузъҳои зерин эҷод мекунем:

  • LogLoss дар бораи маълумоти нав;
  • мо вазнҳои хусусиятҳои навро танзим мекунем (мо ба чизҳои кӯҳна даст намерасонем);
  • мо инчунин аз маълумотҳои кӯҳна меомӯзем, то намунаҳои кӯҳнаро нигоҳ дорем;
  • ва, шояд, чизи аз ҳама муҳим: мо танзими Harmonic илова мекунем, ки кафолат медиҳад, ки вазнҳо нисбат ба модели кӯҳна мувофиқи меъёр чандон тағир нахоҳанд шуд.

Азбаски ҳар як ҷузъи талафот коэффитсиентҳо дорад, мо метавонем арзишҳои оптималиро барои вазифаи худ тавассути тасдиқи салиб ё дар асоси талаботи маҳсулот интихоб кунем.

Амали омӯзиши мошинсозӣ дар Mail.ru Mail

Дарахтҳо

Биёед ба дарахтони қарорҳо гузарем. Мо алгоритми зеринро барои омӯзиши иловагии дарахтон тартиб додем:

  1. Истеҳсол як ҷангали 100-300 дарахтро идора мекунад, ки дар маҷмӯи маълумоти кӯҳна таълим дода мешавад.
  2. Дар охир мо M = 5 дона хориҷ мекунем ва 2M = 10 нав илова мекунем, ки дар тамоми маҷмӯи додаҳо таълим дода шудаанд, аммо бо вазни баланд барои маълумоти нав, ки табиатан тағирёбии афзояндаи моделро кафолат медиҳад.

Аён аст, ки бо мурури замон шумораи дарахтон хеле меафзояд ва онҳо бояд давра ба давра кам карда шаванд, то ки мӯҳлатҳо мувофиқ бошанд. Барои ин, мо аз Distillation Knowledge Knowledge (KD) истифода мебарем. Мухтасар дар бораи принципи кори он.

  1. Мо модели хозираи «комплекс» дорем. Мо онро дар маҷмӯи маълумоти омӯзишӣ иҷро мекунем ва тақсимоти эҳтимолияти синфро дар натиҷа мегирем.
  2. Баъдан, мо модели донишҷӯиро (модели дорои дарахтони камтар дар ин ҳолат) таълим медиҳем, то натиҷаҳои моделро бо истифода аз тақсимоти синф ҳамчун тағирёбандаи ҳадаф такрор кунад.
  3. Дар ин ҷо қайд кардан муҳим аст, ки мо аломатгузории маҷмӯи маълумотро ба ҳеҷ ваҷҳ истифода намебарем ва аз ин рӯ мо метавонем маълумоти худсаронаро истифода барем. Албатта, мо намунаи маълумотро аз ҷараёни ҷанг ҳамчун намунаи омӯзишӣ барои модели донишҷӯӣ истифода мебарем. Ҳамин тариқ, маҷмӯи таълим ба мо имкон медиҳад, ки дурустии моделро таъмин кунем ва намунаи ҷараён иҷрои шабеҳро дар тақсимоти истеҳсолот кафолат медиҳад, ки ғарази маҷмӯи таълимро ҷуброн мекунад.

Амали омӯзиши мошинсозӣ дар Mail.ru Mail

Омезиши ин ду усул (илова кардани дарахтон ва давра ба давра кам кардани шумораи онҳо бо истифода аз Distillation Knowledge) ҷорӣ намудани намунаҳои нав ва муттасилии комилро таъмин мекунад.

Бо ёрии KD, мо инчунин амалиётҳои гуногунро оид ба хусусиятҳои моделӣ иҷро мекунем, аз қабили нест кардани хусусиятҳо ва кор дар холигоҳҳо. Дар ҳолати мо, мо як қатор хусусиятҳои муҳими оморӣ дорем (аз ҷониби ирсолкунандагон, хэшҳои матнӣ, URL-ҳо ва ғайра), ки дар пойгоҳи додаҳо нигоҳ дошта мешаванд, ки одатан ноком мешаванд. Модел, албатта, барои чунин рушди ҳодисаҳо омода нест, зеро дар маҷмӯи таълим ҳолатҳои нокомӣ рух намедиҳанд. Дар чунин ҳолатҳо, мо усулҳои KD ва афзоишро муттаҳид мекунем: ҳангоми омӯзиш барои як қисми додаҳо мо хусусиятҳои заруриро нест мекунем ё аз нав танзим мекунем ва тамғакоғазҳои аслиро (баромадҳои модели ҷорӣ) мегирем ва модели донишҷӯӣ такрор кардани ин тақсимотро меомӯзад. .

Амали омӯзиши мошинсозӣ дар Mail.ru Mail

Мо пай бурдем, ки чӣ қадаре ки коркарди модели ҷиддитар сурат гирад, ҳамон қадар фоизи намунаи ришта талаб карда мешавад.

Бартараф кардани хусусият, соддатарин амалиёт, танҳо як қисми ками ҷараёнро талаб мекунад, зеро танҳо якчанд хусусиятҳо тағир меёбанд ва модели ҷорӣ дар ҳамон маҷмӯа омӯхта шудааст - фарқият ҳадди аққал аст. Барои содда кардани модел (якчанд маротиба кам кардани шумораи дарахтон) аллакай аз 50 то 50 адад лозим аст.Ва барои нодида гирифтани хусусиятҳои муҳими оморӣ, ки ба кори модел таъсири ҷиддӣ мерасонанд, барои ҳамвор кардани кори дарахтон ҷараёни боз ҳам бештар лозим аст. модели нави тобовар оид ба ҳама намуди ҳарфҳо.

Амали омӯзиши мошинсозӣ дар Mail.ru Mail

Матни зуд

Биёед ба FastText гузарем. Ёдовар мешавам, ки муаррифии (Ebedding) калима аз ҷамъи дохилкунии худи калима ва тамоми ҳарфи N-граммаи он, одатан триграммаҳо иборат аст. Азбаски триграммаҳо метавонанд хеле зиёд бошанд, Bucket Hashing истифода мешавад, яъне табдил додани тамоми фазо ба хэшмаи муайяни собит. Дар натиҷа, матритсаи вазн бо андозаи қабати ботинӣ барои як шумораи калимаҳо + сатилҳо ба даст оварда мешавад.

Бо омӯзиши иловагӣ аломатҳои нав пайдо мешаванд: калимаҳо ва триграммаҳо. Дар омӯзиши стандартии пайравӣ аз Facebook ҳеҷ чизи муҳиме рух намедиҳад. Танҳо вазнҳои кӯҳна бо кросс-энтропия аз рӯи маълумоти нав аз нав омӯхта мешаванд. Хамин тавр, хусусиятхои нав ба кор бурда намешаванд, албатта, ин равиш тамоми норасоихои дар боло зикршударо дорад, ки бо пешгуй накардани модел дар истехсолот алокаманданд. Аз ин рӯ, мо FastText-ро каме тағир додем. Мо ҳама вазнҳои навро (калимаҳо ва триграммаҳо) илова мекунем, тамоми матритсаро бо кросс-энтропия васеъ мекунем ва аз рӯи шабеҳ бо модели хатӣ регуляризатсияи гармониро илова мекунем, ки тағироти ночизро дар вазнҳои кӯҳна кафолат медиҳад.

Амали омӯзиши мошинсозӣ дар Mail.ru Mail

CNN

Шабакаҳои конволютсионӣ каме мураккабтаранд. Агар қабатҳои охирин дар CNN анҷом дода шаванд, пас, албатта, шумо метавонед танзими гармоникро татбиқ кунед ва муттасилиро кафолат диҳед. Аммо агар омӯзиши иловагии тамоми шабака талаб карда шавад, пас чунин танзимро дигар ба ҳама қабатҳо татбиқ кардан мумкин нест. Бо вуҷуди ин, имкони омӯзонидани ҷобаҷогузории иловагӣ тавассути талафоти Triplet вуҷуд дорад (мақолаи аслӣ).

Талафоти сегона

Бо истифода аз вазифаи зидди фишинг ҳамчун мисол, биёед талафоти Triplet-ро ба таври умумӣ бубинем. Мо логотипи худро, инчунин намунаҳои мусбат ва манфии логотипи ширкатҳои дигарро мегирем. Мо масофаи байни якумро кам карда, масофаи байни дуюмро ба ҳадди аксар мерасонем, мо ин корро бо фосилаи хурд анҷом медиҳем, то зичтар будани синфҳоро таъмин кунем.

Амали омӯзиши мошинсозӣ дар Mail.ru Mail

Агар мо минбаъд шабакаро таълим диҳем, пас фазои метрии мо комилан тағир меёбад ва он бо пештара комилан номувофиқ мешавад. Ин мушкилоти ҷиддиест дар мушкилоте, ки векторҳоро истифода мебаранд. Барои рафъи ин мушкилот, мо дар давоми омӯзиш ба замимаҳои кӯҳна омехта мекунем.

Мо ба маҷмӯи омӯзиш маълумоти нав илова кардем ва версияи дуюми моделро аз сифр таълим медиҳем. Дар марҳилаи дуюм, мо минбаъд шабакаи худро меомӯзем (Finetuning): аввал қабати охирин ба итмом мерасад ва сипас тамоми шабака яхбандӣ карда мешавад. Дар ҷараёни эҷоди сегонаҳо мо танҳо як қисми ҷойгиркуниро бо истифода аз модели таълимшуда ҳисоб мекунем, боқимонда - бо истифода аз модели кӯҳна. Ҳамин тариқ, дар ҷараёни омӯзиши иловагӣ, мо мувофиқати фазои метрии v1 ва v2-ро таъмин мекунем. Варианти беназири танзими гармоникӣ.

Амали омӯзиши мошинсозӣ дар Mail.ru Mail

Тамоми меъморӣ

Агар мо тамоми системаро бо истифода аз антиспам ҳамчун намуна баррасӣ кунем, он гоҳ моделҳо ҷудо нестанд, балки дар дохили ҳамдигар ҷойгиранд. Мо тасвирҳо, матн ва дигар хусусиятҳоро мегирем, бо истифода аз CNN ва Fast Text мо ҷобаҷогузорӣ мекунем. Баъдан, дар болои ҷойгиркунӣ таснифҳо истифода мешаванд, ки холҳоро барои синфҳои гуногун таъмин мекунанд (намудҳои ҳарфҳо, спам, мавҷудияти логотип). Сигналхо ва нишонахо аллакай ба чангали дарахтон барои кабули карори охирин дохил мешаванд. Таснифкунандагони инфиродӣ дар ин схема имкон медиҳанд, ки натиҷаҳои система беҳтар тафсир карда шаванд ва мушаххастар ҷузъҳоро дар ҳолати мушкилот бозомӯзӣ кунанд, на ҳама маълумотро ба дарахтони қарорҳо дар шакли хом.

Амали омӯзиши мошинсозӣ дар Mail.ru Mail

Дар натиҷа, мо дар ҳама сатҳҳо пайвастагиро кафолат медиҳем. Дар сатҳи поёни CNN ва Fast Text мо регуляризатсияи гармоникро истифода мебарем, барои таснифкунандагони мобайн инчунин регуляризатсияи гармоникӣ ва калибровкаи суръатро барои мувофиқати тақсимоти эҳтимолият истифода мебарем. Хуб, афзоиш додани дарахт тадриҷан ё бо истифода аз Distillation Knowledge омӯзонида мешавад.

Умуман, нигоҳ доштани чунин системаи омӯзиши мошини лона одатан дардовар аст, зеро ҳама гуна ҷузъ дар сатҳи поёнӣ боиси навсозии тамоми системаи боло мегардад. Аммо азбаски дар танзимоти мо ҳар як ҷузъ каме тағир меёбад ва бо ҷузъи қаблӣ мувофиқ аст, тамоми системаро бе зарурати бозомӯзии тамоми сохтор порча ба қисм навсозӣ кардан мумкин аст, ки ин имкон медиҳад, ки он бидуни хароҷоти ҷиддӣ дастгирӣ карда шавад.

Ҷойгир кардан

Мо ҷамъоварии маълумот ва омӯзиши иловагии намудҳои гуногуни моделҳоро баррасӣ кардем, бинобар ин мо ба ҷойгиркунии онҳо дар муҳити истеҳсолӣ мегузарем.

Санҷиши A/B

Тавре ки ман қаблан гуфтам, дар ҷараёни ҷамъоварии маълумот, мо одатан намунаи ғаразнок мегирем, ки аз он баҳо додани нишондиҳандаҳои истеҳсолии модел ғайриимкон аст. Аз ин рӯ, ҳангоми ҷойгиркунӣ, моделро бо версияи қаблӣ муқоиса кардан лозим аст, то бифаҳмем, ки корҳо воқеан чӣ гуна идома доранд, яъне санҷишҳои A/B гузаронанд. Дар асл, раванди паҳн кардан ва таҳлили диаграммаҳо хеле муқаррарӣ аст ва онро ба осонӣ автоматӣ кардан мумкин аст. Мо моделҳои худро тадриҷан то 5%, 30%, 50% ва 100% корбарон паҳн мекунем, дар ҳоле ки ҳама ченакҳои мавҷударо оид ба посухҳои моделӣ ва фикру мулоҳизаҳои корбар ҷамъ меорем. Дар мавриди баъзе аз меъёрҳои ҷиддӣ, мо ба таври худкор моделро бармегардонем ва дар ҳолатҳои дигар, миқдори кофии кликҳои корбарро ҷамъ оварда, мо тасмим гирифтем, ки фоизро зиёд кунем. Дар натиҷа, мо модели навро ба 50% корбарон комилан ба таври худкор мерасонем ва паҳнкунӣ ба тамоми аудитория аз ҷониби шахс тасдиқ карда мешавад, гарчанде ки ин қадамро автоматӣ кардан мумкин аст.

Аммо, раванди санҷиши A/B барои оптимизатсия ҷой пешниҳод мекунад. Гап дар он аст, ки ҳама гуна санҷиши A/B хеле тӯлонӣ аст (дар ҳолати мо вобаста ба миқдори фикру мулоҳизаҳо аз 6 то 24 соат вақт мегирад), ки онро хеле гарон ва бо захираҳои маҳдуд месозад. Илова бар ин, фоизи ба таври кофӣ баланди ҷараён барои санҷиш барои аслан суръат бахшидан ба вақти умумии санҷиши A/B талаб карда мешавад (ҷалб кардани намунаи аз ҷиҳати оморӣ муҳим барои арзёбии ченакҳо бо фоизи кам метавонад вақти хеле дарозро талаб кунад), ки шумораи ҷойи A / B хеле маҳдуд. Равшан аст, ки мо бояд танҳо моделҳои умедбахшро санҷем, ки мо дар ҷараёни таълими иловагӣ хеле зиёд мегирем.

Барои ҳалли ин мушкилот, мо як таснифгари алоҳидаеро таълим додем, ки муваффақияти санҷиши A/B-ро пешгӯӣ мекунад. Барои ин, мо омори қабули қарорҳо, дақиқӣ, ёдоварӣ ва дигар ченакҳоро дар маҷмӯаи омӯзишӣ, ба таъхир гузошташуда ва намуна аз ҷараён ҳамчун хусусиятҳо мегирем. Мо инчунин моделро бо модели ҳозираи истеҳсолот, бо эвристика муқоиса мекунем ва Мушкилии моделро ба назар мегирем. Бо истифода аз ҳамаи ин хусусиятҳо, таснифоте, ки дар таърихи санҷиш омӯхта шудааст, моделҳои номзадҳоро арзёбӣ мекунад, дар ҳолати мо инҳо ҷангалҳои дарахтон мебошанд ва қарор медиҳанд, ки кадомашро дар санҷиши A/B истифода барад.

Амали омӯзиши мошинсозӣ дар Mail.ru Mail

Дар вақти татбиқ, ин равиш ба мо имкон дод, ки шумораи санҷишҳои муваффақи A/B-ро якчанд маротиба зиёд кунем.

Санҷиш ва мониторинг

Санҷиш ва мониторинг, аҷиб аст, ки ба саломатии мо зарар намерасонад, баръакс, онҳо онро беҳтар мекунанд ва моро аз стрессҳои нолозим раҳо мекунанд. Санҷиш ба шумо имкон медиҳад, ки нокомиро пешгирӣ кунед ва мониторинг ба шумо имкон медиҳад, ки онро сари вақт ошкор кунед, то таъсир ба корбаронро коҳиш диҳед.

Дар ин ҷо фаҳмидан муҳим аст, ки дер ё зуд системаи шумо ҳамеша хато мекунад - ин ба давраи таҳияи ҳама гуна нармафзор вобаста аст. Дар ибтидои таҳияи система ҳамеша хатогиҳои зиёде мавҷуданд, то ҳама чиз ҳал нашавад ва марҳилаи асосии навоварӣ ба анҷом расад. Аммо бо гузашти вақт, энтропия зарари худро мегирад ва хатогиҳо дубора пайдо мешаванд - аз сабаби таназзули ҷузъҳои гирду атроф ва тағирёбии маълумот, ки ман дар аввал дар бораи он гуфта будам.

Дар ин ҷо мехоҳам қайд намоям, ки ҳар як системаи омӯзиши мошинсозӣ бояд аз нуқтаи назари фоидааш дар тамоми давраи ҳаёташ баррасӣ карда шавад. Графикаи зер намунаеро нишон медиҳад, ки чӣ тавр система барои гирифтани як намуди нодир спам кор мекунад (хатти график ба сифр наздик аст). Як рӯз, аз сабаби як хусусияти кэш нодуруст, вай девона шуд. Тавре ки хушбахт буд, мониторинги триггерҳои ғайримуқаррарӣ вуҷуд надошт; дар натиҷа, система ба захира кардани номаҳо ба миқдори зиёд дар папкаи "спам" дар сарҳади қабули қарор оғоз кард. Бо ву-чуди ислохи окибатхо система аллакай он кадар ба хатохо рох дод, ки хатто дар давоми панч сол хам пули худро намедихад. Ва ин як нокомии комил аз нуқтаи назари давраи зиндагии модел аст.

Амали омӯзиши мошинсозӣ дар Mail.ru Mail

Аз ин рӯ, чунин як чизи оддӣ ба монанди мониторинг метавонад дар ҳаёти модел калидӣ гардад. Илова ба ченакҳои стандартӣ ва возеҳ, мо тақсимоти посухҳои моделӣ ва холҳо, инчунин тақсимоти арзишҳои асосии хусусиятҳоро баррасӣ мекунем. Бо истифода аз тафовути KL, мо метавонем тақсимоти ҷорӣро бо арзиши таърихӣ ё арзишҳои санҷиши A / B бо боқимондаи ҷараён муқоиса кунем, ки ба мо имкон медиҳад, ки аномалияҳоро дар модел мушоҳида кунем ва тағиротро сари вақт баргардонем.

Дар аксари ҳолатҳо, мо версияҳои аввалини системаҳои худро бо истифода аз эвристикаҳои оддӣ ё моделҳое, ки дар оянда ҳамчун мониторинг истифода мебарем, оғоз мекунем. Масалан, мо модели NER-ро дар муқоиса бо моделҳои муқаррарии мағозаҳои мушаххаси онлайн назорат мекунем ва агар фарогирии классификатор дар муқоиса бо онҳо коҳиш ёбад, мо сабабҳоро мефаҳмем. Истифодаи дигари муфиди эвристика!

Натиҷаҳо

Биёед бори дигар фикрҳои асосии мақоларо баррасӣ кунем.

  • Фибдек. Мо ҳамеша дар бораи корбар фикр мекунем: чӣ гуна ӯ бо хатогиҳои мо зиндагӣ мекунад, чӣ гуна метавонад дар бораи онҳо гузориш диҳад. Фаромӯш накунед, ки корбарон манбаи фикру мулоҳизаҳои холис барои моделҳои омӯзишӣ нестанд ва он бояд бо ёрии системаҳои ёрирасони ML тоза карда шавад. Агар аз корбар ҷамъ овардани сигнал ғайриимкон бошад, мо манбаъҳои алтернативии фикру мулоҳизаҳоро меҷӯем, масалан, системаҳои пайвастшуда.
  • Омӯзиши иловагӣ. Дар ин чо чизи асосй давомнокй аст, бинобар ин мо ба модели хозираи истехсолот такья мекунем. Мо моделҳои навро меомӯзем, то онҳо аз модели қаблӣ аз ҳисоби танзими гармонӣ ва ҳилаҳои ба ин монанд фарқ накунанд.
  • Ҷойгир кардан. Ҷойгиркунии худкор дар асоси ченакҳо вақти татбиқи моделҳоро хеле кам мекунад. Мониторинги омор ва тақсимоти қабули қарорҳо, шумораи афтидан аз корбарон барои хоби ором ва рӯзҳои истироҳати пурмаҳсули шумо ҳатмист.

Хуб, ман умедворам, ки ин ба шумо кӯмак мекунад, ки системаҳои ML-и худро тезтар такмил диҳед, онҳоро зудтар ба бозор гиред ва онҳоро боэътимодтар ва камтар стресс гардонед.

Манбаъ: will.com

Илова Эзоҳ