Синергия дар маҷмӯъ як чизи хеле муфид аст ва дар ҷаҳони муосир, вақте ки технологияҳо ва тамоюлҳо хеле зуд тағир меёбанд, он метавонад ба наҷотдиҳанда табдил ёбад. Чаро барои ихтироъ кардани чизе, ки аллакай ихтироъ шудааст ва дар пеши назари шумо оварда шудааст, захираҳои камёб ва вақтро сарф мекунед?
Вақте ки мо бо вазифаи пурраи модератсияи мундариҷаи корбар - тасвирҳо, матн ва истинодҳо рӯбарӯ шудем, ҳамин чизро фикр мекардем. Корбарони мо ҳар рӯз ба Юла миллионҳо мундариҷаро бор мекунанд ва бидуни коркарди автоматӣ ба таври дастӣ танзим кардани ҳамаи ин маълумот комилан ғайриимкон аст.
Аз ин рӯ, мо як платформаи модератории тайёрро истифода бурдем, ки то он вақт ҳамкорони мо аз Одноклассники онро ба ҳолати "қариб мукаммал" ба анҷом расониданд.
Чаро Одноклассники?
Ҳар рӯз даҳҳо миллион корбарон ба шабакаи иҷтимоӣ меоянд ва миллиардҳо мундариҷаро нашр мекунанд: аз аксҳо то видеоҳо ва матнҳо. Платформаи модератории Одноклассники барои тафтиш кардани ҳаҷми хеле зиёди маълумот ва муқобила бо спаммерҳо ва ботҳо кӯмак мекунад.
Дастаи модератори OK таҷрибаи зиёде ҷамъ кардааст, зеро он 12 сол боз асбоби худро такмил медиҳад. Муҳим аст, ки онҳо на танҳо қарорҳои омодаи худро мубодила кунанд, балки меъмории платформаи худро мувофиқи вазифаҳои мушаххаси мо мутобиқ созанд.
Мубодилаи маълумот байни Юла ва Одноклассники тавассути Апач Кафка.
Чаро мо ин асбобро интихоб кардем:
Дар Юла, ҳама таблиғҳо пас аз модератсия карда мешаванд, бинобар ин дар аввал посухи синхронӣ талаб карда намешуд.
Агар параграфи бад рӯй диҳад ва Юла ё Одноклассники дастрас набошад, аз он ҷумла аз сабаби сарбории баланд, пас маълумот аз Кафка дар ҳеҷ ҷо нопадид намешавад ва баъдтар хондан мумкин аст.
Платформа аллакай бо Кафка ҳамгиро шуда буд, аз ин рӯ аксари масъалаҳои амниятӣ ҳал карда шуданд.
Барои ҳар як таблиғе, ки аз ҷониби корбар дар Юла сохта ё тағир дода шудааст, JSON бо маълумот тавлид мешавад, ки барои модератсияи минбаъда дар Кафка ҷойгир карда мешавад. Аз Кафка, эълонҳо ба платформа бор карда мешаванд, ки дар он ҷо онҳо ба таври худкор ё дастӣ ҳал карда мешаванд. Рекламаҳои бад бо як сабаб баста мешаванд ва онҳое, ки дар онҳо платформа вайронкуниро намебинад, ҳамчун "хуб" қайд карда мешавад. Сипас ҳама қарорҳо ба Юла фиристода мешаванд ва дар хидмат татбиқ карда мешаванд.
Пас аз ворид шудан ба платформа бо таблиғ чӣ мешавад? Ҳар як таблиғ ба якчанд объектҳо тақсим мешавад:
ном,
тавсиф
аксҳо,
категория ва зеркатегорияи рекламаи аз ҷониби корбар интихобшуда,
нарх
Платформа пас аз он барои ҳар як объект барои ёфтани нусхаҳои такрорӣ гурӯҳбандӣ мекунад. Ғайр аз он, матн ва аксҳо аз рӯи схемаҳои гуногун гурӯҳбандӣ карда мешаванд.
Пеш аз кластер, матнҳо барои нест кардани аломатҳои махсус, ҳарфҳои ивазшуда ва дигар партовҳо муқаррар карда мешаванд. Маълумоти гирифташуда ба N-граммҳо тақсим карда мешавад, ки ҳар яки онҳо ҳаш карда мешаванд. Дар натиҷа бисёр hashe беназир аст. Монандии байни матнҳо аз ҷониби муайян карда мешавад ченаки Жаккард байни ду маҷмӯи натиҷа. Агар монандӣ аз ҳадди ниҳоӣ зиёд бошад, пас матнҳо ба як кластер муттаҳид карда мешаванд. Барои суръат бахшидан ба ҷустуҷӯи кластерҳои шабеҳ, хэшингҳои MinHash ва Locality ҳассос истифода мешаванд.
Имкониятҳои гуногуни часпак кардани тасвирҳо барои аксҳо ихтироъ карда шудаанд, аз муқоисаи тасвирҳои pHash то ҷустуҷӯи такрорӣ бо истифода аз шабакаи нейрон.
Усули охирин «сахттарин» аст. Барои таълим додани модел сегонаҳои тасвирҳо (N, A, P) интихоб карда шуданд, ки дар онҳо N ба А шабоҳат надорад ва P ба А шабоҳат дорад (нимдубликат аст). Сипас шабакаи нейрон омӯхтааст, ки A ва P-ро то ҳадди имкон наздик созанд ва A ва N -ро то ҳадди имкон наздик созанд. Ин боиси камтар мусбатҳои бардурӯғ дар муқоиса бо танҳо гирифтани ҷойгиркунӣ аз шабакаи қаблан омодашуда мегардад.
Вақте ки шабакаи нейронӣ тасвирҳоро ҳамчун вуруд қабул мекунад, барои ҳар яки онҳо вектори N(128)-ченака тавлид мекунад ва барои арзёбии наздикии тасвир дархост дода мешавад. Баъдан, ҳадди ниҳоӣ ҳисоб карда мешавад, ки дар он тасвирҳои наздик такрорӣ ҳисобида мешаванд.
Модел қодир аст, ки спаммерҳоро моҳирона пайдо кунад, ки ба таври махсус як маҳсулотро аз паҳлӯҳои гуногун аксбардорӣ мекунанд, то муқоисаи pHash-ро гузаранд.
Дар марҳилаи ниҳоӣ таблиғоти такрорӣ ҳамзамон аз рӯи матн ва тасвир ҷустуҷӯ карда мешаванд.
Агар ду ё зиёда таблиғот дар кластер бо ҳам часпида шаванд, система бастани автоматиро оғоз мекунад, ки бо истифода аз алгоритмҳои муайян кадом нусхаҳоро нест кардан ва кадомашро тарк кардан интихоб мекунад. Масалан, агар ду корбар дар як таблиғ аксҳои якхела дошта бошанд, система таблиғоти навтаринро маҳкам мекунад.
Пас аз эҷод, ҳама кластерҳо аз як қатор филтрҳои автоматӣ мегузаранд. Ҳар як филтр ба кластер хол таъин мекунад: то чӣ андоза эҳтимолияти он хатареро дар бар мегирад, ки ин филтр муайян мекунад.
Масалан, система тавсифи таблиғро таҳлил мекунад ва категорияҳои эҳтимолиро барои он интихоб мекунад. Сипас он якеро, ки эҳтимолияти ҳадди аксар дорад, мегирад ва онро бо категорияи муайянкардаи муаллифи эълон муқоиса мекунад. Агар онҳо мувофиқат накунанд, таблиғ барои категорияи нодуруст баста мешавад. Ва азбаски мо меҳрубон ва ростқавл ҳастем, мо бевосита ба корбар мегӯем, ки ӯ бояд кадом категорияро интихоб кунад, то таблиғ аз модератсия гузарад.
Огоҳӣ дар бораи бастани категорияи нодуруст.
Омӯзиши мошинсозӣ дар платформаи мо худро дар хона ҳис мекунад. Масалан, бо ёрии он мо дар ном ва тавсифи молҳое, ки дар Федератсияи Русия манъ карда шудаанд, ҷустуҷӯ мекунем. Ва моделҳои шабакаи нейронӣ тасвирҳоро бодиққат "тафтиш" мекунанд, то бубинанд, ки оё онҳо URL-ҳо, матнҳои спам, рақамҳои телефон ва ҳамон як маълумоти "манъ" доранд.
Барои ҳолатҳое, ки онҳо кӯшиш мекунанд, ки маҳсулоти мамнӯъшударо ба сифати чизи қонунӣ пинҳон кунанд ва дар унвон ё тавсиф ягон матн мавҷуд набошад, мо нишонгузории тасвирро истифода мебарем. Барои ҳар як тасвир то 11 ҳазор тегҳои гуногунро илова кардан мумкин аст, ки он чиро дар тасвир тасвир мекунанд.
Огоҳӣ дар бораи он, ки фурӯшанда маҳсулоти нав дорад.
Дар натиҷа, ҳар як таблиғ бо метамаълумотҳо "зиёд" мешавад, ки як қисми онҳо ҳангоми эҷоди таблиғ тавлид мешаванд (суроғаи IP-и муаллиф, корбар-агент, платформа, ҷойгиршавии ҷуғрофӣ ва ғайра) ва боқимонда холест, ки ҳар як филтр додааст. .
Навбатҳои эълонҳо
Вақте ки таблиғ ба платформа ворид мешавад, система онро дар яке аз навбатҳо мегузорад. Ҳар як навбат бо истифода аз формулаи математикӣ сохта мешавад, ки метамаълумоти таблиғро тавре муттаҳид мекунад, ки ҳама гуна намунаҳои бадро ошкор кунад.
Масалан, шумо метавонед як қатор таблиғҳоро дар категорияи "Телефонҳои мобилӣ" аз корбарони Юла гӯё аз Санкт-Петербург эҷод кунед, аммо суроғаҳои IP-и онҳо аз Маскав ё дигар шаҳрҳо мебошанд.
Намунаи таблиғоти аз ҷониби як корбар дар шаҳрҳои гуногун нашршуда.
Ё шумо метавонед дар асоси холҳое, ки шабакаи нейронӣ ба таблиғҳо таъин мекунад, навбатҳо ташкил кунед ва онҳоро бо тартиби камшавӣ ҷойгир кунед.
Ҳар як навбат мувофиқи формулаи худ ба таблиғ холҳои ниҳоӣ мегузорад. Пас шумо метавонед бо роҳҳои гуногун идома диҳед:
остонаеро муайян кунед, ки дар он таблиғ намуди муайяни блокро қабул мекунад;
Агар платформа дар бораи баъзе таблиғот қарор қабул карда натавонад, он онҳоро барои модератсияи дастӣ мефиристад. Одноклассники асбоби худро таҳия кардааст: вазифаҳои модераторҳо фавран ҳама маълумоти заруриро барои қабули қарори зуд намоиш медиҳанд - таблиғ мувофиқ аст ё бояд бо нишон додани сабаб баста шавад.
Ва барои он ки сифати хизматрасонӣ ҳангоми модератсияи дастӣ паст нашавад, кори одамон пайваста назорат карда мешавад. Масалан, дар ҷараёни вазифаҳо ба модератор "домҳо" нишон дода мешавад - таблиғҳое, ки барои онҳо аллакай ҳалли омода мавҷуданд. Агар қарори модератор бо қарори анҷомшуда мувофиқат накунад, ба модератор хатогӣ дода мешавад.
Ба ҳисоби миёна, модератор барои тафтиши як таблиғ 10 сония сарф мекунад. Ғайр аз он, шумораи хатогиҳо на бештар аз 0,5% аз ҳама таблиғоти тасдиқшударо ташкил медиҳад.
Модарияти мардум
Ҳамкасбон аз Одноклассники боз ҳам пештар рафтанд ва аз “кӯмаки шунавандагон” истифода бурданд: онҳо як барномаи бозӣ барои шабакаи иҷтимоӣ навиштанд, ки дар он шумо метавонед миқдори зиёди маълумотро зуд қайд карда, аломати бадро қайд кунед - Модератори Одноклассники (https://ok.ru/app/moderator). Як роҳи хуби истифода аз кӯмаки корбарони OK, ки кӯшиш мекунанд мундариҷаро ҷолибтар созанд.
Бозӣ, ки дар он корбарон аксҳоеро нишон медиҳанд, ки рақами телефон доранд.
Мо ҳама қарорҳои дар давоми модератор қабулшударо нигоҳ медорем, то он таблиғҳоеро, ки аллакай дар бораи онҳо қарор қабул кардаем, дубора коркард накунем.
Миллионҳо кластерҳо ҳар рӯз дар асоси таблиғот таъсис дода мешаванд. Бо мурури замон, ҳар як кластер "хуб" ё "бад" нишон дода мешавад. Ҳар як таблиғи нав ё таҷдиди он, ки ба кластер бо аломат ворид мешавад, ба таври худкор аз худи кластер қарор қабул мекунад. Дар як шабонаруз кариб 20 хазор чунин резолюцияхои автоматй мавчуданд.
Агар ба кластер ягон эълони нав нарасад, он аз хотира хориҷ карда мешавад ва хэш ва ҳалли он ба Apache Cassandra навишта мешавад.
Вақте ки платформа таблиғи нав мегирад, он аввал мекӯшад, ки кластери шабеҳро дар байни онҳое, ки аллакай сохта шудаанд, пайдо кунад ва аз он ҳалли худро гирад. Агар чунин кластер вуҷуд надошта бошад, платформа ба Кассандра меравад ва он ҷо назар мекунад. Оё шумо онро ёфтед? Бузург, ҳалли худро ба кластер татбиқ мекунад ва онро ба Юла мефиристад. Хар руз ба хисоби миёна 70 хазор чунин карорхои «такрор» — 8 фоизи шумораи умумй.
Барои ҷамъбаст кардан
Мо дувуним сол боз аз платформаи модератории Одноклассники истифода мебарем. Ба мо натиҷаҳо маъқуланд: