Как модерираме реклами

Как модерираме реклами

Всяка услуга, чиито потребители могат да създават собствено съдържание (UGC - User-generated content), е принудена не само да решава бизнес проблеми, но и да подрежда нещата в UGC. Лошото или нискокачествено модериране на съдържание може в крайна сметка да намали привлекателността на услугата за потребителите, дори да прекрати нейната работа.

Днес ще ви разкажем за синергията между Yula и Odnoklassniki, която ни помага ефективно да модерираме реклами в Yula.

Синергията като цяло е много полезно нещо, а в съвременния свят, когато технологиите и тенденциите се променят много бързо, тя може да се превърне в спасителна. Защо да хабите оскъдните ресурси и време, за да изобретите нещо, което вече е измислено и напомнено преди вас?

Мислехме същото, когато бяхме изправени пред пълната задача да модерираме потребителско съдържание - снимки, текст и връзки. Нашите потребители качват милиони парчета съдържание в Yula всеки ден и без автоматична обработка е напълно невъзможно да модерирате всички тези данни ръчно.

Затова използвахме готова платформа за модериране, която по това време нашите колеги от Odnoklassniki бяха завършили до състояние на „почти съвършенство“.

Защо Odnoklassniki?

Всеки ден десетки милиони потребители идват в социалната мрежа и публикуват милиарди парчета съдържание: от снимки до видеоклипове и текстове. Платформата за модериране на Odnoklassniki помага да се проверяват много големи обеми данни и да се противодейства на спамерите и ботовете.

Екипът за модериране на OK е натрупал много опит, тъй като подобрява своя инструмент в продължение на 12 години. Важно е те не само да споделят своите готови решения, но и да персонализират архитектурата на своята платформа, за да отговарят на нашите конкретни задачи.

Как модерираме реклами

Отсега нататък, за краткост, ще наричаме платформата за модериране OK просто „платформа“.

Как работи всичко

Обменът на данни между Yula и Odnoklassniki се установява чрез Апачи Кафка.

Защо избрахме този инструмент:

  • В Yula всички реклами са постмодерирани, така че първоначално не се изискваше синхронен отговор.
  • Ако се случи лош параграф и Yula или Odnoklassniki са недостъпни, включително поради някои пикови натоварвания, тогава данните от Kafka няма да изчезнат никъде и могат да бъдат прочетени по-късно.
  • Платформата вече беше интегрирана с Kafka, така че повечето проблеми със сигурността бяха разрешени.

Как модерираме реклами

За всяка реклама, създадена или модифицирана от потребителя в Yula, се генерира JSON с данни, които се поставят в Kafka за последващо модериране. От Kafka обявите се зареждат в платформата, където се оценяват автоматично или ръчно. Лошите реклами се блокират с причина, а тези, в които платформата не открие нарушения, се маркират като „добри“. След това всички решения се изпращат обратно на Юла и се прилагат в услугата.

В крайна сметка за Юла всичко се свежда до прости действия: изпращане на реклама до платформата Odnoklassniki и получаване на резолюция „добре“ или защо не „добре“.

Автоматична обработка

Какво се случва с рекламата, след като влезе в платформата? Всяка реклама е разделена на няколко обекта:

  • Име,
  • описание,
  • снимки,
  • избрана от потребителя категория и подкатегория на рекламата,
  • цена.

Как модерираме реклами

След това платформата извършва групиране за всеки обект, за да намери дубликати. Освен това текстът и снимките са групирани по различни схеми.

Преди клъстерирането текстовете се нормализират, за да се премахнат специални знаци, променени букви и други боклуци. Получените данни се разделят на N-грама, всяка от които се хешира. Резултатът е много уникални хешове. Сходството между текстовете се определя от Мярката на Жакард между двата получени комплекта. Ако приликата е по-голяма от прага, тогава текстовете се обединяват в един клъстер. За да се ускори търсенето на подобни клъстери, се използват MinHash и хеширане, чувствително към местоположението.

За снимки са измислени различни опции за залепване на изображения, от сравняване на pHash снимки до търсене на дубликати с помощта на невронна мрежа.

Последният метод е най-тежкият. За да се обучи моделът, бяха избрани триплети изображения (N, A, P), в които N не е подобно на A, а P е подобно на A (е полу-дубликат). След това невронната мрежа се научи да прави A и P възможно най-близо, а A и N възможно най-далеч. Това води до по-малко фалшиви положителни резултати в сравнение с простото вземане на вграждания от предварително обучена мрежа.

Когато невронната мрежа получи изображения като вход, тя генерира N(128)-измерен вектор за всяко от тях и се прави заявка за оценка на близостта на изображението. След това се изчислява праг, при който близки изображения се считат за дубликати.

Моделът е в състояние умело да намира спамери, които специално снимат един и същ продукт от различни ъгли, за да заобиколят сравнението на pHash.

Как модерираме рекламиКак модерираме реклами
Пример за спам снимки, залепени заедно от невронна мрежа като дубликати.

На последния етап дублиращите се реклами се търсят едновременно по текст и изображение.

Ако две или повече реклами са слепени в клъстер, системата започва автоматично блокиране, което чрез определени алгоритми избира кои дубликати да изтрие и кои да остави. Например, ако двама потребители имат еднакви снимки в реклама, системата ще блокира по-скорошната реклама.

Веднъж създадени, всички клъстери преминават през поредица от автоматични филтри. Всеки филтър присвоява резултат на клъстера: колко вероятно е той да съдържа заплахата, която този филтър идентифицира.

Например, системата анализира описанието в реклама и избира потенциални категории за нея. След това взема тази с максимална вероятност и я сравнява с категорията, посочена от автора на рекламата. Ако не съвпадат, рекламата се блокира за грешната категория. И тъй като сме любезни и честни, ние директно казваме на потребителя коя категория трябва да избере, за да може рекламата да премине модериране.

Как модерираме реклами
Известие за блокиране за неправилна категория.

Машинното обучение се чувства като у дома си в нашата платформа. Например с негова помощ търсим в имената и описанията на стоки, забранени в Руската федерация. И моделите на невронни мрежи щателно „проучват“ изображенията, за да видят дали съдържат URL адреси, спам текстове, телефонни номера и същата „забранена“ информация.

За случаите, в които се опитват да продадат забранен продукт, маскиран като нещо законно, и няма текст нито в заглавието, нито в описанието, ние използваме маркиране на изображения. За всяко изображение могат да се добавят до 11 хиляди различни етикета, които описват какво има в изображението.

Как модерираме реклами
Те се опитват да продадат наргилето, като го маскират като самовар.

Паралелно със сложните филтри работят и прости, решавайки очевидни проблеми, свързани с текста:

  • антимат;
  • Детектор на URL и телефонни номера;
  • споменаване на месинджъри и други контакти;
  • намалена цена;
  • обяви, в които нищо не се продава и др.

Днес всяка реклама преминава през фино сито от повече от 50 автоматични филтъра, които се опитват да намерят нещо лошо в рекламата.

Ако нито един от детекторите не работи, тогава на Юла се изпраща отговор, че рекламата е „най-вероятно“ в идеален ред. Ние сами използваме този отговор и потребителите, които са се абонирали за продавача, получават известие за наличността на нов продукт.

Как модерираме реклами
Известие, че продавачът има нов продукт.

В резултат на това всяка реклама е „обрасла“ с метаданни, някои от които се генерират при създаването на рекламата (IP адрес на автора, потребителски агент, платформа, геолокация и т.н.), а останалата част е резултатът, издаден от всеки филтър .

Опашки за обявяване

Когато реклама попадне в платформата, системата я поставя в една от опашките. Всяка опашка се създава с помощта на математическа формула, която комбинира рекламни метаданни по начин, който открива всякакви лоши модели.

Например, можете да създадете опашка от реклами в категорията „Мобилни телефони“ от потребители на Yula, за които се предполага, че са от Санкт Петербург, но техните IP адреси са от Москва или други градове.

Как модерираме реклами
Пример за реклами, публикувани от един потребител в различни градове.

Или можете да формирате опашки въз основа на оценките, които невронната мрежа присвоява на рекламите, като ги подреждате в низходящ ред.

Всяка опашка, според собствена формула, присвоява крайна оценка на рекламата. След това можете да продължите по различни начини:

  • посочете прага, при който дадена реклама ще получи определен тип блокиране;
  • изпращайте всички реклами в опашката на модераторите за ръчен преглед;
  • или комбинирайте предишните опции: посочете прага за автоматично блокиране и изпратете на модераторите тези реклами, които не са достигнали този праг.

Как модерираме реклами

Защо са необходими тези опашки? Да приемем, че потребител е качил снимка на огнестрелно оръжие. Невронната мрежа му дава оценка от 95 до 100 и определя с 99 процента точност, че на снимката има оръжие. Но ако стойността на резултата е под 95%, точността на модела започва да намалява (това е характеристика на моделите на невронни мрежи).

В резултат на това се формира опашка въз основа на модела на резултата и онези реклами, които са получили между 95 и 100, автоматично се блокират като „Забранени продукти“. Реклами с резултат под 95 се изпращат на модераторите за ръчна обработка.

Как модерираме реклами
Шоколадова Берета с патрони. Само за ръчно модериране! 🙂

Ръчно модериране

В началото на 2019 г. около 94% от всички реклами в Yula се модерират автоматично.

Как модерираме реклами

Ако платформата не може да вземе решение за някои реклами, тя ги изпраща за ръчно модериране. Odnoklassniki разработиха свой собствен инструмент: задачите за модераторите незабавно показват цялата необходима информация за вземане на бързо решение - рекламата е подходяща или трябва да бъде блокирана, като се посочва причината.

И за да не пострада качеството на услугата по време на ръчно модериране, работата на хората се наблюдава постоянно. Например в потока на задачите на модератора се показват „капани“ - реклами, за които вече има готови решения. Ако решението на модератора не съвпада с готовото, модераторът получава грешка.

Средно един модератор прекарва 10 секунди в проверка на една реклама. Освен това броят на грешките е не повече от 0,5% от всички проверени реклами.

Умереността на хората

Колегите от Odnoklassniki отидоха още по-далеч и се възползваха от „помощта на публиката“: те написаха приложение за игра за социалната мрежа, в която можете бързо да маркирате голямо количество данни, подчертавайки някакъв лош знак - Odnoklassniki Moderator (https://ok.ru/app/moderator). Добър начин да се възползвате от помощта на потребителите на OK, които се опитват да направят съдържанието по-приятно.

Как модерираме реклами
Игра, в която потребителите отбелязват снимки, върху които има телефонен номер.

Всяка опашка от реклами в платформата може да бъде пренасочена към играта Odnoklassniki Moderator. Всичко, което потребителите на играта маркират, след това се изпраща на вътрешни модератори за преглед. Тази схема ви позволява да блокирате реклами, за които все още не са създадени филтри, и едновременно с това да създавате обучителни проби.

Съхраняване на резултатите от модерирането

Ние запазваме всички решения, взети по време на модерирането, така че да не обработваме повторно тези реклами, за които вече сме взели решение.

Всеки ден въз основа на реклами се създават милиони клъстери. С течение на времето всеки клъстер е етикетиран като "добър" или "лош". Всяка нова реклама или нейна редакция, влизайки в клъстер с маркировка, автоматично получава разрешение от самия клъстер. Има около 20 хиляди такива автоматични резолюции на ден.

Как модерираме реклами

Ако в клъстера не пристигнат нови съобщения, той се премахва от паметта и неговият хеш и решение се записват в Apache Cassandra.

Когато платформата получи нова реклама, тя първо се опитва да намери подобен клъстер сред вече създадените и да вземе решение от него. Ако няма такъв клъстер, платформата отива до Касандра и търси там. Намери ли го? Страхотно, прилага решението към клъстера и го изпраща на Юла. Всеки ден има средно 70 хиляди такива „повтарящи се“ решения – 8% от общия брой.

Резюмиране

Използваме платформата за модериране на Odnoklassniki от две години и половина. Харесваме резултатите:

  • Ние автоматично модерираме 94% от всички реклами на ден.
  • Разходите за модериране на една реклама бяха намалени от 2 рубли на 7 копейки.
  • Благодарение на готовия инструмент забравихме за проблемите с управлението на модераторите.
  • Увеличихме броя на ръчно обработените реклами с 2,5 пъти със същия брой модератори и бюджет. Качеството на ръчното модериране също се е увеличило поради автоматизирания контрол и варира около 0,5% от грешките.
  • Ние бързо покриваме нови видове спам с филтри.
  • Ние бързо свързваме нови отдели към модериране "Вертикали Юла". От 2017 г. Yula добави вертикалите Недвижими имоти, Свободни работни места и Авто.

Източник: www.habr.com

Добавяне на нов коментар