Жарнамаларды қалай модерациялаймыз

Жарнамаларды қалай модерациялаймыз

Пайдаланушылары өз мазмұнын жасай алатын әрбір қызмет (UGC - Пайдаланушы жасаған мазмұн) бизнес мәселелерін шешуге ғана емес, сонымен қатар UGC-де заттарды ретке келтіруге мәжбүр. Нашар немесе сапасыз мазмұнды модерациялау, сайып келгенде, қызметтің пайдаланушылар үшін тартымдылығын төмендетуі мүмкін, тіпті оның жұмысын тоқтатады.

Бүгін біз Юла мен Одноклассники арасындағы синергия туралы айтып береміз, ол бізге Юладағы жарнамаларды тиімді реттеуге көмектеседі.

Жалпы синергия - бұл өте пайдалы нәрсе және заманауи әлемде технологиялар мен трендтер өте тез өзгеретін кезде, ол құтқарушыға айналуы мүмкін. Неліктен бұрыннан ойлап табылған және сіздің алдыңызда ойға келген нәрсені ойлап табу үшін тапшы ресурстар мен уақытты ысырап ету керек?

Біз пайдаланушы мазмұнын модерациялаудың толық міндетіне тап болған кезде де ойладық - суреттер, мәтін және сілтемелер. Біздің пайдаланушылар күн сайын Юлаға миллиондаған мазмұнды жүктейді және автоматты өңдеусіз бұл деректерді қолмен реттеу мүмкін емес.

Сондықтан біз дайын модерация платформасын қолдандық, ол кезде біздің Одноклассникидегі әріптестеріміз «дерлік кемелдік» күйіне дейін аяқтады.

Неліктен Одноклассники?

Күн сайын ондаған миллион пайдаланушылар әлеуметтік желіге келіп, миллиардтаған мазмұнды жариялайды: фотосуреттерден бейнелер мен мәтіндерге дейін. Одноклассники модерация платформасы деректердің өте үлкен көлемін тексеруге және спамерлер мен боттарға қарсы тұруға көмектеседі.

OK модераторлық командасы 12 жыл бойы өз құралын жетілдіріп келе жатқандықтан, көп тәжірибе жинақтады. Олардың дайын шешімдерімен бөлісіп қана қоймай, платформасының архитектурасын біздің нақты тапсырмаларымызға сәйкес реттей алуы маңызды.

Жарнамаларды қалай модерациялаймыз

Енді қысқаша айтқанда, біз OK модерация платформасын «платформа» деп атаймыз.

Мұның бәрі қалай жұмыс істейді

Юла мен Одноклассники арасындағы деректер алмасу арқылы жолға қойылған Apache Kafka.

Неліктен біз бұл құралды таңдадық:

  • Юлада барлық жарнамалар пост-модерацияланған, сондықтан бастапқыда синхронды жауап талап етілмеді.
  • Егер нашар абзац орын алса және Yula немесе Odnoklassniki қолжетімсіз болса, соның ішінде ең жоғары жүктемеге байланысты, Кафка деректері еш жерде жоғалып кетпейді және кейінірек оқуға болады.
  • Платформа Кафкамен біріктірілген, сондықтан қауіпсіздік мәселелерінің көпшілігі шешілді.

Жарнамаларды қалай модерациялаймыз

Юладағы пайдаланушы жасаған немесе өзгерткен әрбір хабарландыру үшін деректері бар JSON жасалады, ол кейінгі модерация үшін Кафкаға орналастырылады. Кафкадан хабарландырулар платформаға жүктеледі, онда олар автоматты түрде немесе қолмен шешіледі. Нашар жарнамалар себеппен бұғатталған, ал платформа бұзушылықтарды таппағандары «жақсы» деп белгіленеді. Содан кейін барлық шешімдер Юлаға қайтарылады және қызметте қолданылады.

Сайып келгенде, Юла үшін бәрі қарапайым әрекеттерге байланысты: Одноклассники платформасына хабарландыру жіберіп, «жарайды» деген шешімді қайтарыңыз немесе неге «жарайды» емес.

Автоматты өңдеу

Жарнама платформаға түскеннен кейін не болады? Әрбір жарнама бірнеше нысанға бөлінеді:

  • аты,
  • сипаттамасы
  • фотосуреттер,
  • пайдаланушы таңдаған санат пен жарнаманың ішкі санаты,
  • баға.

Жарнамаларды қалай модерациялаймыз

Содан кейін платформа көшірмелерді табу үшін әрбір нысан үшін кластерлеуді орындайды. Сонымен қатар, мәтін мен фотосуреттер әртүрлі схемалар бойынша топтастырылған.

Кластерлеу алдында мәтіндер арнайы таңбаларды, өзгертілген әріптерді және басқа қоқысты жою үшін қалыпқа келтіріледі. Алынған деректер N-грамға бөлінеді, олардың әрқайсысы хэштелген. Нәтиже – көптеген бірегей хэштер. Мәтіндер арасындағы ұқсастық анықталады Жаккард өлшемі алынған екі жиынтық арасында. Егер ұқсастық шекті мәннен жоғары болса, онда мәтіндер бір кластерге біріктіріледі. Ұқсас кластерлерді іздеуді жылдамдату үшін MinHash және Locality-сезімтал хэштеу қолданылады.

Фотосуреттер үшін pHash суреттерін салыстырудан бастап нейрондық желі арқылы көшірмелерді іздеуге дейін кескіндерді желімдеудің әртүрлі нұсқалары ойлап табылды.

Соңғы әдіс ең «ауыр» болып табылады. Модельді жаттықтыру үшін N кескіні А-ға ұқсамайтын, ал P-і А-ға ұқсас (жартылай көшірме) кескіндердің үштіктері (N, A, P) таңдалды. Содан кейін нейрондық желі А мен Р мүмкіндігінше жақын, ал А мен Н мүмкіндігінше жақын етуді үйренді. Бұл алдын ала дайындалған желіден ендірулерді алумен салыстырғанда жалған позитивтердің аз болуына әкеледі.

Нейрондық желі кескіндерді кіріс ретінде қабылдағанда, олардың әрқайсысы үшін N(128) өлшемді векторды жасайды және кескіннің жақындығын бағалауға сұраныс жасалады. Әрі қарай, жақын суреттер көшірме болып саналатын шек есептеледі.

Модель pHash салыстыруын айналып өту үшін бір өнімді әртүрлі бұрыштардан арнайы суретке түсіретін спамерлерді шебер таба алады.

Жарнамаларды қалай модерациялаймызЖарнамаларды қалай модерациялаймыз
Нейрондық желі арқылы көшірме ретінде желімделген спам фотосуреттерінің мысалы.

Соңғы кезеңде қайталанатын жарнамалар бір уақытта мәтін бойынша да, сурет бойынша да ізделеді.

Кластерде екі немесе одан да көп жарнамалар бір-біріне жабысып қалса, жүйе автоматты блоктауды бастайды, ол белгілі бір алгоритмдерді пайдалана отырып, қай көшірмелерді жою және қайсысын қалдыру керектігін таңдайды. Мысалы, егер екі пайдаланушының жарнамада бірдей фотосуреттері болса, жүйе соңғы жарнаманы бұғаттайды.

Жасалғаннан кейін барлық кластерлер автоматты сүзгілер сериясынан өтеді. Әрбір сүзгі кластерге балл тағайындайды: оның құрамында осы сүзгі анықтайтын қауіптің болуы қаншалықты ықтимал.

Мысалы, жүйе жарнамадағы сипаттаманы талдайды және ол үшін ықтимал санаттарды таңдайды. Содан кейін ол ең жоғары ықтималдықты алып, оны жарнама авторы көрсеткен санатпен салыстырады. Егер олар сәйкес келмесе, жарнама қате санат үшін блокталады. Біз мейірімді және адал болғандықтан, жарнама модерациядан өтуі үшін пайдаланушыға қай санатты таңдау керектігін тікелей айтамыз.

Жарнамаларды қалай модерациялаймыз
Қате санат үшін блоктау туралы хабарлама.

Біздің платформада машиналық оқыту өзін үйде сезінеді. Мысалы, оның көмегімен біз Ресей Федерациясында тыйым салынған тауарлардың атаулары мен сипаттамаларын іздейміз. Ал нейрондық желінің үлгілері суреттерді олардың URL мекенжайлары, спам мәтіндері, телефон нөмірлері және бірдей «тыйым салынған» ақпарат бар-жоғын білу үшін мұқият «тексереді».

Заңды нәрсе ретінде жасырылған тыйым салынған өнімді сатуға тырысқан және тақырыпта немесе сипаттамада мәтін болмаған жағдайда біз суретті тегтеуді қолданамыз. Әрбір сурет үшін суретте не бар екенін сипаттайтын 11 мыңға дейін әртүрлі тегтерді қосуға болады.

Жарнамаларды қалай модерациялаймыз
Олар кальянды самауыр атын жамылып сатпақшы.

Күрделі сүзгілермен қатар қарапайым сүзгілер де жұмыс істейді, мәтінге қатысты айқын мәселелерді шешеді:

  • антимат;
  • URL және телефон нөмірі детекторы;
  • жедел хабаршылар мен басқа контактілерді атап өту;
  • төмендетілген баға;
  • ешнәрсе сатылмайтын жарнамалар және т.б.

Бүгінгі күні әрбір хабарландыру 50-ден астам автоматты сүзгілерден тұрады, олар жарнамадан жаман нәрсені табуға тырысады.

Егер детекторлардың ешқайсысы жұмыс істемесе, Юлаға хабарландыру «ең алдымен» тамаша тәртіпте екендігі туралы жауап жіберіледі. Біз бұл жауапты өзіміз пайдаланамыз және сатушыға жазылған пайдаланушылар жаңа өнімнің бар екендігі туралы хабарлама алады.

Жарнамаларды қалай модерациялаймыз
Сатушыда жаңа өнім бар екендігі туралы хабарлама.

Нәтижесінде әрбір хабарландыру метадеректермен «өсіп кетеді», олардың бір бөлігі жарнама жасалған кезде жасалады (автордың IP мекенжайы, пайдаланушы-агент, платформа, геолокация және т.б.), ал қалғандары әрбір сүзгі шығарған ұпай болып табылады. .

Хабарландыру кезегі

Жарнама платформаға түскенде, жүйе оны кезектердің біріне қояды. Әрбір кезек кез келген нашар үлгілерді анықтайтын жолмен жарнама метадеректерін біріктіретін математикалық формула арқылы жасалады.

Мысалы, сіз «Ұялы телефондар» санатындағы «Юла» қолданушыларынан «Санкт-Петербор» деген болжам бойынша жарнамалар кезегін құра аласыз, бірақ олардың IP мекенжайлары Мәскеуден немесе басқа қалалардан.

Жарнамаларды қалай модерациялаймыз
Әр түрлі қалаларда бір қолданушы жариялаған жарнамалардың мысалы.

Немесе нейрондық желі жарнамаларға тағайындайтын ұпайлар негізінде оларды кему ретімен реттей отырып, кезек құруға болады.

Әрбір кезек өз формуласына сәйкес хабарландыруға соңғы ұпай береді. Содан кейін сіз әртүрлі жолдармен жалғастыра аласыз:

  • жарнама блоктаудың белгілі бір түрін алатын шекті көрсетіңіз;
  • кезектегі барлық хабарландыруларды қолмен қарау үшін модераторларға жіберу;
  • немесе алдыңғы опцияларды біріктіріңіз: автоматты блоктау шегін көрсетіңіз және осы шекке жетпеген хабарландыруларды модераторларға жіберіңіз.

Жарнамаларды қалай модерациялаймыз

Бұл кезектер не үшін қажет? Қолданушы атыс қаруының суретін жүктеп салды делік. Нейрондық желі оған 95-тен 100-ге дейін ұпай береді және суретте қару бар екенін 99 пайыздық дәлдікпен анықтайды. Бірақ егер балл мәні 95% төмен болса, модельдің дәлдігі төмендей бастайды (бұл нейрондық желі модельдерінің ерекшелігі).

Нәтижесінде ұпай үлгісі негізінде кезек қалыптасады және 95 пен 100 арасында алынған хабарландырулар автоматты түрде «Тыйым салынған өнімдер» ретінде блокталады. 95 ұпайдан төмен хабарландырулар қолмен өңдеу үшін модераторларға жіберіледі.

Жарнамаларды қалай модерациялаймыз
Шоколадты Беретта картридждері бар. Тек қолмен модерация үшін! 🙂

Қолмен модерация

2019 жылдың басында Юладағы барлық жарнамалардың шамамен 94% автоматты түрде модерацияланады.

Жарнамаларды қалай модерациялаймыз

Егер платформа кейбір жарнамалар бойынша шешім қабылдай алмаса, ол оларды қолмен модерацияға жібереді. Одноклассники өзінің жеке құралын әзірледі: модераторларға арналған тапсырмалар тез шешім қабылдау үшін барлық қажетті ақпаратты дереу көрсетеді - жарнама қолайлы немесе себебін көрсете отырып, бұғатталуы керек.

Қолмен модерациялау кезінде қызмет көрсету сапасы нашарламауы үшін адамдардың жұмысы үнемі бақыланады. Мысалы, тапсырмалар ағынында модераторға «тұзақтар» — дайын шешімдері бар хабарландырулар көрсетіледі. Модератордың шешімі дайын шешіммен сәйкес келмесе, модераторға қате жіберіледі.

Орташа алғанда, модератор бір жарнаманы тексеруге 10 секунд жұмсайды. Сонымен қатар, қателер саны барлық тексерілген жарнамалардың 0,5% -нан аспайды.

Адамдардың модерациясы

Одноклассникидегі әріптестер одан әрі алға жылжып, «аудиторияның көмегін» пайдаланды: олар әлеуметтік желіге ойын қосымшасын жазды, онда сіз кейбір жағымсыз белгілерді ерекшелеп, деректердің үлкен көлемін жылдам белгілей аласыз - Одноклассники Модераторы (https://ok.ru/app/moderator). Мазмұнды қызықтырақ етуге тырысатын OK пайдаланушыларының көмегін пайдаланудың жақсы жолы.

Жарнамаларды қалай модерациялаймыз
Пайдаланушылар телефон нөмірі бар фотосуреттерді белгілейтін ойын.

Платформадағы кез келген жарнама кезегін Одноклассники Модератор ойынына қайта бағыттауға болады. Ойын пайдаланушылары белгілеген барлық нәрселер тексеру үшін ішкі модераторларға жіберіледі. Бұл схема сүзгілері әлі жасалмаған жарнамаларды блоктауға және бір уақытта оқу үлгілерін жасауға мүмкіндік береді.

Модерация нәтижелерін сақтау

Біз шешім қабылдаған жарнамаларды қайта өңдемеу үшін модерация кезінде қабылданған барлық шешімдерді сақтаймыз.

Күн сайын жарнамалар негізінде миллиондаған кластерлер жасалады. Уақыт өте келе әрбір кластер «жақсы» немесе «жаман» деп белгіленеді. Таңбасы бар кластерге кіретін әрбір жаңа хабарландыру немесе оның нұсқасы автоматты түрде кластердің өзінен ажыратымдылық алады. Күніне 20 мыңға жуық осындай автоматты рұқсат бар.

Жарнамаларды қалай модерациялаймыз

Егер кластерге жаңа хабарландырулар келмесе, ол жадтан жойылады және оның хэші мен шешімі Apache Cassandra-ға жазылады.

Платформа жаңа жарнаманы алған кезде, ол алдымен жасалғандар арасында ұқсас кластерді табуға және одан шешім қабылдауға тырысады. Егер мұндай кластер болмаса, платформа Кассандраға барып, сонда қарайды. Сіз таптыңыз ба? Керемет, шешімді кластерге қолданады және оны Юлаға жібереді. Күн сайын орта есеппен 70 мың осындай «қайталанатын» шешім қабылданады, бұл жалпы санның 8%.

қорытындылай келе

Біз «Одноклассники» модерация платформасын екі жарым жылдан бері пайдаланып келеміз. Бізге нәтижелер ұнайды:

  • Біз күніне барлық жарнамалардың 94%-ын автоматты түрде реттейміз.
  • Бір хабарландыруды модерациялау құны 2 рубльден 7 тиынға дейін төмендетілді.
  • Дайын құралдың арқасында модераторларды басқару мәселелерін ұмытып кеттік.
  • Модераторлардың саны мен бюджеті бірдей қолмен өңделген жарнамалар санын 2,5 есеге арттырдық. Автоматтандырылған басқарудың арқасында қолмен модерация сапасы да жоғарылады және қателердің шамамен 0,5% ауытқиды.
  • Біз спамның жаңа түрлерін сүзгілермен жылдам жабамыз.
  • Біз жаңа бөлімдерді модерацияға жылдам қосамыз «Юла тіктері». 2017 жылдан бастап Юла жылжымайтын мүлік, бос орындар және авто вертикалды қосты.

Ақпарат көзі: www.habr.com

пікір қалдыру