Kaip moderuojame skelbimus

Kaip moderuojame skelbimus

Kiekviena paslauga, kurios vartotojai gali kurti savo turinį (UGC – Vartotojo sukurtas turinys) yra priversta ne tik spręsti verslo problemas, bet ir sutvarkyti reikalus UGC. Prastas arba nekokybiškas turinio moderavimas galiausiai gali sumažinti paslaugos patrauklumą vartotojams, netgi nutraukti jos veikimą.

Šiandien mes jums papasakosime apie „Yula“ ir „Odnoklassniki“ sinergiją, kuri padeda efektyviai tvarkyti skelbimus „Yula“.

Sinergija apskritai yra labai naudingas dalykas, o šiuolaikiniame pasaulyje, kai technologijos ir tendencijos keičiasi labai greitai, ji gali virsti išsigelbėjimu. Kam švaistyti ribotus išteklius ir laiką išradinėti tai, kas jau buvo sugalvota ir prisiminta prieš jus?

Tą patį galvojome, kai susidūrėme su visa užduotimi valdyti vartotojo turinį – paveikslėlius, tekstą ir nuorodas. Mūsų vartotojai kasdien į „Yula“ įkelia milijonus turinio, o be automatinio apdorojimo visiškai neįmanoma visų šių duomenų moderuoti rankiniu būdu.

Todėl naudojome paruoštą moderavimo platformą, kurią iki to laiko mūsų kolegos iš Odnoklassniki buvo baigę iki „beveik tobulumo“.

Kodėl Odnoklassniki?

Kiekvieną dieną dešimtys milijonų vartotojų ateina į socialinį tinklą ir skelbia milijardus turinio dalių: nuo nuotraukų iki vaizdo įrašų ir tekstų. Odnoklassniki moderavimo platforma padeda patikrinti labai didelius duomenų kiekius ir kovoti su šiukšlių siuntėjais ir robotais.

OK moderavimo komanda sukaupė daug patirties, nes savo įrankį tobulina jau 12 metų. Svarbu, kad jie galėtų ne tik pasidalinti savo paruoštais sprendimais, bet ir pritaikyti savo platformos architektūrą, kad ji atitiktų mūsų konkrečias užduotis.

Kaip moderuojame skelbimus

Trumpumo dėlei nuo šiol OK moderavimo platformą tiesiog vadinsime „platforma“.

Kaip visa tai veikia

Duomenų mainai tarp Yula ir Odnoklassniki nustatomi per Apache Kafka.

Kodėl pasirinkome šį įrankį:

  • Yuloje visi skelbimai yra moderuojami, todėl iš pradžių sinchroninio atsakymo nereikėjo.
  • Jei atsitiks bloga pastraipa ir „Yula“ ar „Odnoklassniki“ nepasiekiami, taip pat ir dėl kai kurių didžiausių apkrovų, „Kafka“ duomenys niekur nedings ir juos bus galima perskaityti vėliau.
  • Platforma jau buvo integruota su Kafka, todėl dauguma saugumo problemų buvo išspręstos.

Kaip moderuojame skelbimus

Kiekvienam skelbimui, kurį naudotojas sukūrė ar modifikavo „Yula“, sugeneruojamas JSON su duomenimis, kuris įdedamas į „Kafka“, kad būtų galima toliau moderuoti. Iš Kafkos pranešimai įkeliami į platformą, kur jie vertinami automatiškai arba rankiniu būdu. Blogi skelbimai blokuojami dėl priežasties, o tie, kuriuose platforma neranda pažeidimų, pažymimi kaip „geri“. Tada visi sprendimai siunčiami atgal Yulai ir taikomi tarnyboje.

Galų gale, Yulai viskas priklauso nuo paprastų veiksmų: nusiųskite skelbimą į „Odnoklassniki“ platformą ir gaukite sprendimą „gerai“ arba kodėl gi ne „gerai“.

Automatinis apdorojimas

Kas atsitiks su skelbimu, kai jis pasieks platformą? Kiekvienas skelbimas yra padalintas į kelis elementus:

  • Vardas,
  • apibūdinimas,
  • nuotraukos,
  • naudotojo pasirinkta skelbimo kategorija ir subkategorija,
  • цена.

Kaip moderuojame skelbimus

Tada platforma atlieka kiekvieno objekto grupavimą, kad surastų dublikatus. Be to, tekstas ir nuotraukos yra sugrupuoti pagal skirtingas schemas.

Prieš sugrupuojant tekstai yra normalizuojami, kad būtų pašalinti specialieji simboliai, pakeistos raidės ir kitos šiukšlės. Gauti duomenys suskirstomi į N gramus, kurių kiekvienas yra maišomas. Rezultatas yra daug unikalių maišų. Tekstų panašumą lemia Žakardo matas tarp dviejų gautų rinkinių. Jei panašumas didesnis už slenkstį, tada tekstai sujungiami į vieną klasterį. Siekiant paspartinti panašių grupių paiešką, naudojama „MinHash“ ir vietovėms jautri maiša.

Nuotraukoms buvo išrastos įvairios vaizdų klijavimo galimybės – nuo ​​pHash paveikslėlių palyginimo iki dublikatų paieškos naudojant neuroninį tinklą.

Paskutinis metodas yra pats „griežčiausias“. Modeliui išmokyti buvo parinkti vaizdų (N, A, P) trynukai, kuriuose N nepanašus į A, o P panašus į A (yra pusiau dublikatas). Tada neuroninis tinklas išmoko padaryti A ir P kuo arčiau, o A ir N – kuo toliau. Dėl to gaunama mažiau klaidingų teigiamų rezultatų, palyginti su tiesiog įterpimu iš iš anksto parengto tinklo.

Kai neuroninis tinklas gauna vaizdus kaip įvestį, kiekvienam iš jų sukuria N(128) matmenų vektorių ir pateikiamas prašymas įvertinti vaizdo artumą. Toliau apskaičiuojama riba, kurią pasiekus artimi vaizdai laikomi pasikartojančiais.

Modelis sugeba sumaniai surasti nepageidaujamo e. pašto siuntėjus, kurie specialiai fotografuoja tą patį produktą iš skirtingų kampų, kad apeitų pHash palyginimą.

Kaip moderuojame skelbimusKaip moderuojame skelbimus
Spam nuotraukų, sujungtų neuroniniu tinklu kaip dublikatų, pavyzdys.

Paskutiniame etape pasikartojančių skelbimų ieškoma vienu metu ir pagal tekstą, ir pagal vaizdą.

Jei du ar daugiau skelbimų yra įstrigę klasteryje, sistema pradeda automatinį blokavimą, kuris, naudodamas tam tikrus algoritmus, atrenka, kuriuos dublikatus ištrinti, o kuriuos palikti. Pavyzdžiui, jei du naudotojai skelbime turi tas pačias nuotraukas, sistema blokuos naujesnį skelbimą.

Sukūrus, visos klasteriai pereina automatinių filtrų seriją. Kiekvienas filtras klasteriui priskiria balą: kokia tikimybė, kad jame yra šio filtro identifikuojama grėsmė.

Pavyzdžiui, sistema analizuoja skelbime esantį aprašymą ir parenka jam galimas kategorijas. Tada paima didžiausią tikimybę turintį ir lygina su skelbimo autoriaus nurodyta kategorija. Jei jie nesutampa, skelbimas blokuojamas netinkamai kategorijai. Kadangi esame malonūs ir sąžiningi, vartotojui tiesiogiai nurodome, kurią kategoriją jis turi pasirinkti, kad skelbimas būtų prižiūrimas.

Kaip moderuojame skelbimus
Pranešimas apie blokavimą dėl neteisingos kategorijos.

Mašininis mokymasis mūsų platformoje jaučiasi kaip namie. Pavyzdžiui, su jo pagalba ieškome Rusijos Federacijoje draudžiamų prekių pavadinimuose ir aprašymuose. Ir neuroninių tinklų modeliai kruopščiai „tiria“ vaizdus, ​​​​ar juose nėra URL, šlamšto tekstų, telefono numerių ir tos pačios „draudžiamos“ informacijos.

Tais atvejais, kai jie bando parduoti draudžiamą prekę, užmaskuotą kaip legalu, o pavadinime ar aprašyme nėra teksto, naudojame vaizdo žymėjimą. Kiekvienam vaizdui galima pridėti iki 11 tūkstančių skirtingų žymų, apibūdinančių tai, kas yra paveikslėlyje.

Kaip moderuojame skelbimus
Jie bando parduoti kaljaną, užmaskuodami jį kaip samovarą.

Lygiagrečiai su sudėtingais filtrais veikia ir paprasti, sprendžiantys akivaizdžias su tekstu susijusias problemas:

  • antimat;
  • URL ir telefono numerio detektorius;
  • momentinių pasiuntinių ir kitų kontaktų paminėjimas;
  • sumažinta kaina;
  • skelbimai, kuriuose nieko neparduodama ir pan.

Šiandien kiekvienas skelbimas praeina per puikų sietą, kuriame yra daugiau nei 50 automatinių filtrų, kurie bando skelbime rasti ką nors blogo.

Jei nė vienas detektorius neveikė, tada Yulai siunčiamas atsakymas, kad skelbimas „greičiausiai“ yra tobulas. Šiuo atsakymu naudojame patys, o vartotojai, užsiprenumeravę pardavėją, gauna pranešimą apie naujos prekės prieinamumą.

Kaip moderuojame skelbimus
Pranešimas, kad pardavėjas turi naują prekę.

Dėl to kiekvienas skelbimas „apauga“ metaduomenimis, kurių dalis sugeneruojama kuriant reklamą (autorio IP adresas, vartotojo agentas, platforma, geografinė vieta ir kt.), o likusi dalis yra kiekvieno filtro išduodamas balas. .

Skelbimų eilės

Kai skelbimas patenka į platformą, sistema jį įrašo į vieną iš eilių. Kiekviena eilė sukuriama naudojant matematinę formulę, kuri sujungia skelbimo metaduomenis taip, kad aptiktų visus netinkamus modelius.

Pavyzdžiui, galite sukurti skelbimų eilę kategorijoje „Mobilieji telefonai“ iš „Yula“ vartotojų, tariamai iš Sankt Peterburgo, tačiau jų IP adresai yra iš Maskvos ar kitų miestų.

Kaip moderuojame skelbimus
Vieno vartotojo skirtinguose miestuose paskelbtų skelbimų pavyzdys.

Arba galite sudaryti eiles pagal balus, kuriuos neuroninis tinklas priskiria skelbimams, išdėstydami juos mažėjančia tvarka.

Kiekviena eilė pagal savo formulę skelbimui priskiria galutinį balą. Tada galite tęsti įvairiais būdais:

  • nurodykite slenkstį, nuo kurio skelbimas gaus tam tikro tipo blokavimą;
  • siųsti visus eilėje esančius skelbimus moderatoriams, kad jie peržiūrėtų rankiniu būdu;
  • arba derinkite ankstesnes parinktis: nurodykite automatinio blokavimo slenkstį ir nusiųskite moderatoriams tuos skelbimus, kurie šio slenksčio nepasiekė.

Kaip moderuojame skelbimus

Kam reikalingos šios eilės? Tarkime, kad naudotojas įkėlė šaunamojo ginklo nuotrauką. Neuroninis tinklas jam priskiria nuo 95 iki 100 balų ir 99 procentų tikslumu nustato, kad paveikslėlyje yra ginklas. Bet jei balo reikšmė yra mažesnė nei 95%, modelio tikslumas pradeda mažėti (tai yra neuroninių tinklų modelių ypatybė).

Dėl to pagal balų modelį susidaro eilė, o tie skelbimai, kurie gavo nuo 95 iki 100, automatiškai blokuojami kaip „Draudžiami produktai“. Skelbimai, kurių balas yra mažesnis nei 95, siunčiami moderatoriams, kad jie būtų apdoroti rankiniu būdu.

Kaip moderuojame skelbimus
Šokoladinė Beretta su užtaisais. Tik rankiniam moderavimui! 🙂

Rankinis moderavimas

2019 m. pradžioje apie 94% visų Yula skelbimų yra moderuojami automatiškai.

Kaip moderuojame skelbimus

Jei platforma negali nuspręsti dėl kai kurių skelbimų, ji siunčia juos rankiniam moderavimui. „Odnoklassniki“ sukūrė savo įrankį: užduotys, skirtos moderatoriams, iškart parodo visą reikalingą informaciją, kad būtų galima greitai apsispręsti – skelbimas tinkamas arba turėtų būti užblokuotas, nurodant priežastį.

O kad rankinio moderavimo metu paslaugų kokybė nenukentėtų, žmonių darbas yra nuolat stebimas. Pavyzdžiui, užduočių sraute moderatoriui rodomi „spąstai“ – skelbimai, kuriems jau yra paruoštų sprendimų. Jei moderatoriaus sprendimas nesutampa su baigtu, moderatoriui pateikiama klaida.

Vidutiniškai moderatorius vienam skelbimui tikrinti praleidžia 10 sekundžių. Be to, klaidų skaičius yra ne didesnis kaip 0,5% visų patikrintų skelbimų.

Žmonių nuosaikumas

Kolegos iš Odnoklassniki nuėjo dar toliau ir pasinaudojo „auditorijos pagalba“: socialiniam tinklui parašė žaidimo programą, kurioje galite greitai pažymėti didelį kiekį duomenų, išryškindami kai kuriuos blogus ženklus - Odnoklassniki moderatorius (https://ok.ru/app/moderator). Geras būdas pasinaudoti OK vartotojų, kurie bando padaryti turinį malonesnį, pagalba.

Kaip moderuojame skelbimus
Žaidimas, kuriame vartotojai pažymi nuotraukas, kuriose yra telefono numeris.

Bet kuri skelbimų eilė platformoje gali būti nukreipta į „Odnoklassniki Moderator“ žaidimą. Viskas, ką žaidimų naudotojai pažymi, tada siunčiama vidiniams moderatoriams patikrinti. Ši schema leidžia blokuoti skelbimus, kurių filtrai dar nesukurti, ir kartu kurti mokymo pavyzdžius.

Saugomi moderavimo rezultatai

Išsaugome visus moderavimo metu priimtus sprendimus, kad iš naujo neapdorotume tų skelbimų, dėl kurių jau priėmėme sprendimą.

Remiantis reklama, kasdien sukuriama milijonai grupių. Laikui bėgant kiekviena klasteris yra pažymėta „gera“ arba „bloga“. Kiekvienas naujas skelbimas ar jo peržiūra, patekusi į klasterį su ženklu, automatiškai gauna rezoliuciją iš paties klasterio. Tokių automatinių rezoliucijų per dieną būna apie 20 tūkstančių.

Kaip moderuojame skelbimus

Jei į klasterį negaunama jokių naujų pranešimų, jis pašalinamas iš atminties, o maiša ir sprendimas įrašomi į Apache Cassandra.

Platforma, gavusi naują reklamą, pirmiausia bando rasti panašų klasterį tarp jau sukurtų ir iš jo pasiimti sprendimą. Jei tokio klasterio nėra, platforma eina į Cassandra ir ten žiūri. Ar radai? Puiku, pritaiko sprendimą klasteriui ir siunčia jį Yulai. Tokių „pasikartojančių“ sprendimų kasdien yra vidutiniškai 70 tūkstančių – 8% visų.

Sumavimas

Odnoklassniki moderavimo platformą naudojame dvejus su puse metų. Mums patinka rezultatai:

  • Automatiškai prižiūrime 94 % visų skelbimų per dieną.
  • Vieno skelbimo moderavimo kaina sumažėjo nuo 2 rublių iki 7 kapeikų.
  • Paruošto įrankio dėka pamiršome moderatorių valdymo problemas.
  • Neautomatiniu būdu apdorojamų skelbimų skaičių padidinome 2,5 karto, turėdami tą patį moderatorių skaičių ir biudžetą. Rankinio moderavimo kokybė taip pat pagerėjo dėl automatizuoto valdymo ir svyruoja apie 0,5% klaidų.
  • Greitai uždengiame filtrais naujų tipų šlamštą.
  • Greitai prijungiame naujus skyrius prie moderavimo „Yula Verticals“. Nuo 2017 m. Yula įtraukė nekilnojamojo turto, laisvų darbo vietų ir automobilių vertikales.

Šaltinis: www.habr.com

Добавить комментарий