Si i moderojmë reklamat

Si i moderojmë reklamat

Çdo shërbim, përdoruesit e të cilit mund të krijojnë përmbajtjen e tyre (UGC - Përmbajtja e gjeneruar nga përdoruesit) është i detyruar jo vetëm të zgjidhë problemet e biznesit, por edhe të vendosë gjërat në rregull në UGC. Moderimi i përmbajtjes së dobët ose me cilësi të ulët mund të zvogëlojë përfundimisht atraktivitetin e shërbimit për përdoruesit, madje duke i dhënë fund funksionimit të tij.

Sot do t'ju tregojmë për sinergjinë midis Yula dhe Odnoklassniki, e cila na ndihmon të moderojmë në mënyrë efektive reklamat në Yula.

Sinergjia në përgjithësi është një gjë shumë e dobishme dhe në botën moderne, kur teknologjitë dhe tendencat ndryshojnë shumë shpejt, ajo mund të kthehet në një shpëtim. Pse të humbni burimet dhe kohën e pakët duke shpikur diçka që tashmë është shpikur dhe sjellë në mendje para jush?

Ne menduam të njëjtën gjë kur u përballëm me detyrën e plotë të moderimit të përmbajtjes së përdoruesit - fotografitë, tekstin dhe lidhjet. Përdoruesit tanë ngarkojnë miliona pjesë të përmbajtjes në Yula çdo ditë dhe pa përpunim automatik është plotësisht e pamundur të moderosh të gjitha këto të dhëna me dorë.

Prandaj, ne përdorëm një platformë të gatshme moderimi, të cilën deri në atë kohë kolegët tanë nga Odnoklassniki e kishin përfunduar në një gjendje "pothuajse përsosmërie".

Pse Odnoklassniki?

Çdo ditë, dhjetëra miliona përdorues vijnë në rrjetin social dhe publikojnë miliarda pjesë të përmbajtjes: nga fotot tek videot dhe tekstet. Platforma e moderimit Odnoklassniki ndihmon për të kontrolluar vëllime shumë të mëdha të të dhënave dhe për të luftuar spammers dhe bots.

Ekipi i moderimit OK ka grumbulluar shumë përvojë, pasi ka 12 vjet që po përmirëson mjetin e tij. Është e rëndësishme që ata jo vetëm të mund të ndajnë zgjidhjet e tyre të gatshme, por edhe të personalizojnë arkitekturën e platformës së tyre për t'iu përshtatur detyrave tona specifike.

Si i moderojmë reklamat

Që tani e tutje, për shkurtësi, ne thjesht do ta quajmë platformën e moderimit OK "platformë".

Si funksionon gjithçka

Shkëmbimi i të dhënave midis Yula dhe Odnoklassniki është krijuar përmes Apache Kafka.

Pse zgjodhëm këtë mjet:

  • Në Yula, të gjitha reklamat janë post-moderuar, kështu që fillimisht nuk kërkohej një përgjigje sinkrone.
  • Nëse ndodh një paragraf i keq dhe Yula ose Odnoklassniki nuk janë të disponueshme, përfshirë për shkak të disa ngarkesave të pikut, atëherë të dhënat nga Kafka nuk do të zhduken askund dhe mund të lexohen më vonë.
  • Platforma ishte tashmë e integruar me Kafkën, kështu që shumica e çështjeve të sigurisë u zgjidhën.

Si i moderojmë reklamat

Për çdo reklamë të krijuar ose modifikuar nga përdoruesi në Yula, krijohet një JSON me të dhëna, e cila vendoset në Kafka për moderim të mëvonshëm. Nga Kafka, njoftimet ngarkohen në platformë, ku gjykohen automatikisht ose manualisht. Reklamat e këqija bllokohen me një arsye dhe ato në të cilat platforma nuk gjen shkelje shënohen si "të mira". Pastaj të gjitha vendimet i kthehen Yula dhe aplikohen në shërbim.

Në fund, për Yulën gjithçka varet nga veprime të thjeshta: dërgoni një reklamë në platformën Odnoklassniki dhe merrni një rezolutë "ok", ose pse jo "ok".

Përpunim automatik

Çfarë ndodh me reklamën pasi të shfaqet në platformë? Çdo reklamë është e ndarë në disa entitete:

  • Emri,
  • përshkrim,
  • Fotografitë,
  • kategoria dhe nënkategoria e reklamës e zgjedhur nga përdoruesi,
  • çmimi

Si i moderojmë reklamat

Platforma më pas kryen grupimin për çdo entitet për të gjetur dublikatë. Për më tepër, teksti dhe fotografitë janë të grumbulluara sipas skemave të ndryshme.

Përpara grumbullimit, tekstet normalizohen për të hequr karaktere speciale, shkronja të ndryshuara dhe mbeturina të tjera. Të dhënat e marra ndahen në N-gram, secila prej të cilave është hash. Rezultati është shumë hash unike. Ngjashmëria midis teksteve përcaktohet nga Masa e Xhakardit ndërmjet dy grupeve që rezultojnë. Nëse ngjashmëria është më e madhe se pragu, atëherë tekstet bashkohen në një grup. Për të shpejtuar kërkimin për grupime të ngjashme, përdoren hashing MinHash dhe Locality sensitive.

Opsione të ndryshme për ngjitjen e imazheve janë shpikur për fotografi, nga krahasimi i fotografive pHash deri te kërkimi i kopjimeve duke përdorur një rrjet nervor.

Metoda e fundit është më "e rëndë". Për të trajnuar modelin, u zgjodhën treshe imazhesh (N, A, P) në të cilat N nuk është i ngjashëm me A, dhe P është i ngjashëm me A (është një gjysmë dublikatë). Pastaj rrjeti nervor mësoi të bënte A dhe P sa më afër që të ishte e mundur, dhe A dhe N sa më shumë që të ishte e mundur. Kjo rezulton në më pak rezultate false në krahasim me marrjen e thjeshtë të futjeve nga një rrjet i trajnuar paraprakisht.

Kur rrjeti nervor merr imazhe si hyrje, ai gjeneron një vektor me dimension N(128) për secilën prej tyre dhe bëhet një kërkesë për të vlerësuar afërsinë e imazhit. Më pas, llogaritet një prag në të cilin imazhet e afërta konsiderohen si dublikatë.

Modeli është në gjendje të gjejë me mjeshtëri spammers që fotografojnë posaçërisht të njëjtin produkt nga kënde të ndryshme në mënyrë që të anashkalojë krahasimin e pHash.

Si i moderojmë reklamatSi i moderojmë reklamat
Një shembull i fotove të padëshiruara të ngjitura së bashku nga një rrjet nervor si dublikatë.

Në fazën përfundimtare, reklamat e kopjuara kërkohen njëkohësisht nga teksti dhe imazhi.

Nëse dy ose më shumë reklama janë ngjitur së bashku në një grup, sistemi fillon bllokimin automatik, i cili, duke përdorur algoritme të caktuara, zgjedh se cilat dublikatë të fshihen dhe cilat të largohen. Për shembull, nëse dy përdorues kanë të njëjtat foto në një reklamë, sistemi do të bllokojë reklamën më të fundit.

Pasi të krijohen, të gjitha grupimet kalojnë nëpër një seri filtrash automatikë. Çdo filtër i cakton një pikë grupit: sa gjasa ka që ai të përmbajë kërcënimin që identifikon ky filtër.

Për shembull, sistemi analizon përshkrimin në një reklamë dhe zgjedh kategoritë e mundshme për të. Pastaj merr atë me probabilitetin maksimal dhe e krahason me kategorinë e specifikuar nga autori i reklamës. Nëse nuk përputhen, reklama bllokohet për kategorinë e gabuar. Dhe meqenëse jemi të sjellshëm dhe të ndershëm, ne i tregojmë drejtpërdrejt përdoruesit se cilën kategori duhet të zgjedhë në mënyrë që reklama të kalojë moderimin.

Si i moderojmë reklamat
Njoftim për bllokim për kategori të pasaktë.

Mësimi i makinerive ndihet si në shtëpi në platformën tonë. Për shembull, me ndihmën e tij ne kërkojmë në emrat dhe përshkrimet e mallrave të ndaluara në Federatën Ruse. Dhe modelet e rrjeteve nervore "ekzaminojnë" me përpikëri imazhet për të parë nëse ato përmbajnë URL, tekste të padëshiruara, numra telefoni dhe të njëjtin informacion "të ndaluar".

Për rastet kur ata përpiqen të shesin një produkt të ndaluar të maskuar si diçka legale, dhe nuk ka tekst as në titull, as në përshkrim, ne përdorim etiketimin e imazhit. Për çdo imazh, mund të shtohen deri në 11 mijë etiketa të ndryshme që përshkruajnë atë që është në imazh.

Si i moderojmë reklamat
Ata po tentojnë ta shesin nargjile duke e maskuar si samovar.

Paralelisht me filtrat kompleksë, funksionojnë edhe ato të thjeshtë, duke zgjidhur probleme të dukshme që lidhen me tekstin:

  • antimat;
  • URL dhe detektor i numrave të telefonit;
  • përmendja e lajmëtarëve të çastit dhe kontakteve të tjera;
  • cmim i ulur;
  • reklama në të cilat asgjë nuk shitet, etj.

Sot, çdo reklamë kalon nëpër një sitë të imët prej më shumë se 50 filtrash automatikë që përpiqen të gjejnë diçka të keqe në reklamë.

Nëse asnjë nga detektorët nuk funksionoi, atëherë Yula i dërgohet një përgjigje se reklama "ka shumë të ngjarë" është në rregull të përsosur. Ne e përdorim këtë përgjigje vetë dhe përdoruesit që janë abonuar te shitësi marrin një njoftim për disponueshmërinë e një produkti të ri.

Si i moderojmë reklamat
Njoftim se shitësi ka një produkt të ri.

Si rezultat, çdo reklamë është "mbushur" me metadata, disa prej të cilave gjenerohen kur krijohet reklama (adresa IP e autorit, agjenti i përdoruesit, platforma, vendndodhja, etj.), dhe pjesa tjetër është rezultati i lëshuar nga secili filtër. .

Radhët e njoftimeve

Kur një reklamë godet platformën, sistemi e vendos atë në një nga radhët. Çdo radhë krijohet duke përdorur një formulë matematikore që kombinon të dhënat meta të reklamave në një mënyrë që zbulon çdo model të keq.

Për shembull, mund të krijoni një radhë reklamash në kategorinë "Telefonat celularë" nga përdoruesit e Yula gjoja nga Shën Petersburg, por adresat e tyre IP janë nga Moska ose qytete të tjera.

Si i moderojmë reklamat
Një shembull i reklamave të postuara nga një përdorues në qytete të ndryshme.

Ose mund të formoni radhë bazuar në pikët që rrjeti nervor u cakton reklamave, duke i renditur ato në rend zbritës.

Çdo radhë, sipas formulës së vet, i cakton një pikë përfundimtare reklamës. Atëherë mund të vazhdoni në mënyra të ndryshme:

  • specifikoni pragun në të cilin një reklamë do të marrë një lloj të caktuar bllokimi;
  • dërgoni të gjitha reklamat në radhë tek moderatorët për shqyrtim manual;
  • ose kombinoni opsionet e mëparshme: specifikoni pragun automatik të bllokimit dhe dërgoni te moderatorët ato reklama që nuk e kanë arritur këtë prag.

Si i moderojmë reklamat

Pse duhen këto radhë? Le të themi se një përdorues ka ngarkuar një foto të një arme zjarri. Rrjeti nervor i cakton atij një rezultat nga 95 në 100 dhe përcakton me 99 për qind saktësi se ka një armë në foto. Por nëse vlera e rezultatit është nën 95%, saktësia e modelit fillon të ulet (kjo është një veçori e modeleve të rrjeteve nervore).

Si rezultat, formohet një radhë në bazë të modelit të rezultatit dhe ato reklama që kanë marrë nga 95 deri në 100 bllokohen automatikisht si "Produkte të Ndaluara". Reklamat me rezultat nën 95 u dërgohen moderatorëve për përpunim manual.

Si i moderojmë reklamat
Çokollatë Beretta me fishekë. Vetëm për moderim manual! 🙂

Moderimi manual

Në fillim të vitit 2019, rreth 94% e të gjitha reklamave në Yula janë moderuar automatikisht.

Si i moderojmë reklamat

Nëse platforma nuk mund të vendosë për disa reklama, ajo i dërgon ato për moderim manual. Odnoklassniki zhvilloi mjetin e vet: detyrat për moderatorët shfaqin menjëherë të gjithë informacionin e nevojshëm për të marrë një vendim të shpejtë - reklama është e përshtatshme ose duhet të bllokohet, duke treguar arsyen.

Dhe në mënyrë që cilësia e shërbimit të mos vuajë gjatë moderimit manual, puna e njerëzve monitorohet vazhdimisht. Për shembull, në rrjedhën e detyrave, moderatorit i shfaqen "kurthe" - reklama për të cilat tashmë ka zgjidhje të gatshme. Nëse vendimi i moderatorit nuk përkon me atë të përfunduar, moderatorit i jepet një gabim.

Mesatarisht, një moderator shpenzon 10 sekonda për të kontrolluar një reklamë. Për më tepër, numri i gabimeve nuk është më shumë se 0,5% e të gjitha reklamave të verifikuara.

Moderimi i njerëzve

Kolegët nga Odnoklassniki shkuan edhe më tej dhe përfituan nga "ndihma e audiencës": ata shkruan një aplikacion loje për rrjetin social në të cilin mund të shënoni shpejt një sasi të madhe të dhënash, duke theksuar një shenjë të keqe - Moderatori Odnoklassniki (https://ok.ru/app/moderator). Një mënyrë e mirë për të përfituar nga ndihma e përdoruesve OK që po përpiqen ta bëjnë përmbajtjen më të këndshme.

Si i moderojmë reklamat
Një lojë në të cilën përdoruesit etiketojnë fotot që kanë një numër telefoni në to.

Çdo radhë reklamash në platformë mund të ridrejtohet në lojën Odnoklassniki Moderator. Çdo gjë që përdoruesit e lojës shënojnë më pas u dërgohet moderatorëve të brendshëm për shqyrtim. Kjo skemë ju lejon të bllokoni reklamat për të cilat filtrat nuk janë krijuar ende, dhe njëkohësisht të krijoni mostra trajnimi.

Ruajtja e rezultateve të moderimit

Ne i ruajmë të gjitha vendimet e marra gjatë moderimit në mënyrë që të mos i ripërpunojmë ato reklama për të cilat kemi marrë tashmë një vendim.

Miliona grupe krijohen çdo ditë në bazë të reklamave. Me kalimin e kohës, çdo grup etiketohet "i mirë" ose "i keq". Çdo reklamë e re ose rishikim i saj, duke hyrë në një grup me një shenjë, merr automatikisht një zgjidhje nga vetë grupi. Ka rreth 20 mijë rezolucione të tilla automatike në ditë.

Si i moderojmë reklamat

Nëse nuk vijnë njoftime të reja në grup, ai hiqet nga memoria dhe hash-i dhe zgjidhja e tij shkruhen në Apache Cassandra.

Kur platforma merr një reklamë të re, së pari përpiqet të gjejë një grup të ngjashëm midis atyre të krijuar tashmë dhe të marrë një zgjidhje prej tij. Nëse nuk ka një grup të tillë, platforma shkon në Cassandra dhe shikon atje. E keni gjetur atë? E shkëlqyeshme, e aplikon zgjidhjen në grup dhe ia dërgon Yulës. Ka mesatarisht 70 mijë vendime të tilla "të përsëritura" çdo ditë - 8% e totalit.

Duke përmbledhur

Ne kemi përdorur platformën e moderimit Odnoklassniki për dy vjet e gjysmë. Na pëlqejnë rezultatet:

  • Ne moderojmë automatikisht 94% të të gjitha reklamave në ditë.
  • Kostoja e moderimit të një reklame u ul nga 2 rubla në 7 kopekë.
  • Falë mjetit të gatshëm, harruam problemet e menaxhimit të moderatorëve.
  • Rritëm me 2,5 herë numrin e reklamave të përpunuara manualisht me të njëjtin numër moderatorësh dhe buxhet. Cilësia e moderimit manual është rritur gjithashtu për shkak të kontrollit të automatizuar dhe luhatet rreth 0,5% të gabimeve.
  • Ne mbulojmë shpejt llojet e reja të spamit me filtra.
  • Ne lidhim shpejt departamentet e reja me moderimin "Yula Verticals". Që nga viti 2017, Yula ka shtuar vertikalet e Pasurive të Paluajtshme, Vendet e Lira dhe Auto.

Burimi: www.habr.com

Shto një koment