Ki jan nou modere anons

Ki jan nou modere anons

Chak sèvis ki gen itilizatè yo ka kreye pwòp kontni yo (UGC - Itilizatè-generated kontni) se fòse non sèlman yo rezoud pwoblèm biznis, men tou, yo mete bagay sa yo nan lòd nan UGC. Modération kontni pòv oswa bon jan kalite ka finalman diminye plus de sèvis la pou itilizatè yo, menm mete fen nan operasyon li yo.

Jodi a nou pral di w sou sinèrji ki genyen ant Yula ak Odnoklassniki, ki ede nou efektivman modere anons nan Yula.

Synergy an jeneral se yon bagay trè itil, ak nan mond lan modèn, lè teknoloji ak tandans chanje trè vit, li ka tounen yon sovtaj. Poukisa gaspiye resous ki ra ak tan envante yon bagay ki deja envante ak pote nan tèt ou devan ou?

Nou te panse menm bagay la lè nou te fè fas ak travay la plen modération kontni itilizatè - foto, tèks ak lyen. Itilizatè nou yo telechaje dè milyon de kontni nan Yula chak jou, epi san pwosesis otomatik li konplètman enposib modere tout done sa yo manyèlman.

Se poutèt sa, nou te itilize yon platfòm modération pare, ki nan moman sa a kòlèg nou yo ki soti nan Odnoklassniki te fini nan yon eta nan "prèske pèfeksyon."

Poukisa Odnoklassniki?

Chak jou, plizyè dizèn milyon itilizatè yo vin sou rezo sosyal la epi pibliye plizyè milya kontni: soti nan foto yo rive nan videyo ak tèks. Platfòm modération Odnoklassniki a ede tcheke gwo kantite done ak kontrekare spame ak robo.

Ekip modération OK la akimile anpil eksperyans, depi li te amelyore zouti li pandan 12 ane. Li enpòtan pou yo pa sèlman pataje solisyon pare yo, men tou, personnaliser achitekti platfòm yo pou yo adapte travay espesifik nou yo.

Ki jan nou modere anons

Depi koulye a, pou konsizyon, nou pral tou senpleman rele platfòm modération OK "platfòm".

Ki jan li tout travay

Echanj done ant Yula ak Odnoklassniki etabli atravè Apache Kafka.

Poukisa nou te chwazi zouti sa a:

  • Nan Yula, tout piblisite yo apre modere, kidonk okòmansman pa t mande yon repons synchrone.
  • Si yon move paragraf rive epi Yula oswa Odnoklassniki pa disponib, ki gen ladan akòz kèk chaj pik, Lè sa a, done ki soti nan Kafka pa pral disparèt nenpòt kote epi yo ka li pita.
  • Platfòm nan te deja entegre ak Kafka, kidonk pifò pwoblèm sekirite yo te rezoud.

Ki jan nou modere anons

Pou chak anons ki kreye oswa modifye pa itilizatè a nan Yula, yo pwodwi yon JSON ak done, ki mete nan Kafka pou modération ki vin apre. Soti nan Kafka, anons yo chaje nan platfòm la, kote yo jije otomatikman oswa manyèlman. Move anons yo bloke ak yon rezon, epi sa yo kote platfòm la pa jwenn vyolasyon yo make kòm "bon." Lè sa a, tout desizyon yo voye tounen bay Yula epi aplike nan sèvis la.

Nan fen a, pou Yula li tout vini desann nan aksyon senp: voye yon anons sou platfòm la Odnoklassniki epi jwenn tounen yon rezolisyon "ok", oswa poukisa yo pa "ok".

Otomatik pwosesis

Kisa k ap pase anons la apre li frape platfòm la? Chak anons divize an plizyè antite:

  • Non,
  • deskripsyon,
  • foto,
  • kategori itilizatè a chwazi ak sou-kategori anons la,
  • pri a.

Ki jan nou modere anons

Lè sa a, platfòm la fè gwoupman pou chak antite jwenn kopi. Anplis, tèks ak foto yo gwoupe dapre diferan rapid.

Anvan gwoupman, tèks yo nòmalize pou retire karaktè espesyal, lèt ki chanje ak lòt fatra. Done yo resevwa yo divize an N-gram, yo chak nan hache. Rezilta a se anpil hashes inik. Se resanblans ki genyen ant tèks yo detèmine pa Mezi Jaccard la ant de seri rezilta yo. Si resanblans la pi gran pase papòt la, Lè sa a, tèks yo fizyone nan yon sèl gwoup. Pou akselere rechèch la pou grap menm jan an, yo itilize MinHash ak lokalite-sansib hashing.

Divès opsyon pou kole imaj yo te envante pou foto, soti nan konpare foto pHash pou chèche kopi lè l sèvi avèk yon rezo neral.

Dènye metòd la se pi "grav". Pou antrene modèl la, yo te chwazi triple imaj (N, A, P) kote N pa sanble ak A, epi P sanble ak A (se yon semi-duplike). Lè sa a, rezo neral la te aprann fè A ak P pi pre ke posib, ak A ak N osi lwen ke posib. Sa a rezilta nan mwens fo pozitif konpare ak tou senpleman pran embeddings nan yon rezo pre-antre.

Lè rezo neral la resevwa imaj kòm opinyon, li jenere yon vektè N (128) dimansyon pou chak nan yo epi yo fè yon demann pou evalye pwoksimite imaj la. Apre sa, yo kalkile yon papòt kote imaj fèmen yo konsidere kòm kopi.

Modèl la kapab jwenn abilman spame ki spesyalman foto pwodwi a menm nan ang diferan yo nan lòd yo kontoune konparezon an pHash.

Ki jan nou modere anonsKi jan nou modere anons
Yon egzanp foto spam kole ansanm pa yon rezo neral kòm kopi.

Nan etap final la, tèks ak imaj yo chèche kopi piblisite yo ansanm.

Si de oswa plis reklam yo kole ansanm nan yon gwoup, sistèm nan kòmanse bloke otomatik, ki, lè l sèvi avèk algoritm sèten, chwazi ki kopi yo efase ak kiyès yo kite. Pou egzanp, si de itilizatè yo gen menm foto yo nan yon anons, sistèm nan pral bloke anons ki pi resan an.

Yon fwa yo kreye, tout grap yo ale nan yon seri de filtè otomatik yo. Chak filtè bay yon nòt nan gwoup la: konbyen chans li genyen pou li genyen menas ke filtè sa a idantifye.

Pou egzanp, sistèm nan analize deskripsyon an nan yon anons epi chwazi kategori potansyèl pou li. Lè sa a, li pran youn nan pwobabilite maksimòm ak konpare li ak kategori ki espesifye pa otè a nan anons la. Si yo pa koresponn, anons la bloke pou move kategori a. Epi kòm nou se janti ak onèt, nou dirèkteman di itilizatè a ki kategori li bezwen chwazi yo nan lòd pou anons la pase modération.

Ki jan nou modere anons
Notifikasyon pou bloke pou kategori ki pa kòrèk.

Aprantisaj machin yo santi l kòm lakay ou nan platfòm nou an. Pou egzanp, ak èd li yo nou rechèch nan non yo ak deskripsyon nan machandiz entèdi nan Federasyon Larisi la. Ak modèl rezo neral yo ak anpil atansyon "egzamine" imaj yo pou wè si yo genyen URL, tèks spam, nimewo telefòn, ak menm enfòmasyon "entèdi".

Pou ka kote yo ap eseye vann yon pwodwi entèdi degize kòm yon bagay legal, epi pa gen okenn tèks nan ni tit la oswa deskripsyon, nou itilize etikèt imaj. Pou chak imaj, yo ka ajoute jiska 11 mil tags diferan ki dekri sa ki nan imaj la.

Ki jan nou modere anons
Yo ap eseye vann hookah a lè yo degize li kòm yon samovar.

Nan paralèl ak filtè konplèks, sa ki senp yo travay tou, rezoud pwoblèm evidan ki gen rapò ak tèks:

  • antimat;
  • URL ak nimewo telefòn detektè;
  • mansyone mesaje enstantane ak lòt kontak;
  • pri redwi;
  • piblisite kote pa gen anyen ki pou vann, elatriye.

Jodi a, chak reklam ale nan yon Van amann ki gen plis pase 50 filtè otomatik ki eseye jwenn yon move bagay nan anons la.

Si pa youn nan detektè yo te travay, Lè sa a, yo voye yon repons bay Yula ke anons la "gen plis chans" nan lòd pafè. Nou itilize repons sa a tèt nou, ak itilizatè ki te abònman nan vandè a resevwa yon notifikasyon sou disponiblite a nan yon nouvo pwodwi.

Ki jan nou modere anons
Notifikasyon ke vandè a gen yon nouvo pwodwi.

Kòm yon rezilta, chak anons "anvade" ak metadata, kèk nan yo ki te pwodwi lè yo kreye anons la (adrès IP otè a, itilizatè-ajan, platfòm, jeolokalizasyon, elatriye), ak rès la se nòt ki bay pa chak filtè. .

File anons yo

Lè yon anons frape platfòm la, sistèm nan mete l nan youn nan ke moun kap kriye yo. Chak keu kreye lè l sèvi avèk yon fòmil matematik ki konbine metadata anons nan yon fason ki detekte nenpòt modèl move.

Pou egzanp, ou ka kreye yon keu nan anons nan kategori "Telefòn Pòtab" soti nan itilizatè Yula sipozeman soti nan St Petersburg, men adrès IP yo soti nan Moskou oswa lòt vil yo.

Ki jan nou modere anons
Yon egzanp piblisite afiche pa yon itilizatè nan diferan vil.

Oswa ou ka fòme ke moun kap kriye ki baze sou nòt yo ke rezo neral la asiyen nan anons, fè aranjman yo nan lòd desandan.

Chak keu, dapre pwòp fòmil li yo, bay yon nòt final anons la. Lè sa a, ou ka kontinye nan diferan fason:

  • presize papòt la nan ki yon anons pral resevwa yon sèten kalite bloke;
  • voye tout anons nan keu a bay moderatè pou revizyon manyèl;
  • oswa konbine opsyon anvan yo: presize papòt bloke otomatik la epi voye bay moderatè anons sa yo ki pa rive nan papòt sa a.

Ki jan nou modere anons

Poukisa ke moun kap kriye sa yo bezwen? Ann di yon itilizatè te telechaje yon foto yon zam afe. Rezo neral la bay li yon nòt ant 95 ak 100 epi li detèmine ak 99 pousan presizyon ke gen yon zam nan foto a. Men, si valè nòt la pi ba pase 95%, presizyon nan modèl la kòmanse diminye (sa a se yon karakteristik nan modèl rezo neral).

Kòm yon rezilta, yo fòme yon keu ki baze sou modèl nòt la, ak reklam sa yo ki te resevwa ant 95 ak 100 yo otomatikman bloke kòm "Pwodwi entèdi". Anons ki gen yon nòt ki pi ba a 95 yo voye bay moderatè pou yo trete manyèl yo.

Ki jan nou modere anons
Beretta chokola ak katouch. Sèlman pou modération manyèl! 🙂

Manyèl modération

Nan kòmansman 2019, apeprè 94% nan tout piblisite nan Yula modere otomatikman.

Ki jan nou modere anons

Si platfòm la pa ka deside sou kèk anons, li voye yo pou modération manyèl. Odnoklassniki devlope zouti pwòp yo: travay pou moderatè imedyatman montre tout enfòmasyon ki nesesè yo pran yon desizyon rapid - anons la se apwopriye oswa yo ta dwe bloke, ki endike rezon an.

Epi pou bon jan kalite sèvis la pa soufri pandan modération manyèl, travay moun yo toujou ap kontwole. Pou egzanp, nan kouran travay la, moderatè a montre "pyèj" - anons pou ki gen deja pare solisyon. Si desizyon moderatè a pa kowenside ak desizyon an fini, yo bay moderatè a yon erè.

An mwayèn, yon moderatè pase 10 segonn tcheke yon anons. Anplis, kantite erè se pa plis pase 0,5% nan tout anons verifye.

modération pèp la

Kòlèg yo soti nan Odnoklassniki te ale menm pi lwen epi yo te pran avantaj de "èd nan odyans lan": yo te ekri yon aplikasyon jwèt pou rezo sosyal la nan ki ou ka byen vit make yon gwo kantite done, mete aksan sou kèk move siy - Odnoklassniki Moderatè (https://ok.ru/app/moderator). Yon bon fason pou pwofite èd itilizatè OK ki ap eseye fè kontni an pi agreyab.

Ki jan nou modere anons
Yon jwèt kote itilizatè yo tag foto ki gen yon nimewo telefòn sou yo.

Nenpòt keu nan anons nan platfòm la ka reyorante resous nan jwèt la Odnoklassniki Moderatè. Lè sa a, tout sa itilizatè jwèt make yo voye bay moderatè entèn yo pou yo revize. Konplo sa a pèmèt ou bloke anons pou ki filtè yo poko kreye, epi ansanm kreye echantiyon fòmasyon.

Sere rezilta modération

Nou sove tout desizyon yo pran pandan modération pou nou pa re-pwosesè anons sa yo sou ki nou te deja pran yon desizyon.

Dè milyon de grap yo kreye chak jou ki baze sou piblisite. Apre yon tan, chak gwoup make "bon" oswa "move." Chak nouvo anons oswa revizyon li yo, k ap antre nan yon gwoup ak yon mak, otomatikman resevwa yon rezolisyon nan gwoup la li menm. Gen apeprè 20 mil rezolisyon otomatik sa yo chak jou.

Ki jan nou modere anons

Si pa gen okenn nouvo anons rive nan gwoup la, yo retire li nan memwa epi yo ekri hash ak solisyon li yo nan Apache Cassandra.

Lè platfòm la resevwa yon nouvo piblisite, li premye eseye jwenn yon gwoup menm jan an pami moun ki deja kreye epi pran yon solisyon nan men li. Si pa gen okenn gwoup sa yo, platfòm la ale nan Cassandra epi gade la. Ou te jwenn li? Gwo, aplike solisyon an nan gwoup la epi voye li bay Yula. Gen yon mwayèn de 70 mil desizyon "repete" sa yo chak jou—8% nan total la.

Adisyon moute

Nou te itilize platfòm modération Odnoklassniki pou de ane edmi. Nou renmen rezilta yo:

  • Nou otomatikman modere 94% nan tout anons chak jou.
  • Pri a nan modération yon anons te redwi soti nan 2 rubles a 7 kopèk.
  • Mèsi a zouti ki pare a, nou bliye pwoblèm yo nan jere moderatè yo.
  • Nou ogmante kantite anons ki trete manyèlman pa 2,5 fwa ak menm kantite moderatè ak bidjè. Gen bon jan kalite a nan modération manyèl ogmante tou akòz kontwòl otomatik, ak fluktue alantou 0,5% nan erè.
  • Nou byen vit kouvri nouvo kalite spam ak filtè.
  • Nou byen vit konekte nouvo depatman yo nan modération "Yula vètikal". Depi 2017, Yula te ajoute vètikal Imobilye, pòs vid ak oto.

Sous: www.habr.com

Add nouvo kòmantè