Sut rydym yn cymedroli hysbysebion

Sut rydym yn cymedroli hysbysebion

Mae pob gwasanaeth y mae ei ddefnyddwyr yn gallu creu eu cynnwys eu hunain (UGC - Cynnwys a gynhyrchir gan ddefnyddwyr) yn cael ei orfodi nid yn unig i ddatrys problemau busnes, ond hefyd i roi trefn ar bethau yn UGC. Yn y pen draw, gall cymedroli cynnwys gwael neu o ansawdd isel leihau pa mor ddeniadol yw'r gwasanaeth i ddefnyddwyr, gan ddod â'i weithrediad i ben hyd yn oed.

Heddiw, byddwn yn dweud wrthych am y synergedd rhwng Yula a Odnoklassniki, sy'n ein helpu i gymedroli hysbysebion yn Yula yn effeithiol.

Mae synergedd yn gyffredinol yn beth defnyddiol iawn, ac yn y byd modern, pan fydd technolegau a thueddiadau'n newid yn gyflym iawn, gall droi'n achubwr bywyd. Pam gwastraffu adnoddau prin ac amser yn dyfeisio rhywbeth sydd eisoes wedi’i ddyfeisio a’i ddwyn i’ch meddwl o’ch blaen?

Roeddem yn meddwl yr un peth pan oeddem yn wynebu'r dasg lawn o gymedroli cynnwys defnyddwyr - lluniau, testun a dolenni. Mae ein defnyddwyr yn uwchlwytho miliynau o ddarnau o gynnwys i Yula bob dydd, a heb brosesu awtomatig mae'n gwbl amhosibl cymedroli'r holl ddata hwn â llaw.

Felly, fe wnaethon ni ddefnyddio platfform cymedroli parod, a oedd erbyn hynny wedi cwblhau ein cydweithwyr o Odnoklassniki i gyflwr o “bron yn berffeithrwydd.”

Pam Odnoklassniki?

Bob dydd, mae degau o filiynau o ddefnyddwyr yn dod i'r rhwydwaith cymdeithasol ac yn cyhoeddi biliynau o ddarnau o gynnwys: o luniau i fideos a thestunau. Mae platfform cymedroli Odnoklassniki yn helpu i wirio llawer iawn o ddata a gwrthweithio sbamwyr a bots.

Mae'r tîm safoni OK wedi cronni llawer o brofiad, gan ei fod wedi bod yn gwella ei offeryn ers 12 mlynedd. Mae'n bwysig y gallent nid yn unig rannu eu datrysiadau parod, ond hefyd addasu pensaernïaeth eu platfform i weddu i'n tasgau penodol.

Sut rydym yn cymedroli hysbysebion

O hyn ymlaen, er mwyn bod yn gryno, byddwn yn galw'r platfform safoni OK yn “lwyfan.”

Sut mae popeth yn gweithio

Sefydlir cyfnewid data rhwng Yula a Odnoklassniki trwy Apache Kafka.

Pam rydyn ni wedi dewis yr offeryn hwn:

  • Yn Yula, mae'r holl hysbysebion yn cael eu hôl-gymedroli, felly nid oedd angen ymateb cydamserol i ddechrau.
  • Os bydd paragraff gwael yn digwydd ac nad yw Yula neu Odnoklassniki ar gael, gan gynnwys oherwydd rhai llwythi brig, yna ni fydd y data o Kafka yn diflannu yn unrhyw le a gellir ei ddarllen yn ddiweddarach.
  • Roedd y platfform eisoes wedi'i integreiddio â Kafka, felly cafodd y rhan fwyaf o faterion diogelwch eu datrys.

Sut rydym yn cymedroli hysbysebion

Ar gyfer pob hysbyseb a grëir neu a addaswyd gan y defnyddiwr yn Yula, cynhyrchir JSON gyda data, a osodir yn Kafka i'w safoni wedyn. O Kafka, mae cyhoeddiadau'n cael eu llwytho i'r platfform, lle cânt eu dyfarnu'n awtomatig neu â llaw. Mae hysbysebion drwg yn cael eu rhwystro â rheswm, ac mae'r rhai lle nad yw'r platfform yn dod o hyd i droseddau yn cael eu marcio fel “da.” Yna anfonir pob penderfyniad yn ôl i Yula a'i gymhwyso yn y gwasanaeth.

Yn y diwedd, i Yula mae'r cyfan yn dibynnu ar gamau syml: anfon hysbyseb i'r platfform Odnoklassniki a chael penderfyniad "iawn", neu beth am "iawn".

Prosesu awtomatig

Beth sy'n digwydd i'r hysbyseb ar ôl iddo gyrraedd y platfform? Rhennir pob hysbyseb yn sawl endid:

  • Enw,
  • disgrifiad,
  • lluniau,
  • categori ac is-gategori o'r hysbyseb a ddewiswyd gan ddefnyddwyr,
  • pris

Sut rydym yn cymedroli hysbysebion

Yna mae'r platfform yn clystyru ar gyfer pob endid i ddod o hyd i ddyblygiadau. Ar ben hynny, mae testun a ffotograffau yn cael eu clystyru yn ôl gwahanol gynlluniau.

Cyn clystyru, mae testunau'n cael eu normaleiddio i gael gwared ar nodau arbennig, llythrennau wedi'u newid a sbwriel arall. Rhennir y data a dderbynnir yn N-gramau, y mae pob un ohonynt wedi'i stwnsio. Y canlyniad yw llawer o hashes unigryw. Pennir y tebygrwydd rhwng testunau gan Mesur Jaccard rhwng y ddwy set canlyniadol. Os yw'r tebygrwydd yn fwy na'r trothwy, yna caiff y testunau eu huno yn un clwstwr. Er mwyn cyflymu'r chwilio am glystyrau tebyg, defnyddir MinHash a stwnsh sy'n sensitif i Locality.

Mae opsiynau amrywiol ar gyfer gludo delweddau wedi'u dyfeisio ar gyfer ffotograffau, o gymharu lluniau pHash i chwilio am ddyblygiadau gan ddefnyddio rhwydwaith niwral.

Y dull olaf yw'r mwyaf "difrifol". Er mwyn hyfforddi'r model, dewiswyd tripledi o ddelweddau (N, A, P) lle nad yw N yn debyg i A, a P yn debyg i A (yn lled-ddyblyg). Yna dysgodd y rhwydwaith niwral wneud A a P mor agos â phosibl, ac A ac N cyn belled ag y bo modd. Mae hyn yn arwain at lai o bethau cadarnhaol ffug o gymharu â chymryd mewnosodiadau o rwydwaith sydd wedi'i hyfforddi ymlaen llaw.

Pan fydd y rhwydwaith niwral yn derbyn delweddau fel mewnbwn, mae'n cynhyrchu fector N(128)-dimensiwn ar gyfer pob un ohonynt a gwneir cais i asesu pa mor agos yw'r ddelwedd. Nesaf, cyfrifir trothwy lle mae delweddau agos yn cael eu hystyried yn ddyblyg.

Mae'r model yn gallu dod o hyd i sbamwyr yn fedrus sy'n tynnu lluniau'r un cynnyrch yn benodol o wahanol onglau er mwyn osgoi'r gymhariaeth pHash.

Sut rydym yn cymedroli hysbysebionSut rydym yn cymedroli hysbysebion
Enghraifft o luniau sbam wedi'u gludo at ei gilydd gan rwydwaith niwral fel copïau dyblyg.

Yn y cam olaf, mae hysbysebion dyblyg yn cael eu chwilio ar yr un pryd yn ôl testun a delwedd.

Os yw dau neu fwy o hysbysebion yn sownd gyda'i gilydd mewn clwstwr, mae'r system yn dechrau blocio awtomatig, sydd, gan ddefnyddio algorithmau penodol, yn dewis pa rai sy'n dyblygu i'w dileu a pha rai i'w gadael. Er enghraifft, os oes gan ddau ddefnyddiwr yr un lluniau mewn hysbyseb, bydd y system yn rhwystro'r hysbyseb mwy diweddar.

Ar ôl eu creu, mae pob clwstwr yn mynd trwy gyfres o hidlwyr awtomatig. Mae pob hidlydd yn rhoi sgôr i'r clwstwr: pa mor debygol yw hi ei fod yn cynnwys y bygythiad y mae'r hidlydd hwn yn ei nodi.

Er enghraifft, mae'r system yn dadansoddi'r disgrifiad mewn hysbyseb ac yn dewis categorïau posibl ar ei gyfer. Yna mae'n cymryd yr un sydd â'r tebygolrwydd mwyaf ac yn ei gymharu â'r categori a nodir gan awdur yr hysbyseb. Os nad ydynt yn cyfateb, mae'r hysbyseb yn cael ei rwystro ar gyfer y categori anghywir. A chan ein bod ni'n garedig ac yn onest, rydyn ni'n dweud yn uniongyrchol wrth y defnyddiwr pa gategori y mae angen iddo ei ddewis er mwyn i'r hysbyseb basio'r safoni.

Sut rydym yn cymedroli hysbysebion
Hysbysiad blocio ar gyfer categori anghywir.

Mae dysgu peiriant yn teimlo'n gartrefol yn ein platfform. Er enghraifft, gyda'i help rydym yn chwilio yn enwau a disgrifiadau nwyddau gwaharddedig yn Ffederasiwn Rwsia. Ac mae modelau rhwydwaith niwral yn “archwilio” y delweddau yn ofalus i weld a ydyn nhw'n cynnwys URLs, testunau sbam, rhifau ffôn, a'r un wybodaeth “waharddedig”.

Ar gyfer achosion lle maent yn ceisio gwerthu cynnyrch gwaharddedig wedi'i guddio fel rhywbeth cyfreithiol, ac nad oes testun yn y teitl na'r disgrifiad, rydym yn defnyddio tagio delwedd. Ar gyfer pob delwedd, gellir ychwanegu hyd at 11 mil o dagiau gwahanol sy'n disgrifio'r hyn sydd yn y ddelwedd.

Sut rydym yn cymedroli hysbysebion
Maen nhw'n ceisio gwerthu'r hookah trwy ei guddio fel samovar.

Ochr yn ochr â hidlwyr cymhleth, mae rhai syml hefyd yn gweithio, gan ddatrys problemau amlwg sy'n ymwneud â thestun:

  • antimat;
  • Synhwyrydd URL a rhif ffôn;
  • sôn am negeswyr gwib a chysylltiadau eraill;
  • pris gostyngol;
  • hysbysebion lle nad oes dim ar werth, ac ati.

Heddiw, mae pob hysbyseb yn mynd trwy ridyll dirwy o fwy na 50 o hidlwyr awtomatig sy'n ceisio dod o hyd i rywbeth drwg yn yr hysbyseb.

Pe na bai unrhyw un o'r synwyryddion yn gweithio, yna anfonir ymateb i Yula bod yr hysbyseb “fwyaf tebygol” mewn trefn berffaith. Rydym yn defnyddio'r ateb hwn ein hunain, ac mae defnyddwyr sydd wedi tanysgrifio i'r gwerthwr yn derbyn hysbysiad am argaeledd cynnyrch newydd.

Sut rydym yn cymedroli hysbysebion
Hysbysiad bod gan y gwerthwr gynnyrch newydd.

O ganlyniad, mae pob hysbyseb wedi “gordyfu” gyda metadata, a chynhyrchir rhywfaint ohono pan fydd yr hysbyseb yn cael ei greu (cyfeiriad IP yr awdur, asiant defnyddiwr, platfform, geolocation, ac ati), a'r gweddill yw'r sgôr a gyhoeddir gan bob hidlydd .

Ciwiau cyhoeddi

Pan fydd hysbyseb yn cyrraedd y platfform, mae'r system yn ei roi yn un o'r ciwiau. Mae pob ciw yn cael ei greu gan ddefnyddio fformiwla fathemategol sy'n cyfuno metadata hysbysebu mewn ffordd sy'n canfod unrhyw batrymau drwg.

Er enghraifft, gallwch greu ciw o hysbysebion yn y categori “Ffonau Cell” gan ddefnyddwyr Yula yn ôl pob sôn o St Petersburg, ond mae eu cyfeiriadau IP yn dod o Moscow neu ddinasoedd eraill.

Sut rydym yn cymedroli hysbysebion
Enghraifft o hysbysebion a bostiwyd gan un defnyddiwr mewn gwahanol ddinasoedd.

Neu gallwch ffurfio ciwiau yn seiliedig ar y sgoriau y mae'r rhwydwaith niwral yn eu neilltuo i hysbysebion, gan eu trefnu mewn trefn ddisgynnol.

Mae pob ciw, yn ôl ei fformiwla ei hun, yn aseinio sgôr derfynol i'r hysbyseb. Yna gallwch chi symud ymlaen mewn gwahanol ffyrdd:

  • nodi'r trothwy lle bydd hysbyseb yn derbyn math penodol o rwystro;
  • anfon yr holl hysbysebion yn y ciw at safonwyr i'w hadolygu â llaw;
  • neu gyfuno'r opsiynau blaenorol: nodwch y trothwy blocio awtomatig ac anfon yr hysbysebion hynny nad ydynt wedi cyrraedd y trothwy hwn at gymedrolwyr.

Sut rydym yn cymedroli hysbysebion

Pam mae angen y ciwiau hyn? Gadewch i ni ddweud bod defnyddiwr wedi uwchlwytho llun o arf saethu. Mae'r rhwydwaith niwral yn rhoi sgôr iddo o 95 i 100 ac yn penderfynu gyda chywirdeb o 99 y cant bod arf yn y llun. Ond os yw gwerth y sgôr yn is na 95%, mae cywirdeb y model yn dechrau lleihau (mae hyn yn nodwedd o fodelau rhwydwaith niwral).

O ganlyniad, mae ciw yn cael ei ffurfio yn seiliedig ar y model sgôr, ac mae'r hysbysebion hynny a dderbyniodd rhwng 95 a 100 yn cael eu rhwystro'n awtomatig fel “Cynhyrchion Gwaharddedig”. Anfonir hysbysebion â sgôr o dan 95 at gymedrolwyr i'w prosesu â llaw.

Sut rydym yn cymedroli hysbysebion
Beretta siocled gyda chetris. Dim ond ar gyfer safoni â llaw! 🙂

Cymedroli â llaw

Ar ddechrau 2019, mae tua 94% o'r holl hysbysebion yn Yula yn cael eu cymedroli'n awtomatig.

Sut rydym yn cymedroli hysbysebion

Os na all y platfform benderfynu ar rai hysbysebion, mae'n eu hanfon i'w safoni â llaw. Datblygodd Odnoklassniki eu hofferyn eu hunain: mae tasgau ar gyfer cymedrolwyr yn arddangos yr holl wybodaeth angenrheidiol ar unwaith i wneud penderfyniad cyflym - mae'r hysbyseb yn addas neu dylid ei rwystro, gan nodi'r rheswm.

Ac fel nad yw ansawdd y gwasanaeth yn dioddef wrth gymedroli â llaw, mae gwaith pobl yn cael ei fonitro'n gyson. Er enghraifft, yn y ffrwd dasg, dangosir “trapiau” i'r safonwr - hysbysebion y mae datrysiadau parod ar eu cyfer eisoes. Os nad yw penderfyniad y safonwr yn cyd-fynd â'r un gorffenedig, rhoddir gwall i'r safonwr.

Ar gyfartaledd, mae cymedrolwr yn treulio 10 eiliad yn gwirio un hysbyseb. Ar ben hynny, nid yw nifer y gwallau yn fwy na 0,5% o'r holl hysbysebion a ddilyswyd.

Cymedroldeb pobl

Aeth cydweithwyr o Odnoklassniki hyd yn oed ymhellach a manteisio ar “gymorth y gynulleidfa”: fe wnaethon nhw ysgrifennu cymhwysiad gêm ar gyfer y rhwydwaith cymdeithasol lle gallwch chi farcio llawer iawn o ddata yn gyflym, gan amlygu rhywfaint o arwydd gwael - Odnoklassniki Moderator (https://ok.ru/app/moderator). Ffordd dda o fanteisio ar gymorth defnyddwyr OK sy'n ceisio gwneud y cynnwys yn fwy pleserus.

Sut rydym yn cymedroli hysbysebion
Gêm lle mae defnyddwyr yn tagio lluniau sydd â rhif ffôn arnynt.

Gellir ailgyfeirio unrhyw giw o hysbysebion yn y platfform i gêm Odnoklassniki Moderator. Yna mae popeth y mae defnyddwyr gêm yn ei nodi yn cael ei anfon at safonwyr mewnol i'w adolygu. Mae'r cynllun hwn yn caniatáu ichi rwystro hysbysebion nad yw hidlwyr wedi'u creu ar eu cyfer eto, a chreu samplau hyfforddi ar yr un pryd.

Storio canlyniadau safoni

Rydym yn arbed pob penderfyniad a wneir yn ystod y safoni fel nad ydym yn ailbrosesu’r hysbysebion hynny yr ydym eisoes wedi gwneud penderfyniad arnynt.

Mae miliynau o glystyrau yn cael eu creu bob dydd yn seiliedig ar hysbysebion. Dros amser, mae pob clwstwr wedi'i labelu'n "dda" neu'n "ddrwg." Mae pob hysbyseb newydd neu ei adolygiad, sy'n mynd i mewn i glwstwr gyda marc, yn derbyn datrysiad yn awtomatig gan y clwstwr ei hun. Mae tua 20 mil o benderfyniadau awtomatig o'r fath y dydd.

Sut rydym yn cymedroli hysbysebion

Os na fydd unrhyw gyhoeddiadau newydd yn cyrraedd y clwstwr, caiff ei dynnu o'r cof ac ysgrifennir ei hash a'i ddatrysiad at Apache Cassandra.

Pan fydd y platfform yn derbyn hysbyseb newydd, yn gyntaf mae'n ceisio dod o hyd i glwstwr tebyg ymhlith y rhai sydd eisoes wedi'u creu a chymryd datrysiad ohono. Os nad oes clwstwr o'r fath, mae'r platfform yn mynd i Cassandra ac yn edrych yno. Wnaethoch chi ddod o hyd iddo? Gwych, cymhwyswch yr ateb i'r clwstwr a'i anfon i Yula. Mae cyfartaledd o 70 mil o benderfyniadau “ailadrodd” o'r fath bob dydd—8% o'r cyfanswm.

Crynhoi

Rydym wedi bod yn defnyddio platfform safoni Odnoklassniki ers dwy flynedd a hanner. Rydyn ni'n hoffi'r canlyniadau:

  • Rydym yn cymedroli 94% o'r holl hysbysebion y dydd yn awtomatig.
  • Gostyngwyd y gost o gymedroli un hysbyseb o 2 rubles i 7 kopecks.
  • Diolch i'r teclyn parod, rydym wedi anghofio am y problemau o reoli safonwyr.
  • Gwnaethom gynyddu nifer yr hysbysebion a broseswyd â llaw 2,5 gwaith gyda'r un nifer o gymedrolwyr a chyllideb. Mae ansawdd safoni â llaw hefyd wedi cynyddu oherwydd rheolaeth awtomataidd, ac mae'n amrywio tua 0,5% o wallau.
  • Rydym yn cwmpasu mathau newydd o sbam yn gyflym gyda hidlwyr.
  • Rydym yn cysylltu adrannau newydd yn gyflym â safoni "Yula Fertigol". Ers 2017, mae Yula wedi ychwanegu'r fertigol Eiddo Tiriog, Swyddi Gwag a Auto.

Ffynhonnell: hab.com

Ychwanegu sylw