Ahoana ny fomba fandrindrana ny doka

Ahoana ny fomba fandrindrana ny doka

Ny serivisy tsirairay izay ahafahan'ny mpampiasa mamorona ny atiny manokana (UGC - votoaty novokarin'ny mpampiasa) dia voatery tsy hamaha ny olan'ny raharaham-barotra ihany, fa hametraka zavatra ao amin'ny UGC ihany koa. Mety hampihena ny mahasarika ny tolotra ho an'ny mpampiasa amin'ny farany ny fandrindrana votoaty tsy dia tsara na ambany kalitao, na dia mamarana ny fampandehanana azy aza.

Androany dia holazainay aminao ny fiaraha-miasa eo amin'i Yula sy Odnoklassniki, izay manampy antsika amin'ny fomba mahomby amin'ny fampihenana ny doka amin'ny Yula.

Ny Synergy amin'ny ankapobeny dia zavatra tena ilaina, ary amin'ny tontolo maoderina, rehefa miova haingana ny teknolojia sy ny fironana, dia mety hivadika ho mpamonjy aina. Nahoana no mandany vola sy fotoana tsy ampy amin'ny famoronana zavatra efa noforonina sy nampidirina ao an-tsainao?

Nieritreritra zavatra mitovy izahay rehefa niatrika ny asa feno amin'ny fandrindrana ny votoatin'ny mpampiasa - sary, lahatsoratra ary rohy. Ny mpampiasa anay dia mampakatra votoaty an-tapitrisany isan'andro ao amin'ny Yula, ary raha tsy misy fanodinana mandeha ho azy dia tsy azo atao mihitsy ny mandrindra ireo angona rehetra ireo amin'ny tanana.

Noho izany, nampiasa sehatra fandrefesana efa vita izahay, izay tamin'izany fotoana izany dia nahavita "saika tonga lafatra" ireo mpiara-miasa aminay avy ao amin'ny Odnoklassniki.

Nahoana no Odnoklassniki?

Isan'andro, mpampiasa am-polony tapitrisa no tonga ao amin'ny tambajotra sosialy ary mamoaka votoaty an'arivony tapitrisa: manomboka amin'ny sary ka hatramin'ny horonan-tsary sy lahatsoratra. Ny Odnoklassniki moderation platform dia manampy amin'ny fanaraha-maso angon-drakitra be dia be ary manohitra ny spammers sy bots.

Ny ekipa OK moderation dia nanangona traikefa be dia be, satria nanatsara ny fitaovany nandritra ny 12 taona. Zava-dehibe ny tsy ahafahan'izy ireo mizara ny vahaolana efa vita ihany, fa koa mampifanaraka ny rafitry ny sehatra misy azy mba hifanaraka amin'ny asa manokana ataontsika.

Ahoana ny fomba fandrindrana ny doka

Manomboka izao, ho fohifohy, dia hiantso tsotra fotsiny ny sehatra OK moderation "sehatra".

Ahoana no fiasan'izy rehetra

Ny fifanakalozana data eo amin'ny Yula sy Odnoklassniki dia napetraka amin'ny alàlan'ny Apache Kafka.

Nahoana no nisafidy ity fitaovana ity izahay:

  • Ao amin'ny Yula, ny dokam-barotra rehetra dia post-moderate, noho izany tamin'ny voalohany dia tsy nilaina ny valiny mifanaraka.
  • Raha misy fehintsoratra ratsy mitranga ary Yula na Odnoklassniki tsy misy, anisan'izany noho ny enta-mavesatra sasany, dia tsy hanjavona na aiza na aiza ny angon-drakitra avy amin'ny Kafka ary azo vakiana any aoriana.
  • Efa tafiditra amin'ny Kafka ilay sehatra, ka voavaha ny ankamaroan'ny olana momba ny fiarovana.

Ahoana ny fomba fandrindrana ny doka

Ho an'ny doka tsirairay noforonina na novain'ny mpampiasa ao amin'ny Yula, JSON misy angona no avoaka, izay apetraka ao amin'ny Kafka ho an'ny fanitsiana manaraka. Avy amin'ny Kafka, ampidirina ao amin'ny lampihazo ny fanambarana, izay itsarana azy ireo ho azy na amin'ny tanana. Ny doka ratsy dia voasakana misy antony, ary ireo izay tsy ahitan'ny sehatra fanitsakitsahana dia voamarika ho “tsara”. Avy eo dia alefa any amin'i Yula ny fanapahan-kevitra rehetra ary ampiharina amin'ny serivisy.

Amin'ny farany, ho an'i Yula izany rehetra izany dia tonga amin'ny hetsika tsotra: mandefa doka amin'ny sehatra Odnoklassniki ary avereno ny fanapahan-kevitra "ok", na maninona no tsy "ok".

fanodinana mandeha ho azy

Inona no mitranga amin'ny doka rehefa avy nidona tamin'ny lampihazo? Ny doka tsirairay dia mizara ho vondrona maromaro:

  • Anarana,
  • famaritana,
  • sary,
  • Endrika efa lasan'ny matoantenin'ny atao mampitranga mpifampivoho ny matoanteny mifamoivoho avy amin'ny anarana iombonana fikitihana
  • Price.

Ahoana ny fomba fandrindrana ny doka

Ny sehatra avy eo dia manao clustering ho an'ny sampana tsirairay mba hahitana dika mitovy. Ankoatr'izay, ny lahatsoratra sy ny sary dia mivondrona araka ny drafitra samihafa.

Alohan'ny fanangonana, ny lahatsoratra dia atao ara-dalàna mba hanesorana ireo endri-tsoratra manokana, litera niova ary fako hafa. Ny angon-drakitra voaray dia zaraina ho N-grama, izay samy hash. Ny vokatr'izany dia hashes miavaka maro. Ny fitoviana misy eo amin'ny lahatsoratra dia voafaritra amin'ny ny refin'i Jaccard eo anelanelan'ireo andiany roa vokarina. Raha lehibe noho ny tokonam-baravarana ny fitoviana, dia atambatra ho cluster iray ny lahatsoratra. Mba hanafainganana ny fikarohana ireo cluster mitovitovy amin'izany, ny MinHash sy Locality-sensitive hashing dia ampiasaina.

Safidy isan-karazany amin'ny fametahana sary dia noforonina ho an'ny sary, manomboka amin'ny fampitahana ny sarin'ny pHash ka hatramin'ny fitadiavana dika mitovy amin'ny fampiasana tambajotra neural.

Ny fomba farany dia "mafy" indrindra. Mba hampiofanana ny modely, dia nofantenana ny sary telo (N, A, P) izay tsy mitovy amin'ny A ny N, ary mitovy amin'ny A ny P (dia semi-duplicate). Avy eo ny tambajotra neural dia nianatra nanao A sy P ho akaiky araka izay azo atao, ary A sy N araka izay azo atao. Izany dia miteraka vokatsoa diso kokoa raha ampitahaina amin'ny fakana fametahana fotsiny amin'ny tambajotra efa voaofana.

Rehefa mandray sary ho fampidirana ny tambazotra neural, dia miteraka véctor dimensional N(128) ho an'ny tsirairay amin'izy ireo ary misy fangatahana hanombanana ny akaiky ny sary. Manaraka, kajy ny tokonam-baravarana izay heverina ho dika mitovy ny sary akaiky.

Ny maodely dia mahay mahita spammers izay maka sary manokana ny vokatra mitovy amin'ny lafiny samihafa mba hialana amin'ny fampitahana pHash.

Ahoana ny fomba fandrindrana ny dokaAhoana ny fomba fandrindrana ny doka
Ohatra iray amin'ny sary spam natambatra tamin'ny tambajotra neural ho dika mitovy.

Amin'ny dingana farany dia karohina miaraka amin'ny lahatsoratra sy sary ny dokam-barotra dika mitovy.

Raha doka roa na maromaro no miraikitra ao anaty cluster, dia manomboka fanakanana mandeha ho azy ny rafitra, izay, amin'ny fampiasana algorithm sasany, mifidy izay dika mitovy hofafana sy izay hiala. Ohatra, raha manana sary mitovy amin'ny doka iray ny mpampiasa roa, dia hosakanan'ny rafitra ilay doka vao haingana.

Rehefa voaforona dia mandalo sivana mandeha ho azy ny cluster rehetra. Ny sivana tsirairay dia manome isa ho an'ny kluster: ahoana ny mety hisian'ny fandrahonana fantatr'io sivana io.

Ohatra, ny rafitra dia manadihady ny famaritana amin'ny doka iray ary mifidy sokajy mety ho azy. Avy eo dia alainy ilay manana probability ambony indrindra ary ampitahaina amin'ny sokajy voatondron'ny mpanoratra ny doka. Raha tsy mifanaraka izy ireo dia voasakana ny doka noho ny sokajy diso. Ary satria tsara fanahy sy manao ny marina izahay, dia lazainay mivantana amin'ny mpampiasa ny sokajy tokony hofidiny mba hahafahan'ilay doka handalo ny antonony.

Ahoana ny fomba fandrindrana ny doka
Fampahafantarana ny fanakanana ho an'ny sokajy diso.

Ny fianarana milina dia mahatsiaro tena ao an-trano amin'ny sehatray. Ohatra, miaraka amin'ny fanampiany dia mikaroka ao amin'ny anarana sy ny famaritana ny entana voarara ao amin'ny Federasiona Rosiana. Ary ny maodelin'ny tambajotra neural dia "mandinika" ny sary mba hahitana raha misy URL, lahatsoratra spam, laharan-telefaona, ary fampahalalana "voarara" mitovy.

Ho an'ny tranga izay ezahan'izy ireo hivarotra vokatra voarara nafenina ho toy ny zavatra ara-dalàna, ary tsy misy lahatsoratra ao amin'ny lohateny na famaritana, dia mampiasa fametahana sary izahay. Ho an'ny sary tsirairay dia azo ampiana marika hatramin'ny 11 arivo izay mamaritra ny ao anaty sary.

Ahoana ny fomba fandrindrana ny doka
Miezaka mivarotra ny hookah izy ireo amin'ny fanafenana azy ho samovar.

Mifanaraka amin'ny sivana sarotra, miasa ihany koa ireo tsotra, mamaha olana miharihary mifandraika amin'ny lahatsoratra:

  • antimat;
  • URL sy nomeraon-telefaona detector;
  • fanononana iraka avy hatrany sy fifandraisana hafa;
  • fihenam-bidy;
  • dokam-barotra tsy misy na inona na inona amidy, sns.

Ankehitriny, ny doka tsirairay dia mandalo sivana tsara misy sivana mandeha ho azy 50 mahery izay manandrana mitady zavatra ratsy ao amin'ny doka.

Raha tsy misy ny mpitsikilo miasa, dia misy valiny alefa any amin'i Yula fa ny doka dia "azo inoana indrindra" amin'ny filaharana tonga lafatra. Izahay ihany no mampiasa ity valiny ity, ary ireo mpampiasa izay nisoratra anarana tamin'ny mpivarotra dia mahazo fampandrenesana momba ny fisian'ny vokatra vaovao.

Ahoana ny fomba fandrindrana ny doka
Fampandrenesana fa manana vokatra vaovao ny mpivarotra.

Vokatr'izany, ny doka tsirairay dia "lehibe" amin'ny metadata, ny sasany amin'izy ireo dia vokarina rehefa noforonina ny doka (adiresy IP an'ny mpanoratra, mpampiasa-agent, sehatra, geolocation, sns.), ary ny ambiny dia ny isa navoakan'ny sivana tsirairay. .

Filaharana fanambarana

Rehefa midona amin'ny lampihazo ny doka iray dia apetrak'ilay rafitra ao anatin'ny iray amin'ireo filaharana izany. Ny filaharana tsirairay dia noforonina mampiasa raikipohy matematika izay manambatra ny metadata doka amin'ny fomba hamantarana ireo lamina ratsy.

Ohatra, azonao atao ny mamorona filaharana dokam-barotra ao amin'ny sokajy "Telefaonina finday" avy amin'ireo mpampiasa Yula izay heverina fa avy any Saint-Pétersbourg, fa ny adiresy IP-ny dia avy any Moskoa na tanàna hafa.

Ahoana ny fomba fandrindrana ny doka
Ohatra iray amin'ny dokambarotra navoakan'ny mpampiasa iray any amin'ny tanàna samihafa.

Na azonao atao ny mamorona filaharana mifototra amin'ny isa omen'ny tamba-jotra neural amin'ny doka, mandamina azy ireo amin'ny filaharana midina.

Ny filaharana tsirairay, araka ny raikipony manokana, dia manome isa farany amin'ny doka. Avy eo dia afaka mandeha amin'ny fomba samihafa ianao:

  • mamaritra ny tokonam-baravarana izay hahazoan'ny doka iray karazana fanakanana;
  • alefaso any amin'ny mpandrindra ny doka rehetra ao anaty filaharana mba hojerena amin'ny tanana;
  • na manambatra ny safidy teo aloha: mamaritra ny tokonam-baravarana mandeha ho azy ary alefaso any amin'ny mpandrindra ireo doka tsy tonga amin'ity toko ity.

Ahoana ny fomba fandrindrana ny doka

Nahoana no ilaina ireo filaharana ireo? Andeha hatao hoe nisy mpampiasa nampiakatra sarin'ny basy. Ny tambajotra neural dia manome isa avy amin'ny 95 ka hatramin'ny 100 ary mamaritra amin'ny fahamarinan'ny 99 isan-jato fa misy fitaovam-piadiana eo amin'ny sary. Fa raha latsaky ny 95% ny sandan'ny isa, dia manomboka mihena ny fahamarinan'ny modely (izany dia singa iray amin'ny maodely neural network).

Vokatr'izany, misy filaharana miorina amin'ny maodely naoty, ary ireo doka mahazo eo anelanelan'ny 95 sy 100 dia voasakana ho azy ho "Prohibited Products". Ny doka misy naoty ambanin'ny 95 dia alefa any amin'ny mpandrindra ho an'ny fanodinana tanana.

Ahoana ny fomba fandrindrana ny doka
Chocolate Beretta misy cartridges. Ho an'ny moderation manual ihany! 🙂

Fanamafisana ny tanana

Tamin'ny fiandohan'ny taona 2019, manodidina ny 94% amin'ny dokambarotra rehetra amin'ny Yula no arindra ho azy.

Ahoana ny fomba fandrindrana ny doka

Raha tsy afaka manapa-kevitra amin'ny doka sasany ny sehatra, dia alefany amin'ny fandrindrana manual. Odnoklassniki dia namolavola ny fitaovany manokana: ny asa ho an'ny mpandrindra dia mampiseho avy hatrany ny fampahalalana rehetra ilaina mba handraisana fanapahan-kevitra haingana - mety ny doka na tokony hosakanana, manondro ny antony.

Ary mba tsy hiharatsy ny kalitaon'ny serivisy mandritra ny fanodinkodinana amin'ny tanana, dia arahi-maso tsy tapaka ny asan'ny olona. Ohatra, ao amin'ny rindranasa asa, ny mpandrindra dia aseho "fandrika" - doka izay efa misy vahaolana efa vita. Raha tsy mifanandrify amin’ny efa vita ny fanapahan-kevitry ny mpandrindra dia omena fahadisoana ny mpandrindra.

Amin'ny antsalany, mandany 10 segondra ny mpandrindra mijery dokambarotra iray. Ankoatr'izay, ny isan'ny lesoka dia tsy mihoatra ny 0,5% amin'ny doka voamarina rehetra.

Ny fahamatoran'ny olona

Ny mpiara-miasa ao amin'ny Odnoklassniki dia lasa lavitra kokoa ary nanararaotra ny "fanampiana ny mpihaino": nanoratra fampiharana lalao ho an'ny tambajotra sosialy izay ahafahanao manamarika haingana ny angon-drakitra marobe, manasongadina famantarana ratsy - Odnoklassniki Moderator (https://ok.ru/app/moderator). Fomba tsara araraotina ny fanampian'ireo mpampiasa OK izay miezaka manao ny atiny hahafinaritra kokoa.

Ahoana ny fomba fandrindrana ny doka
Lalao izay ahitana mpampiasa manisy sary misy laharana finday.

Izay filaharana doka rehetra ao amin'ny lampihazo dia azo averina mankany amin'ny lalao Odnoklassniki Moderator. Ny zavatra rehetra voamariky ny mpampiasa lalao dia alefa any amin'ny mpandrindra anatiny ho fanamarinana. Ity tetika ity dia ahafahanao manakana ny doka izay mbola tsy noforonina ny sivana, ary mamorona santionany fanofanana.

Mitahiry ny valin'ny antonony

Tehirizinay ny fanapahan-kevitra rehetra noraisina nandritra ny antonony mba tsy hamerenanay ireo doka efa noraisinay.

Vondrona an-tapitrisany no noforonina isan'andro mifototra amin'ny dokam-barotra. Rehefa mandeha ny fotoana, ny cluster tsirairay dia misy soratra hoe "tsara" na "ratsy". Ny doka vaovao tsirairay na ny fanavaozana azy, miditra amina kluster misy marika, dia mahazo fanapahan-kevitra avy amin'ny kluster mihitsy. Misy 20 arivo eo ho eo ny fanapahan-kevitra mandeha ho azy isan'andro.

Ahoana ny fomba fandrindrana ny doka

Raha tsy misy fampandrenesana vaovao tonga ao amin'ny cluster, dia esorina amin'ny fitadidiana izany ary ny tenifototra sy ny vahaolana dia nosoratana ho an'i Apache Cassandra.

Rehefa mahazo dokam-barotra vaovao ny sehatra dia manandrana mitady cluster mitovy amin'ireo efa noforonina aloha izy ary maka vahaolana amin'izany. Raha tsy misy cluster toy izany dia mankany Cassandra ny lampihazo ary mijery any. Hitanao ve izany? Tsara, ampiharo ny vahaolana amin'ny cluster ary alefa any Yula. Misy eo ho eo amin'ny 70 arivo isan'andro ny fanapahan-kevitra “miverimberina” toy izany—8% amin'ny fitambarany.

To summarize

Efa roa taona sy tapany no nampiasanay ny sehatra fanonerana Odnoklassniki. Tianay ny valiny:

  • Mandefitra ho azy ny 94% amin'ny doka rehetra isan'andro izahay.
  • Ny vidin'ny fanodinana doka iray dia nihena avy amin'ny 2 roubles ho 7 kopecks.
  • Noho ny fitaovana efa vita dia adinonay ny olana amin'ny fitantanana ny mpandrindra.
  • Nampitomboinay in-2,5 ny isan'ny doka vita tanana miaraka amin'ireo mpandrindra sy tetibola mitovy. Nitombo ihany koa ny kalitaon'ny fanodinana manual noho ny fanaraha-maso mandeha ho azy, ary miovaova manodidina ny 0,5% ny fahadisoana.
  • Mandrakotra haingana ireo karazana spam vaovao miaraka amin'ny sivana izahay.
  • Mampifandray haingana ireo departemanta vaovao amin'ny antonony izahay "Yula Verticals". Hatramin'ny taona 2017, Yula dia nanampy ny Real Estate, Vacancies ary Auto verticals.

Source: www.habr.com

Add a comment