Ինչպես բացել մեկնաբանությունները և չխեղդվել սպամի մեջ

Ինչպես բացել մեկնաբանությունները և չխեղդվել սպամի մեջ

Երբ քո գործը գեղեցիկ բան ստեղծելն է, պետք չէ դրա մասին շատ խոսել, քանի որ արդյունքը բոլորի աչքի առաջ է։ Բայց եթե դուք ջնջեք մակագրությունները ցանկապատերից, ոչ ոք չի նկատի ձեր աշխատանքը, քանի դեռ ցանկապատերը պարկեշտ տեսք ունեն կամ քանի դեռ չեք ջնջել ինչ-որ սխալ բան:

Ցանկացած ծառայություն, որտեղ դուք կարող եք մեկնաբանություն թողնել, վերանայել, հաղորդագրություն ուղարկել կամ նկարներ վերբեռնել, վաղ թե ուշ բախվում է սպամի, խարդախության և անպարկեշտության խնդրին: Սրանից չի կարելի խուսափել, բայց դրանով պետք է զբաղվել:

Ես Միխայիլն եմ, աշխատում եմ Antispam թիմում, որը պաշտպանում է Yandex-ի ծառայությունների օգտատերերին նման խնդիրներից։ Մեր աշխատանքը հազվադեպ է նկատվում (և դա լավ բան է), այնպես որ այսօր ես ձեզ ավելի շատ կպատմեմ դրա մասին: Դուք կսովորեք, երբ չափավորությունն անօգուտ է, և ինչու ճշգրտությունը դրա արդյունավետության միակ ցուցանիշը չէ: Կխոսենք նաև կատուների և շների օրինակով հայհոյելու մասին և ինչու է երբեմն օգտակար «հայհոյողի պես մտածել»։

Ավելի ու ավելի շատ ծառայություններ են հայտնվում Yandex-ում, որտեղ օգտատերերը հրապարակում են իրենց բովանդակությունը: Կարող եք հարց տալ կամ պատասխանել Yandex.Q-ում, քննարկել բակի նորությունները Yandex.District-ում, կիսվել երթևեկության պայմաններով Yandex.Maps-ում խոսակցություններում: Բայց երբ ծառայության լսարանը մեծանում է, այն գրավիչ է դառնում խաբեբաների և սպամերի համար: Գալիս են մեկնաբանություններ լրացնում. առաջարկում են հեշտ գումար, գովազդում հրաշք բուժումներ և խոստանում սոցիալական արտոնություններ։ Սպամերի պատճառով որոշ օգտատերեր կորցնում են գումար, իսկ ոմանք կորցնում են ժամանակ ծախսելու ցանկությունը սպամով գերաճած անխնամ ծառայության վրա:

Եվ սա միակ խնդիրը չէ։ Մենք ձգտում ենք ոչ միայն պաշտպանել օգտատերերին խաբեբաներից, այլ նաև ստեղծել հարմարավետ մթնոլորտ շփման համար: Եթե ​​մեկնաբանություններում մարդիկ բախվում են հայհոյանքներին և վիրավորանքներին, նրանք ամենայն հավանականությամբ կհեռանան և այլևս չեն վերադառնա: Սա նշանակում է, որ դուք նույնպես պետք է կարողանաք դրանով զբաղվել:

Մաքուր վեբ

Ինչպես մեզ մոտ հաճախ է լինում, առաջին զարգացումները ծնվեցին Search-ում, այն մասում, որը պայքարում է որոնման արդյունքներում սպամի դեմ: Մոտ տասը տարի առաջ այնտեղ հայտնվեց մեծահասակների համար նախատեսված բովանդակությունը զտելու ընտանեկան որոնումների և 18+ կատեգորիայի պատասխաններ չպահանջող հարցումների համար: Այսպես հայտնվեցին պոռնոգրաֆիայի և հայհոյանքի առաջին ձեռքով մուտքագրված բառարանները, դրանք համալրվեցին վերլուծաբանների կողմից։ Հիմնական խնդիրն այն էր, որ հարցումները դասակարգվեն ըստ նրանց, որտեղ ընդունելի է մեծահասակների համար նախատեսված բովանդակություն ցուցադրել, իսկ որտեղ՝ ոչ: Այս առաջադրանքի համար հավաքագրվել են նշումներ, կառուցվել են էվրիստիկա և վերապատրաստվել են մոդելներ: Այսպես հայտնվեցին անցանկալի բովանդակության զտման առաջին մշակումները։

Ժամանակի ընթացքում Yandex-ում սկսեց հայտնվել UGC-ն (օգտագործողի կողմից ստեղծված բովանդակություն)՝ հաղորդագրություններ, որոնք գրված են հենց օգտատերերի կողմից, իսկ Yandex-ը միայն հրապարակում է: Վերը նկարագրված պատճառներով շատ հաղորդագրություններ չէին կարող հրապարակվել առանց նայելու. չափավորությունը պահանջվում էր: Այնուհետև նրանք որոշեցին ստեղծել ծառայություն, որը պաշտպանություն կապահովի սպամից և հարձակվողներից Yandex UGC-ի բոլոր ապրանքների համար և կօգտագործի զարգացումները՝ Search-ում անցանկալի բովանդակությունը զտելու համար: Ծառայությունը կոչվում էր «Մաքուր վեբ»:

Նոր առաջադրանքներ և օգնություն հրողների կողմից

Սկզբում մեզ մոտ միայն պարզ ավտոմատացումն էր աշխատում. ծառայությունները մեզ տեքստեր էին ուղարկում, և մենք գործարկում էինք անպարկեշտ բառարաններ, պոռնո բառարաններ և դրանց վրա կանոնավոր արտահայտություններ. վերլուծաբաններն ամեն ինչ ձեռքով կազմեցին: Սակայն ժամանակի ընթացքում ծառայությունն օգտագործվում էր Yandex-ի աճող թվով արտադրանքներում, և մենք ստիպված էինք սովորել աշխատել նոր խնդիրների հետ:

Հաճախ ակնարկի փոխարեն օգտատերերը հրապարակում են անիմաստ նամակների շարք՝ փորձելով մեծացնել իրենց ձեռքբերումները, երբեմն գովազդում են իրենց ընկերությունը մրցակցի ընկերության ակնարկներում, իսկ երբեմն էլ պարզապես շփոթեցնում են կազմակերպություններին և ակնարկում գրում կենդանիների խանութի մասին. Կատարյալ եփած ձուկ։ Թերևս մի օր արհեստական ​​ինտելեկտը կսովորի կատարելապես ընկալել ցանկացած տեքստի իմաստը, բայց այժմ ավտոմատացումը երբեմն ավելի վատ է հաղթահարում, քան մարդիկ:

Պարզ դարձավ, որ մենք չէինք կարող դա անել առանց ձեռքով նշագրման, և մենք ավելացրինք երկրորդ փուլը մեր շղթայում՝ ուղարկելով այն անձի կողմից ձեռքով ստուգման: Այն հրապարակված տեքստերը, որոնց համար դասակարգիչը խնդիրներ չի տեսել, ներառվել են այնտեղ։ Դուք հեշտությամբ կարող եք պատկերացնել նման առաջադրանքի մասշտաբները, ուստի մենք ոչ միայն հույսը դրեցինք գնահատողների վրա, այլև օգտվեցինք «ամբոխի իմաստությունից», այսինքն՝ դիմեցինք օգնականներին։ Նրանք են, ովքեր օգնում են մեզ բացահայտել, թե ինչ է բաց թողել մեքենան և դրանով սովորեցնել այն:

Խելացի քեշավորում և LSH հեշինգ

Մեկ այլ խնդիր, որին հանդիպեցինք մեկնաբանությունների հետ աշխատելիս, սպամն էր, ավելի ճիշտ՝ դրա տարածման ծավալն ու արագությունը։ Երբ Yandex.Region լսարանը սկսեց արագ աճել, այնտեղ եկան սպամերներ: Նրանք սովորեցին շրջանցել կանոնավոր արտահայտությունները՝ մի փոքր փոխելով տեքստը: Սպամը, իհարկե, դեռ գտնվեց և ջնջվեց, բայց Yandex-ի մասշտաբով նույնիսկ 5 րոպեով տեղադրված անընդունելի հաղորդագրությունը կարող էր տեսնել հարյուրավոր մարդիկ։

Ինչպես բացել մեկնաբանությունները և չխեղդվել սպամի մեջ

Իհարկե, սա մեզ չէր համապատասխանում, և մենք խելացի տեքստի քեշավորում արեցինք LSH-ի հիման վրա (տեղայնության նկատմամբ զգայուն հեշինգ) Այն աշխատում է այսպես. մենք նորմալացրել ենք տեքստը, հեռացրել ենք հղումները և կտրատել այն n-գրամների (n տառերի հաջորդականություն): Այնուհետև հաշվարկվել են n-գրամների հեշերը և դրանցից կառուցվել է փաստաթղթի LSH վեկտորը։ Բանն այն է, որ նմանատիպ տեքստերը, թեկուզ փոքր-ինչ փոփոխված, վերածվել են նմանատիպ վեկտորների։

Այս լուծումը հնարավորություն տվեց կրկին օգտագործել դասակարգիչների և ցուցիչների դատավճիռները նմանատիպ տեքստերի համար: Սպամի հարձակման ժամանակ, հենց որ առաջին հաղորդագրությունն անցավ սկանավորումը և մտավ քեշ «սպամ» վճիռով, բոլոր նոր նմանատիպ հաղորդագրությունները, նույնիսկ փոփոխվածները, ստացան նույն վճիռը և ինքնաբերաբար ջնջվեցին: Ավելի ուշ մենք սովորեցինք, թե ինչպես վարժեցնել և ավտոմատ կերպով վերապատրաստել սպամի դասակարգիչները, բայց այս «խելացի քեշը» մնաց մեզ հետ և դեռ հաճախ օգնում է մեզ:

Լավ տեքստի դասակարգիչ

Չհասցնելով ընդմիջել սպամի դեմ պայքարից՝ մենք հասկացանք, որ մեր բովանդակության 95%-ը վերահսկվում է ձեռքով. դասակարգիչներն արձագանքում են միայն խախտումներին, և տեքստերի մեծ մասը լավն է: Մենք բեռնում ենք հավաքարարներ, որոնք 95-ից 100-ի դեպքում տալիս են «Ամեն ինչ կարգին» վարկանիշը։ Ես ստիպված էի անսովոր աշխատանք կատարել՝ լավ բովանդակության դասակարգիչներ պատրաստելը, բարեբախտաբար, այս ընթացքում բավականաչափ նշագրումներ էին կուտակվել:

Առաջին դասակարգիչը այսպիսի տեսք ուներ. մենք լեմմատացնում ենք տեքստը (բառերը իջեցնում ենք իրենց սկզբնական ձևին), դուրս ենք նետում խոսքի բոլոր օժանդակ մասերը և օգտագործում նախապես պատրաստված «լավ լեմաների բառարան»: Եթե ​​տեքստի բոլոր բառերը «լավ» են, ապա ամբողջ տեքստը որևէ խախտում չի պարունակում: Տարբեր ծառայությունների դեպքում այս մոտեցումը անմիջապես տվեց 25-ից 35% ձեռքով նշագրման ավտոմատացում: Իհարկե, այս մոտեցումը իդեալական չէ. հեշտ է համատեղել մի քանի անմեղ բառեր և ստանալ շատ վիրավորական արտահայտություն, բայց դա մեզ թույլ տվեց արագ հասնել ավտոմատացման լավ մակարդակի և ժամանակ տվեց ավելի բարդ մոդելներ վարժեցնելու համար:

Լավ տեքստի դասակարգիչների հաջորդ տարբերակներն արդեն ներառում էին գծային մոդելներ, որոշումների ծառեր և դրանց համակցություններ: Կոպտությունն ու վիրավորանքը նշելու համար, օրինակ, մենք փորձում ենք BERT նեյրոնային ցանցը։ Կարևոր է հասկանալ բառի իմաստը համատեքստում և տարբեր նախադասությունների բառերի միջև կապը, և BERT-ը դա լավ է անում: (Ի դեպ, վերջերս News-ի գործընկերները պատմեց, ինչպես է տեխնոլոգիան օգտագործվում ոչ ստանդարտ առաջադրանքի համար՝ վերնագրերում սխալներ գտնելու համար։) Արդյունքում հնարավոր եղավ ավտոմատացնել հոսքի մինչև 90%-ը՝ կախված ծառայությունից։

Ճշգրտություն, ամբողջականություն և արագություն

Զարգանալու համար դուք պետք է հասկանաք, թե ինչ օգուտներ են բերում որոշակի ավտոմատ դասակարգիչներ, դրանց փոփոխությունները և արդյոք ձեռքով ստուգումների որակը ստորացուցիչ է: Դա անելու համար մենք օգտագործում ենք ճշգրիտ և հետ կանչող չափումներ:

Ճշգրտությունը ճիշտ դատավճիռների համամասնությունն է վատ բովանդակության վերաբերյալ բոլոր դատավճիռների մեջ: Որքան բարձր է ճշգրտությունը, այնքան քիչ են կեղծ պոզիտիվները: Եթե ​​ուշադրություն չեք դարձնում ճշգրտությանը, ապա տեսականորեն կարող եք ջնջել բոլոր սպամն ու անպարկեշտությունը, և դրանց հետ մեկտեղ լավ հաղորդագրությունների կեսը: Մյուս կողմից, եթե հույսը դնում եք միայն ճշգրտության վրա, ապա լավագույն տեխնոլոգիան կլինի այն, որն ընդհանրապես ոչ մեկին չի բռնում: Հետևաբար, կա նաև ամբողջականության ցուցանիշ՝ բացահայտված վատ բովանդակության տեսակարար կշիռը վատ բովանդակության ընդհանուր ծավալի մեջ։ Այս երկու ցուցանիշները հավասարակշռում են միմյանց:

Չափելու համար մենք նմուշառում ենք ամբողջ մուտքային հոսքը յուրաքանչյուր ծառայության համար և բովանդակության նմուշներ ենք տալիս գնահատողներին՝ փորձագիտական ​​գնահատման և մեքենայական լուծումների հետ համեմատելու համար:

Բայց կա ևս մեկ կարևոր ցուցանիշ.

Վերևում գրել էի, որ անընդունելի հաղորդագրությունը հարյուրավոր մարդիկ կարող են տեսնել նույնիսկ 5 րոպեում։ Այսպիսով, մենք հաշվում ենք, թե քանի անգամ ենք մարդկանց վատ բովանդակություն ցույց տվել նախքան այն թաքցնելը: Սա կարևոր է, քանի որ բավարար չէ արդյունավետ աշխատելը. անհրաժեշտ է նաև արագ աշխատել: Եվ երբ մենք պաշտպանություն կառուցեցինք հայհոյանքից, մենք դա լիովին զգացինք:

Անտիմատիզմ՝ օգտագործելով կատուների և շների օրինակը

Փոքրիկ քնարական շեղում. Ոմանք կարող են ասել, որ անպարկեշտությունն ու վիրավորանքն այնքան վտանգավոր չեն, որքան վնասակար հղումները, և ոչ այնքան նյարդայնացնող, որքան սպամը: Բայց մենք ձգտում ենք միլիոնավոր օգտատերերի համար շփման համար հարմարավետ պայմաններ պահպանել, և մարդիկ չեն սիրում վերադառնալ այն վայրերը, որտեղ իրենց վիրավորում են։ Իզուր չէ, որ հայհոյանքների և վիրավորանքների արգելքը գրված է շատ համայնքների կանոններով, այդ թվում՝ Հաբրեում։ Բայց մենք շեղվում ենք.

Հայհոյախոսական բառարանները չեն կարողանում հաղթահարել ռուսաց լեզվի ողջ հարստությունը։ Չնայած այն հանգամանքին, որ կան միայն չորս հիմնական հայհոյանքի արմատներ, դրանցից դուք կարող եք կազմել անհամար թվով բառեր, որոնք չեն կարող բռնվել որևէ սովորական շարժիչի կողմից: Բացի այդ, դուք կարող եք բառի մի մասը գրել տառադարձությամբ, տառերը փոխարինել նմանատիպ համակցություններով, վերադասավորել տառերը, ավելացնել աստղանիշներ և այլն: Երբեմն, առանց համատեքստի, հիմնականում անհնար է որոշել, որ օգտագործողը նկատի է ունեցել հայհոյանք: Մենք հարգում ենք Հաբրի կանոնները, ուստի մենք դա ցույց կտանք ոչ թե կենդանի օրինակներով, այլ կատուներով և շներով:

Ինչպես բացել մեկնաբանությունները և չխեղդվել սպամի մեջ

«Օրենք», - ասաց կատուն: Բայց մենք հասկանում ենք, որ կատուն այլ խոսք ասաց...

Մենք սկսեցինք մտածել «անորոշ համընկնման» ալգորիթմների մասին մեր բառարանի և ավելի խելացի նախնական մշակման մասին. մենք տրամադրեցինք տառադարձություն, սոսնձեցինք բացատները և կետադրական նշանները, փնտրեցինք նախշեր և գրեցինք դրանց վրա առանձին կանոնավոր արտահայտություններ: Այս մոտեցումը բերեց արդյունքներ, բայց հաճախ նվազեցրեց ճշգրտությունը և չապահովեց ցանկալի ամբողջականությունը:

Հետո որոշեցինք «հայհոյողների պես մտածել»։ Մենք ինքներս սկսեցինք տվյալների մեջ աղմուկ մտցնել. տառերը վերադասավորեցինք, տառասխալներ ստեղծեցինք, տառերը փոխարինեցինք նմանատիպ ուղղագրություններով և այլն: Սրա սկզբնական նշումը վերցվել է տեքստերի մեծ կորպորացիաների վրա կիրառելով mat բառարաններ: Եթե ​​վերցնում եք մեկ նախադասություն և շրջում այն ​​մի քանի ձևով, ապա կհանգեցնեք բազմաթիվ նախադասությունների: Այս կերպ դուք կարող եք տասնյակ անգամ ավելացնել վերապատրաստման նմուշը: Մնում էր միայն ստացված լողավազանի վրա մարզվել մի քիչ թե շատ խելացի մոդել, որը հաշվի էր առնում համատեքստը:

Ինչպես բացել մեկնաբանությունները և չխեղդվել սպամի մեջ

Վերջնական որոշման մասին դեռ վաղ է խոսել։ Մենք դեռ փորձարկում ենք այս խնդրի մոտեցումները, բայց արդեն կարող ենք տեսնել, որ մի քանի շերտերից բաղկացած պարզ խորհրդանշական կոնվոլյուցիոն ցանցը զգալիորեն գերազանցում է բառարաններին և սովորական շարժիչներին. հնարավոր է բարձրացնել և՛ ճշգրտությունը, և՛ հիշելը:

Իհարկե, մենք հասկանում ենք, որ միշտ էլ կլինեն ճանապարհներ շրջանցելու նույնիսկ ամենաառաջադեմ ավտոմատացումը, հատկապես, երբ գործն այնքան վտանգավոր է. գրել այնպես, որ հիմար մեքենան չհասկանա: Այստեղ, ինչպես սպամի դեմ պայքարում, մեր նպատակն է ոչ թե վերացնել անպարկեշտ բան գրելու բուն հնարավորությունը, այլ մեր խնդիրն է համոզվել, որ խաղը մոմ արժե:

Ձեր կարծիքը կիսելու, շփվելու և մեկնաբանելու հնարավորություն բացելը դժվար չէ։ Շատ ավելի դժվար է հասնել անվտանգ, հարմարավետ պայմանների և մարդկանց նկատմամբ հարգալից վերաբերմունքի։ Իսկ առանց դրա ոչ մի համայնքի զարգացում չի լինի։

Source: www.habr.com

Добавить комментарий