تبصرو ڪيئن کوليو ۽ اسپام ۾ غرق نه ٿيو

تبصرو ڪيئن کوليو ۽ اسپام ۾ غرق نه ٿيو

جڏهن توهان جو ڪم ڪجهه خوبصورت ٺاهڻ آهي، توهان کي ان بابت گهڻو ڳالهائڻ جي ضرورت ناهي، ڇاڪاڻ ته نتيجو سڀني جي اکين اڳيان آهي. پر جيڪڏهن توهان باڑوں مان لکت کي ختم ڪريو ٿا، ڪو به توهان جي ڪم کي نوٽيس نه ڪندو جيستائين باڑ مهذب نظر اچن يا جيستائين توهان ڪجهه غلط کي ختم نه ڪندا.

ڪا به خدمت جتي توهان تبصرو، جائزو، پيغام موڪلڻ يا تصويرون اپلوڊ ڪري سگهو ٿا جلدي يا بعد ۾ اسپام، فريب ۽ فحش جي مسئلي کي منهن ڏئي ٿو. ان کان پاسو نٿو ڪري سگهجي، پر ان کي منهن ڏيڻ گهرجي.

منهنجو نالو ميخائل آهي، مان اينٽي اسپام ٽيم تي ڪم ڪريان ٿو، جيڪو Yandex خدمتن جي استعمال ڪندڙن کي اهڙن مسئلن کان بچائيندو آهي. اسان جو ڪم گهٽ ۾ گهٽ محسوس ڪيو ويو آهي (۽ اها هڪ سٺي شيء آهي!)، تنهنڪري اڄ آئون توهان کي ان بابت وڌيڪ ٻڌائيندس. توهان سکندا سين جڏهن اعتدال بيڪار آهي ۽ ڇو درستگي ان جي اثرائتي جو واحد اشارو نه آهي. اسان ٻليون ۽ ڪتن جو مثال استعمال ڪندي قسم کڻڻ جي باري ۾ پڻ ڳالهائينداسين ۽ ڇو ته اهو ڪڏهن ڪڏهن مفيد آهي "سوئرر وانگر سوچيو."

وڌيڪ ۽ وڌيڪ خدمتون Yandex ۾ ظاهر ٿي رهيا آهن جتي صارف پنهنجو مواد شايع ڪندا آهن. توهان Yandex.Q ۾ هڪ سوال پڇي يا جواب لکي سگهو ٿا، Yandex.District ۾ يارڊ جي خبرن تي بحث ڪري سگهو ٿا، Yandex.Maps تي ڳالهين ۾ ٽرئفڪ جي حالتن کي حصيداري ڪريو. پر جڏهن خدمت جا سامعين وڌندا آهن، اهو اسڪيمرز ۽ اسپامرز لاءِ پرڪشش بڻجي ويندو آهي. اهي ايندا آهن ۽ رايا ڀريندا آهن: اهي آسان پئسا پيش ڪن ٿا، معجزاتي علاج جو اعلان ڪن ٿا ۽ سماجي فائدن جو واعدو ڪن ٿا. اسپامرز جي ڪري، ڪجهه استعمال ڪندڙ پئسا وڃائي ڇڏيندا آهن، جڏهن ته ٻيا اسپام سان گڏ هڪ غير معمولي خدمت تي وقت گذارڻ جي خواهش کي وڃائي ڇڏيندا آهن.

۽ اهو صرف مسئلو ناهي. اسان نه رڳو صارفين کي اسڪيمرز کان بچائڻ جي ڪوشش ڪندا آهيون، پر رابطي لاءِ هڪ آرامده ماحول پيدا ڪرڻ لاءِ پڻ. جيڪڏهن ماڻهن کي تبصرن ۾ قسم کڻڻ ۽ بي عزتي سان منهن ڏيڻو پوي ٿو، انهن کي ڇڏڻ جو امڪان آهي ۽ ڪڏهن به واپس نه ايندو. هن جو مطلب آهي ته توهان کي به هن سان ڊيل ڪرڻ جي قابل ٿي هجڻ ضروري آهي.

صاف ويب

جيئن ته اڪثر اسان سان معاملو آهي، پهرين ترقيات ڳولا ۾ پيدا ٿيا، انهي حصي ۾ جيڪي ڳولا جي نتيجن ۾ اسپام سان وڙهندا آهن. اٽڪل ڏهه سال اڳ، خانداني ڳولها ۽ سوالن لاءِ بالغن جي مواد کي فلٽر ڪرڻ جو ڪم جنهن کي 18+ درجي جي جوابن جي ضرورت نه هئي اتي ظاهر ٿيو. اهو ڪيئن آهي ته پهريون دستي طور تي ٽائپ ڪيل لغتون فحش ۽ قسم کڻڻ، اهي تجزيه نگارن طرفان ڀريا ويا. مکيه ڪم درخواستن کي انهن ۾ درجه بندي ڪرڻ هو جتي بالغن جو مواد ڏيکارڻ قابل قبول آهي ۽ ڪٿي ناهي. هن ڪم لاء، مارڪ اپ گڏ ڪيو ويو، هوريسٽڪس ٺاهيا ويا، ۽ ماڊل تربيت ڏني وئي. هي ڪيئن ناپسنديده مواد کي فلٽر ڪرڻ لاء پهريون ترقي ظاهر ٿيو.

ڪجهه وقت کان پوء، يو جي سي (يوزر ٺاهيل مواد) Yandex ۾ ظاهر ٿيڻ شروع ڪيو - پيغام جيڪي پاڻ صارفين طرفان لکيل آهن، ۽ Yandex صرف شايع ڪري ٿو. مٿي بيان ڪيل سببن جي ڪري، ڪيترائي نياپا ڏسڻ کان سواءِ شايع نه ٿي سگهيا - اعتدال جي ضرورت هئي. ان کان پوء انهن هڪ خدمت ٺاهڻ جو فيصلو ڪيو جيڪو سڀني Yandex UGC پروڊڪٽس لاء اسپام ۽ حملي ڪندڙن جي خلاف تحفظ فراهم ڪندو ۽ ڳولا ۾ ناپسنديده مواد کي فلٽر ڪرڻ لاء ترقيات استعمال ڪندي. خدمت کي "صاف ويب" سڏيو ويو.

نون ڪمن ۽ pushers کان مدد

پهرين ۾، صرف سادي آٽوميشن اسان لاءِ ڪم ڪيو: خدمتن اسان کي متن موڪليا، ۽ اسان انهن تي فحش لغتون، فحش ڊڪشنريون ۽ باقاعده اظهار هلائيندا هئاسين - تجزيه نگار هر شي کي دستي طور تي مرتب ڪيو. پر وقت سان گڏ، خدمت Yandex مصنوعات جي وڌندڙ تعداد ۾ استعمال ڪيو ويو، ۽ اسان کي نئين مسئلن سان ڪم ڪرڻ سکڻو پوندو.

گهڻو ڪري، هڪ جائزو جي بدران، صارفين خطن جو هڪ بي معني سيٽ شايع ڪندا آهن، انهن جي ڪاميابين کي وڌائڻ جي ڪوشش ڪندا آهن، ڪڏهن ڪڏهن اهي پنهنجي ڪمپني کي مقابلي واري ڪمپني جي جائزي ۾ اشتهار ڏين ٿا، ۽ ڪڏهن ڪڏهن اهي صرف تنظيمن کي پريشان ڪن ٿا ۽ هڪ پالتو جانور جي دڪان بابت جائزو ۾ لکندا آهن: " بلڪل پڪي مڇي!” ٿي سگهي ٿو ڪنهن ڏينهن مصنوعي ذهانت ڪنهن به متن جي معنيٰ کي پوريءَ طرح سمجھڻ سکي ويندي، پر هاڻي آٽوميشن ڪڏهن ڪڏهن انسانن کان به بدتر آهي.

اهو واضح ٿي ويو ته اسان اهو بغير دستي نشان جي بغير نٿا ڪري سگهون، ۽ اسان پنهنجي سرڪٽ ۾ هڪ ٻيو مرحلو شامل ڪيو- ان کي هڪ شخص طرفان دستي معائنو لاء موڪليو. اُهي شايع ٿيل نصوص جن لاءِ درجي بندي ڪندڙ کي ڪا به تڪليف نظر نه آئي، اُتي شامل ڪئي وئي. توهان آساني سان تصور ڪري سگهو ٿا اهڙي ڪم جي پيماني تي، تنهنڪري اسان نه صرف اندازو لڳائيندڙن تي ڀروسو ڪيو، پر "هجوم جي حڪمت" جو پڻ فائدو ورتو، اهو آهي، اسان مدد لاء ٽولوڪر ڏانهن رخ ڪيو. اھي اھي آھن جيڪي اسان کي سڃاڻڻ ۾ مدد ڪندا آھن ته مشين ڇا وڃايو آھي، ۽ اھڙيء طرح ان کي سيکاريو.

سمارٽ ڪيشنگ ۽ LSH هشنگ

هڪ ٻيو مسئلو جيڪو اسان کي سامهون آيو جڏهن تبصرن سان ڪم ڪري رهيو هو اسپام، يا وڌيڪ واضح طور تي، ان جي مقدار ۽ رفتار جي رفتار. جڏهن Yandex.Region سامعين تيزيء سان وڌڻ شروع ڪيو، اسپامر اتي آيا. هنن سکيو ته متن کي ٿورڙي تبديل ڪندي باقاعده اظهار کي نظرانداز ڪرڻ. اسپام، يقينا، اڃا تائين مليو ۽ ختم ڪيو ويو، پر Yandex جي پيماني تي، 5 منٽن تائين پوسٽ ڪيل هڪ ناقابل قبول پيغام سوين ماڻهن طرفان ڏسي سگهجي ٿو.

تبصرو ڪيئن کوليو ۽ اسپام ۾ غرق نه ٿيو

يقينن، اهو اسان کي مناسب نه هو، ۽ اسان LSH جي بنياد تي سمارٽ ٽيڪسٽ ڪيشنگ ڪيو (مقامي طور تي حساس هيشنگ). اهو هن طرح ڪم ڪري ٿو: اسان متن کي عام ڪيو، ان مان لنڪ هٽايو ۽ ان کي n-grams (n اکر جي ترتيب) ۾ ڪٽيو. اڳيون، n-grams جي hashes ڳڻيا ويا، ۽ دستاويز جي LSH ویکٹر انھن مان ٺهيل هو. نقطو اهو آهي ته ساڳيا نصوص، جيتوڻيڪ اهي ٿورڙي تبديل ڪيا ويا آهن، هڪجهڙائي ویکٹر ۾ تبديل ٿي ويا.

اهو حل اهو ممڪن بڻائي ٿو ته ساڳين متنن لاء درجه بندي ۽ ٽولوڪرز جي فيصلي کي ٻيهر استعمال ڪرڻ. اسپام حملي دوران، جيئن ئي پهريون پيغام اسڪين پاس ڪيو ۽ ڪيش ۾ ”اسپام“ جي فيصلي سان داخل ٿيو، سڀ نوان ساڳيا پيغام، حتي تبديل ٿيل، به ساڳيو فيصلو مليا ۽ پاڻمرادو حذف ٿي ويا. بعد ۾، اسان سکيو ته ڪيئن ٽريننگ ڪجي ۽ خود بخود اسپام ڪلاسفير کي ٻيهر تربيت ڏني وڃي، پر هي ”سمارٽ ڪيش“ اسان سان گڏ رهيو ۽ اڃا به اڪثر اسان جي مدد ڪري ٿو.

سٺو متن جي درجه بندي

اسپام سان وڙهڻ لاءِ وقفو وٺڻ کان سواءِ، اسان محسوس ڪيو ته اسان جو 95٪ مواد دستي طور تي معتدل ڪيو ويو آهي: درجه بندي ڪندڙ صرف خلاف ورزين تي رد عمل ڪن ٿا، ۽ اڪثر نصوص سٺا آهن. اسان صاف ڪندڙ لوڊ ڪريون ٿا جيڪي 95 مان 100 ڪيسن ۾ درجه بندي ڏين ٿا ”سڀ ڪجهه ٺيڪ آهي“. مون کي هڪ غير معمولي نوڪري ڪرڻي هئي - سٺي مواد جي درجه بندي ٺاهڻ، خوش قسمتي سان هن وقت دوران ڪافي مارڪ اپ جمع ٿي چڪو هو.

پهريون ڪلاسيفائر هن طرح نظر آيو: اسان متن کي لميٽائيز ڪريون ٿا (لفظن کي انهن جي شروعاتي شڪل ۾ گهٽائي)، تقرير جي سڀني معاون حصن کي اڇلائي ۽ اڳ ۾ تيار ڪيل "سٺن ليما جي ڊڪشنري" استعمال ڪريو. جيڪڏهن متن ۾ سڀئي لفظ "سٺو" آهن، ته پوء سڄي متن ۾ ڪا به ڀڃڪڙي نه هوندي. مختلف خدمتن تي، هن طريقي سان فوري طور تي 25 کان 35٪ خودڪار طريقي سان دستياب مارڪ اپ ڏني وئي. يقينن، هي طريقو مثالي نه آهي: ڪيترن ئي معصوم لفظن کي گڏ ڪرڻ ۽ هڪ تمام جارحتي بيان حاصل ڪرڻ آسان آهي، پر اهو اسان کي جلدي آٽوميشن جي سٺي سطح تائين پهچڻ جي اجازت ڏني ۽ اسان کي وڌيڪ پيچيده ماڊل ٽريننگ ڪرڻ جو وقت ڏنو.

سٺن متن جي درجي بندي جي ايندڙ ورزن ۾ اڳ ۾ ئي لڪير جا ماڊل، فيصلي جا وڻ، ۽ انهن جا مجموعا شامل آهن. بدمعاشي ۽ بي عزتي کي نشانو بڻائڻ لاءِ، مثال طور، اسان ڪوشش ڪريون ٿا BERT نيورل نيٽ ورڪ. اهو ضروري آهي ته هڪ لفظ جي مفهوم کي سمجهڻ ۽ مختلف جملن جي لفظن جي وچ ۾ ڪنيڪشن، ۽ BERT هن جو سٺو ڪم ڪري ٿو. (رستي ذريعي، تازو ساٿي نيوز کان ٻڌايو، ڪيئن ٽيڪنالاجي هڪ غير معياري ڪم لاءِ استعمال ڪئي ويندي آهي - هيڊرن ۾ غلطيون ڳولڻ.) نتيجي طور، اهو ممڪن هو ته وهڪري جي 90٪ تائين خودڪار ڪرڻ، خدمت جي لحاظ کان.

درستگي، مڪمل ۽ رفتار

ترقي ڪرڻ لاءِ، توھان کي سمجھڻ جي ضرورت آھي ته ڪھڙا فائدا آھن ڪھڙا خودڪار درجه بندي آڻيندڙ، انھن ۾ تبديليون، ۽ ڇا دستي چيڪن جو معيار خراب آھي. هن کي ڪرڻ لاء، اسان استعمال ڪريون ٿا درست ۽ ياد ڪرڻ واري ميٽرڪ.

درستي غلط مواد بابت سڀني فيصلن جي وچ ۾ صحيح فيصلن جو تناسب آهي. وڌيڪ درستگي، گهٽ غلط مثبت. جيڪڏهن توهان درستگي تي ڌيان نه ڏيو، ته پوء نظريي ۾ توهان سڀني اسپام ۽ فحش کي ختم ڪري سگهو ٿا، ۽ انهن سان گڏ اڌ سٺا پيغام. ٻئي طرف، جيڪڏهن توهان صرف درستگي تي ڀاڙيندا آهيو، ته بهترين ٽيڪنالاجي اها هوندي جيڪا ڪنهن کي به پڪڙي نه ٿي. تنهن ڪري، اتي پڻ مڪمل ٿيڻ جو اشارو آهي: خراب مواد جي مجموعي مقدار جي وچ ۾ سڃاڻپ خراب مواد جو حصو. اهي ٻه ميٽرڪ هڪ ٻئي کي توازن ڪن ٿا.

ماپڻ لاءِ، اسان هر خدمت لاءِ ايندڙ ايندڙ وهڪري جو نمونو ڏيون ٿا ۽ ماهرن جي تشخيص ۽ مشين جي حلن سان مقابلو ڪرڻ لاءِ مواد جا نمونا ڏيون ٿا.

پر اتي هڪ ٻيو اهم اشارو آهي.

مون مٿي لکيو آهي ته هڪ ناقابل قبول پيغام سوين ماڻهو 5 منٽن ۾ به ڏسي سگهن ٿا. تنهن ڪري اسان ڳڻون ٿا ته ڪيترا ڀيرا اسان ماڻهن کي خراب مواد ڏيکاريو ان کان اڳ اسان ان کي لڪايو. اهو ضروري آهي ڇو ته اهو ڪافي نه آهي موثر ڪم ڪرڻ - توهان کي پڻ جلدي ڪم ڪرڻ جي ضرورت آهي. ۽ جڏهن اسان قسم کڻڻ جي خلاف دفاع ڪيو، اسان ان کي مڪمل طور تي محسوس ڪيو.

ٻلي ۽ ڪتن جو مثال استعمال ڪندي Antimatism

هڪ ننڍڙو نظم و ضبط. ڪجھ چئي سگھي ٿو ته فحاشي ۽ بي عزتي خراب لنڪ وانگر خطرناڪ نه آھن، ۽ نه ئي اسپام وانگر پريشان ڪندڙ. پر اسان لکين استعمال ڪندڙن لاءِ ڪميونيڪيشن لاءِ آرامده حالتون برقرار رکڻ جي ڪوشش ڪندا آهيون، ۽ ماڻهو انهن هنڌن ڏانهن موٽڻ پسند نٿا ڪن جتي انهن جي بي عزتي ٿئي. اهو ڪجهه به ناهي ته قسم کڻڻ ۽ بي عزتي تي پابندي ڪيترن ئي برادرين جي ضابطن ۾ بيان ڪئي وئي آهي، بشمول هابري تي. پر اسان جهڪي رهيا آهيون.

سوئرنگ ڊڪشنريون روسي ٻوليءَ جي سموري دولت سان مقابلو نٿا ڪري سگهن. ان حقيقت جي باوجود ته صرف چار مکيه قسم جا جڙ آهن، انهن مان توهان بيشمار لفظن جو تعداد ٺاهي سگهو ٿا جيڪي ڪنهن به باقاعده انجڻ سان پڪڙي نٿا سگهن. ان کان علاوه، توھان لفظ جو ڪجھ حصو ترجمي ۾ لکي سگھو ٿا، اکرن کي ساڳين مجموعن سان تبديل ڪري سگھو ٿا، اکر کي وري ترتيب ڏيو، ستاري شامل ڪريو، وغيره. ڪڏھن ڪڏھن، بغير حوالي جي، بنيادي طور تي اھو طئي ڪرڻ ناممڪن آھي ته استعمال ڪندڙ جي معنيٰ قسم جو لفظ آھي. اسان حبر جي ضابطن جو احترام ڪريون ٿا، تنهنڪري اسان اهو ظاهر ڪنداسين ته زنده مثالن سان نه، پر ٻلين ۽ ڪتن سان.

تبصرو ڪيئن کوليو ۽ اسپام ۾ غرق نه ٿيو

”قانون،“ ٻلي چيو. پر اسان سمجھون ٿا ته ٻلي ڪو ٻيو لفظ چيو...

اسان پنهنجي ڊڪشنري لاءِ ”فزي ميچنگ“ الگورٿمز بابت سوچڻ شروع ڪيو ۽ سمارٽ پري پروسيسنگ بابت: اسان ٽرانسليٽريشن، گلي ٿيل اسپيس ۽ اوقاف کي گڏ ڪيو، نمونن جي ڳولا ڪئي ۽ انهن تي الڳ الڳ باقاعدي اظهار لکيا. ھن طريقي سان نتيجا آڻيا، پر اڪثر ڪري گھٽتائي جي گھٽتائي ۽ گهربل مڪمل طور تي مهيا نه ڪيو.

پوءِ اسان فيصلو ڪيو ته ”سوئر ڪندڙن وانگر سوچڻ“. اسان پنهنجو پاڻ کي ڊيٽا ۾ شور متعارف ڪرائڻ شروع ڪيو: اسان خطن کي ٻيهر ترتيب ڏنو، ٽائيپ ٺاهيا، ساڳيا اسپيلنگ سان اکر تبديل ڪيا، وغيره. ان لاءِ ابتدائي مارڪ اپ ورتو ويو ميٽ ڊڪشنري لاڳو ڪرڻ سان متن جي وڏي ڪارپوري تي. جيڪڏهن توهان هڪ جملو وٺو ۽ ان کي ڪيترن ئي طريقن سان موڙي، توهان ڪيترن ئي جملن سان ختم ڪيو. هن طريقي سان توهان تربيتي نموني کي ڏهه ڀيرا وڌائي سگهو ٿا. اهو سڀ ڪجهه باقي رهيو ته نتيجي جي تلاءَ تي ٽريننگ ڪرڻ لاءِ ڪجهه وڌيڪ يا گهٽ سمارٽ ماڊل جنهن جي حوالي سان حساب ۾ ورتو ويو.

تبصرو ڪيئن کوليو ۽ اسپام ۾ غرق نه ٿيو

حتمي فيصلي بابت ڳالهائڻ تمام جلدي آهي. اسان اڃا تائين هن مسئلي جي طريقن سان تجربا ڪري رهيا آهيون، پر اسان اڳ ۾ ئي ڏسي سگهون ٿا ته ڪيترن ئي تہن جو هڪ سادي علامتي ڪنوولوشنل نيٽورڪ خاص طور تي ڊڪشنري ۽ باقاعده انجڻ کي بهتر بڻائي ٿو: اهو ممڪن آهي ٻنهي جي درستگي ۽ ياد ڪرڻ کي وڌايو وڃي.

يقينن، اسان سمجھون ٿا ته اتي ھميشه بھترين آٽوميشن کان پاسو ڪرڻ جا طريقا آھن، خاص طور تي جڏھن معاملو ايترو خطرناڪ آھي: اھڙيءَ طرح لکو جو بيوقوف مشين سمجھي نه سگھندي. هتي، جيئن اسپام جي خلاف جنگ ۾، اسان جو مقصد ڪجهه فحش لکڻ جي امڪان کي ختم ڪرڻ نه آهي؛ اسان جو ڪم اهو يقيني بڻائڻ آهي ته راند شمع جي قيمت نه آهي.

توهان جي راء کي حصيداري ڪرڻ جو موقعو کولڻ، گفتگو ۽ تبصرو ڏکيو ناهي. محفوظ، آرامده حالتن ۽ ماڻهن جي عزت سان علاج حاصل ڪرڻ تمام گهڻو ڏکيو آهي. ۽ ان کان سواءِ ڪنهن به سماج جي ترقي نه ٿيندي.

جو ذريعو: www.habr.com

تبصرو شامل ڪريو