تبصرے کیسے کھولیں اور اسپام میں نہ ڈوبیں۔

تبصرے کیسے کھولیں اور اسپام میں نہ ڈوبیں۔

جب آپ کا کام کچھ خوبصورت بنانا ہے تو آپ کو اس پر زیادہ بات کرنے کی ضرورت نہیں ہے، کیونکہ نتیجہ سب کی نظروں کے سامنے ہے۔ لیکن اگر آپ باڑ سے نوشتہ جات کو مٹا دیتے ہیں، تو کوئی بھی آپ کے کام کو اس وقت تک محسوس نہیں کرے گا جب تک کہ باڑ مہذب نظر نہ آئے یا جب تک آپ کچھ غلط نہ مٹا دیں۔

کوئی بھی سروس جہاں آپ تبصرہ کر سکتے ہیں، جائزہ لے سکتے ہیں، پیغام بھیج سکتے ہیں یا تصویریں اپ لوڈ کر سکتے ہیں جلد یا بدیر سپیم، فراڈ اور فحاشی کا مسئلہ درپیش ہے۔ اس سے گریز نہیں کیا جا سکتا، لیکن اس سے نمٹا جانا چاہیے۔

میرا نام میخائل ہے، میں Antispam ٹیم میں کام کرتا ہوں، جو Yandex سروسز کے صارفین کو اس طرح کے مسائل سے بچاتی ہے۔ ہمارے کام کو شاذ و نادر ہی دیکھا جاتا ہے (اور یہ ایک اچھی بات ہے!)، اس لیے آج میں آپ کو اس کے بارے میں مزید بتاؤں گا۔ آپ سیکھیں گے کہ اعتدال کب بیکار ہے اور درستگی ہی اس کی تاثیر کا واحد اشارہ کیوں نہیں ہے۔ ہم بلیوں اور کتوں کی مثال استعمال کرتے ہوئے قسم کھانے کے بارے میں بھی بات کریں گے اور یہ کہ بعض اوقات "قسم کھانے والے کی طرح سوچنا" کیوں مفید ہوتا ہے۔

Yandex میں زیادہ سے زیادہ خدمات ظاہر ہو رہی ہیں جہاں صارفین اپنا مواد شائع کرتے ہیں۔ آپ Yandex.Q میں سوال پوچھ سکتے ہیں یا جواب لکھ سکتے ہیں، Yandex.District میں یارڈ کی خبروں پر تبادلہ خیال کر سکتے ہیں، Yandex.Maps پر گفتگو میں ٹریفک کے حالات کا اشتراک کر سکتے ہیں۔ لیکن جب سروس کے سامعین میں اضافہ ہوتا ہے، تو یہ سکیمرز اور سپیمرز کے لیے پرکشش ہو جاتا ہے۔ وہ آتے ہیں اور تبصرے بھرتے ہیں: وہ آسان رقم پیش کرتے ہیں، معجزاتی علاج کی تشہیر کرتے ہیں اور سماجی فوائد کا وعدہ کرتے ہیں۔ اسپامرز کی وجہ سے، کچھ صارفین پیسے کھو دیتے ہیں، جب کہ دوسرے اسپام سے بھری ہوئی ایک بے کار سروس پر وقت گزارنے کی خواہش کھو دیتے ہیں۔

اور یہ واحد مسئلہ نہیں ہے۔ ہم نہ صرف صارفین کو دھوکہ بازوں سے بچانے کی کوشش کرتے ہیں، بلکہ مواصلات کے لیے ایک آرام دہ ماحول پیدا کرنے کی بھی کوشش کرتے ہیں۔ اگر لوگوں کو تبصروں میں گالیوں اور توہین کا سامنا کرنا پڑتا ہے، تو امکان ہے کہ وہ چلے جائیں گے اور کبھی واپس نہیں آئیں گے۔ اس کا مطلب یہ ہے کہ آپ کو بھی اس سے نمٹنے کے قابل ہونے کی ضرورت ہے۔

کلین ویب

جیسا کہ ہمارے ساتھ اکثر ہوتا ہے، پہلی پیش رفت تلاش میں پیدا ہوئی، اس حصے میں جو تلاش کے نتائج میں اسپام سے لڑتا ہے۔ تقریباً دس سال پہلے، خاندانی تلاشوں اور ایسے سوالات کے لیے جن کے لیے 18+ زمرے کے جوابات کی ضرورت نہیں تھی، بالغوں کے مواد کو فلٹر کرنے کا کام وہاں ظاہر ہوا تھا۔ اس طرح فحش اور حلف برداری کی پہلی دستی طور پر ٹائپ کی گئی لغات سامنے آئیں، انہیں تجزیہ کاروں نے بھر دیا۔ بنیادی کام درخواستوں کو ان میں درجہ بندی کرنا تھا جہاں بالغوں کا مواد دکھانا قابل قبول ہے اور کہاں نہیں۔ اس کام کے لیے، مارک اپ جمع کیا گیا، ہیورسٹکس بنایا گیا، اور ماڈلز کو تربیت دی گئی۔ اس طرح ناپسندیدہ مواد کو فلٹر کرنے کی پہلی پیش رفت سامنے آئی۔

وقت گزرنے کے ساتھ، یو جی سی (صارف کا تیار کردہ مواد) Yandex میں ظاہر ہونا شروع ہوا - ایسے پیغامات جو صارفین خود لکھتے ہیں، اور Yandex صرف شائع کرتا ہے۔ اوپر بیان کی گئی وجوہات کی بنا پر بہت سے پیغامات بغیر دیکھے شائع نہیں کیے جا سکتے تھے - اعتدال کی ضرورت تھی۔ پھر انہوں نے ایک ایسی سروس بنانے کا فیصلہ کیا جو Yandex UGC کے تمام پروڈکٹس کے لیے سپیم اور حملہ آوروں کے خلاف تحفظ فراہم کرے گی اور تلاش میں ناپسندیدہ مواد کو فلٹر کرنے کے لیے پیشرفت کا استعمال کرے گی۔ اس سروس کا نام "کلین ویب" تھا۔

نئے کام اور pushers سے مدد

سب سے پہلے، صرف سادہ آٹومیشن نے ہمارے لیے کام کیا: سروسز نے ہمیں متن بھیجے، اور ہم نے ان پر فحاشی کی لغات، فحش لغات اور ریگولر ایکسپریشنز چلائے - تجزیہ کاروں نے سب کچھ دستی طور پر مرتب کیا۔ لیکن وقت گزرنے کے ساتھ، سروس Yandex کی مصنوعات کی بڑھتی ہوئی تعداد میں استعمال ہونے لگی، اور ہمیں نئے مسائل کے ساتھ کام کرنا سیکھنا پڑا۔

اکثر، جائزے کے بجائے، صارفین خطوط کا ایک بے معنی سیٹ شائع کرتے ہیں، اپنی کامیابیوں کو بڑھانے کی کوشش کرتے ہیں، بعض اوقات وہ کسی مدمقابل کمپنی کے جائزوں میں اپنی کمپنی کی تشہیر کرتے ہیں، اور بعض اوقات وہ محض تنظیموں کو الجھاتے ہیں اور پالتو جانوروں کی دکان کے بارے میں جائزے میں لکھتے ہیں: “ بالکل پکی ہوئی مچھلی! شاید کسی دن مصنوعی ذہانت کسی بھی متن کے معنی کو مکمل طور پر سمجھنا سیکھ لے گی، لیکن اب آٹومیشن بعض اوقات انسانوں سے بھی بدتر ہوتی ہے۔

یہ واضح ہو گیا کہ ہم دستی مارکنگ کے بغیر ایسا نہیں کر سکتے تھے، اور ہم نے اپنے سرکٹ میں ایک دوسرا مرحلہ شامل کیا — اسے ایک شخص کے ذریعے دستی معائنہ کے لیے بھیجنا۔ وہ شائع شدہ تحریریں جن کے لیے درجہ بندی کرنے والے کو کوئی دشواری نظر نہیں آئی وہیں شامل کی گئی تھیں۔ آپ آسانی سے اس طرح کے کام کے پیمانے کا تصور کر سکتے ہیں، اس لیے ہم نے نہ صرف اندازہ لگانے والوں پر بھروسہ کیا، بلکہ "ہجوم کی حکمت" سے بھی فائدہ اٹھایا، یعنی ہم نے مدد کے لیے بات کرنے والوں کی طرف رجوع کیا۔ وہ وہی ہیں جو ہماری مدد کرتے ہیں کہ مشین سے کیا چھوٹ گیا، اور اس طرح اسے سکھایا جائے۔

اسمارٹ کیشنگ اور LSH ہیشنگ

تبصروں کے ساتھ کام کرتے وقت ہمیں ایک اور مسئلہ درپیش تھا جو اسپام تھا، یا زیادہ واضح طور پر، اس کا حجم اور پھیلاؤ کی رفتار۔ جب Yandex.Region کے سامعین تیزی سے بڑھنے لگے تو اسپامرز وہاں آئے۔ انہوں نے متن کو تھوڑا سا تبدیل کرکے باقاعدہ تاثرات کو نظرانداز کرنا سیکھا۔ اسپام، بلاشبہ، اب بھی پایا اور حذف کر دیا گیا تھا، لیکن Yandex کے پیمانے پر، 5 منٹ کے لیے بھی پوسٹ کیا گیا ایک ناقابل قبول پیغام سینکڑوں لوگ دیکھ سکتے ہیں۔

تبصرے کیسے کھولیں اور اسپام میں نہ ڈوبیں۔

یقیناً، یہ ہمارے موافق نہیں تھا، اور ہم نے سمارٹ ٹیکسٹ کیشنگ LSH (مقامی طور پر حساس ہیشنگ)۔ یہ اس طرح کام کرتا ہے: ہم نے متن کو معمول بنایا، اس سے لنکس کو ہٹا دیا اور اسے n-grams (n حروف کی ترتیب) میں کاٹ دیا۔ اس کے بعد، n-گرام کی ہیشوں کا حساب لگایا گیا، اور دستاویز کا LSH ویکٹر ان سے بنایا گیا۔ بات یہ ہے کہ ملتے جلتے نصوص، چاہے وہ تھوڑا سا تبدیل کیا گیا ہو، ملتے جلتے ویکٹر میں تبدیل ہو گئے۔

اس حل نے اسی طرح کی عبارتوں کے لیے درجہ بندی کرنے والوں اور ٹولوکرز کے فیصلوں کو دوبارہ استعمال کرنا ممکن بنایا۔ سپیم حملے کے دوران، جیسے ہی پہلا پیغام اسکین سے گزرا اور "سپیم" فیصلے کے ساتھ کیش میں داخل ہوا، تمام نئے ملتے جلتے پیغامات، حتیٰ کہ ترمیم شدہ پیغامات کو بھی وہی فیصلہ موصول ہوا اور خود بخود حذف ہو گئے۔ بعد میں، ہم نے سیکھا کہ سپیم کی درجہ بندی کرنے والوں کو خود بخود تربیت اور دوبارہ تربیت دینا ہے، لیکن یہ "سمارٹ کیش" ہمارے ساتھ رہا اور اب بھی اکثر ہماری مدد کرتا ہے۔

اچھا ٹیکسٹ کلاسیفائر

سپام سے لڑنے کے لیے وقفہ کیے بغیر، ہم نے محسوس کیا کہ ہمارے مواد کا 95% دستی طور پر معتدل کیا جاتا ہے: درجہ بندی کرنے والے صرف خلاف ورزیوں پر ردعمل ظاہر کرتے ہیں، اور زیادہ تر متن اچھے ہوتے ہیں۔ ہم کلینر لوڈ کرتے ہیں جو 95 میں سے 100 کیسز میں "سب کچھ ٹھیک ہے" کی درجہ بندی دیتے ہیں۔ مجھے ایک غیر معمولی کام کرنا پڑا - اچھے مواد کی درجہ بندی کرنا، خوش قسمتی سے اس وقت کے دوران کافی مارک اپ جمع ہو گیا تھا۔

پہلا درجہ بندی اس طرح نظر آتی تھی: ہم متن کو لمیٹائز کرتے ہیں (الفاظ کو ان کی ابتدائی شکل میں کم کرتے ہیں)، تقریر کے تمام معاون حصوں کو باہر پھینک دیتے ہیں اور پہلے سے تیار شدہ "اچھے لیموں کی لغت" استعمال کرتے ہیں۔ اگر متن کے تمام الفاظ "اچھے" ہیں، تو پورے متن میں کوئی خلاف ورزی نہیں ہوتی۔ مختلف خدمات پر، اس نقطہ نظر نے فوری طور پر دستی مارک اپ کی 25 سے 35 فیصد آٹومیشن دی۔ بلاشبہ، یہ نقطہ نظر مثالی نہیں ہے: بہت سے معصوم الفاظ کو یکجا کرنا اور ایک انتہائی جارحانہ بیان حاصل کرنا آسان ہے، لیکن اس نے ہمیں جلد از جلد آٹومیشن کی ایک اچھی سطح تک پہنچنے کی اجازت دی اور ہمیں مزید پیچیدہ ماڈلز کو تربیت دینے کا وقت دیا۔

اچھے ٹیکسٹ کلاسیفائر کے اگلے ورژن میں پہلے سے ہی لکیری ماڈلز، فیصلے کے درخت، اور ان کے امتزاج شامل ہیں۔ بدتمیزی اور توہین کو نشان زد کرنے کے لیے، مثال کے طور پر، ہم BERT نیورل نیٹ ورک کو آزماتے ہیں۔ سیاق و سباق میں کسی لفظ کے معنی اور مختلف جملوں کے الفاظ کے درمیان تعلق کو سمجھنا ضروری ہے، اور BERT اس میں اچھا کام کرتا ہے۔ (ویسے، حال ہی میں نیوز کے ساتھی کہاایک غیر معیاری کام کے لیے ٹیکنالوجی کا استعمال کیسے کیا جاتا ہے - ہیڈر میں غلطیوں کی تلاش۔) نتیجے کے طور پر، سروس کے لحاظ سے 90% تک بہاؤ کو خودکار کرنا ممکن ہوا۔

درستگی، مکمل اور رفتار

ترقی کرنے کے لیے، آپ کو یہ سمجھنے کی ضرورت ہے کہ کچھ خودکار درجہ بندی سے کیا فوائد حاصل ہوتے ہیں، ان میں تبدیلیاں آتی ہیں، اور کیا دستی جانچ کا معیار گرا ہوا ہے۔ ایسا کرنے کے لیے، ہم درستگی کا استعمال کرتے ہیں اور میٹرکس کو یاد کرتے ہیں۔

درستگی غلط مواد کے بارے میں تمام فیصلوں کے درمیان درست فیصلوں کا تناسب ہے۔ درستگی جتنی زیادہ ہوگی، جھوٹے مثبتات اتنے ہی کم ہوں گے۔ اگر آپ درستگی پر توجہ نہیں دیتے ہیں، تو نظریہ میں آپ تمام فضول اور فحاشی، اور ان کے ساتھ آدھے اچھے پیغامات کو حذف کر سکتے ہیں۔ دوسری طرف، اگر آپ صرف درستگی پر بھروسہ کرتے ہیں، تو بہترین ٹیکنالوجی وہ ہوگی جو کسی کو بھی نہ پکڑے۔ لہذا، مکمل ہونے کا ایک اشارہ بھی ہے: خراب مواد کے کل حجم میں شناخت شدہ خراب مواد کا حصہ۔ یہ دونوں میٹرکس ایک دوسرے کو متوازن کرتے ہیں۔

پیمائش کرنے کے لیے، ہم ہر سروس کے لیے آنے والے پورے سلسلے کا نمونہ بناتے ہیں اور ماہرین کی تشخیص اور مشینی حل کے ساتھ موازنہ کے لیے مواد کے نمونے جائزہ لینے والوں کو دیتے ہیں۔

لیکن ایک اور اہم اشارہ ہے۔

میں نے اوپر لکھا تھا کہ ایک ناقابل قبول پیغام 5 منٹ میں بھی سینکڑوں لوگ دیکھ سکتے ہیں۔ لہذا ہم گنتے ہیں کہ ہم نے اسے چھپانے سے پہلے کتنی بار لوگوں کو برا مواد دکھایا۔ یہ ضروری ہے کیونکہ یہ کافی نہیں ہے کہ موثر طریقے سے کام کریں - آپ کو تیزی سے کام کرنے کی بھی ضرورت ہے۔ اور جب ہم نے حلف برداری کے خلاف دفاع کیا تو ہم نے اسے پوری طرح محسوس کیا۔

بلیوں اور کتوں کی مثال استعمال کرتے ہوئے دشمنی

ایک چھوٹا سا شعری ارتعاش۔ کچھ لوگ کہہ سکتے ہیں کہ فحاشی اور توہین اتنے خطرناک نہیں ہیں جتنے بدنیتی پر مبنی لنکس، اور نہ ہی اسپام کی طرح پریشان کن۔ لیکن ہم لاکھوں صارفین کے لیے مواصلات کے لیے آرام دہ حالات کو برقرار رکھنے کی کوشش کرتے ہیں، اور لوگ ان جگہوں پر واپس جانا پسند نہیں کرتے جہاں ان کی توہین کی گئی ہو۔ یہ کچھ بھی نہیں ہے کہ حلف برداری اور توہین پر پابندی بہت سی برادریوں کے قواعد میں بیان کی گئی ہے، بشمول Habré پر۔ لیکن ہم پیچھے ہٹ جاتے ہیں۔

حلف برداری کی لغات روسی زبان کی تمام تر خوبیوں کا مقابلہ نہیں کر سکتیں۔ اس حقیقت کے باوجود کہ صرف چار اہم قسم کی جڑیں ہیں، ان سے آپ بے شمار الفاظ بنا سکتے ہیں جو کسی بھی باقاعدہ انجن کے ذریعے نہیں پکڑے جا سکتے۔ اس کے علاوہ، آپ نقل حرفی میں کسی لفظ کا کچھ حصہ لکھ سکتے ہیں، حروف کو ملتے جلتے مجموعوں سے بدل سکتے ہیں، حروف کو دوبارہ ترتیب دے سکتے ہیں، ستارے کا اضافہ کر سکتے ہیں، وغیرہ۔ بعض اوقات، سیاق و سباق کے بغیر، یہ طے کرنا بنیادی طور پر ناممکن ہوتا ہے کہ صارف کا مطلب ایک قسم کا لفظ تھا۔ ہم حبر کے اصولوں کا احترام کرتے ہیں، اس لیے ہم اسے زندہ مثالوں سے نہیں بلکہ بلیوں اور کتوں سے ظاہر کریں گے۔

تبصرے کیسے کھولیں اور اسپام میں نہ ڈوبیں۔

"قانون،" بلی نے کہا۔ لیکن ہم سمجھتے ہیں کہ بلی نے ایک مختلف لفظ کہا...

ہم نے اپنی لغت کے لیے "فجی مماثلت" الگورتھم کے بارے میں اور بہتر پری پروسیسنگ کے بارے میں سوچنا شروع کیا: ہم نے نقل حرفی، چپکنے والی جگہیں اور اوقاف ایک ساتھ فراہم کیے، نمونوں کی تلاش کی اور ان پر الگ الگ باقاعدہ تاثرات لکھے۔ اس نقطہ نظر نے نتائج لائے، لیکن اکثر درستگی کو کم کر دیا اور مطلوبہ تکمیل فراہم نہیں کی۔

پھر ہم نے "قسم کھانے والوں کی طرح سوچنے" کا فیصلہ کیا۔ ہم نے خود ڈیٹا میں شور کو متعارف کرانا شروع کیا: ہم نے حروف کو دوبارہ ترتیب دیا، ٹائپ کی غلطیاں پیدا کیں، حروف کو ایک جیسے ہجے کے ساتھ تبدیل کیا، وغیرہ۔ اس کے لیے ابتدائی مارک اپ متن کے بڑے کارپورا پر چٹائی لغات لگا کر لیا گیا تھا۔ اگر آپ ایک جملہ لیتے ہیں اور اسے کئی طریقوں سے موڑ دیتے ہیں، تو آپ بہت سے جملوں کے ساتھ ختم ہوجاتے ہیں۔ اس طرح آپ تربیتی نمونے کو دسیوں گنا بڑھا سکتے ہیں۔ جو کچھ باقی رہ گیا تھا وہ نتیجہ خیز پول پر کچھ کم و بیش سمارٹ ماڈل کی تربیت کرنا تھا جس نے سیاق و سباق کو مدنظر رکھا۔

تبصرے کیسے کھولیں اور اسپام میں نہ ڈوبیں۔

حتمی فیصلے کے بارے میں بات کرنا قبل از وقت ہے۔ ہم اب بھی اس مسئلے کے لیے نقطہ نظر کے ساتھ تجربہ کر رہے ہیں، لیکن ہم پہلے ہی دیکھ سکتے ہیں کہ کئی تہوں کا ایک سادہ علامتی ارتعاشی نیٹ ورک لغات اور باقاعدہ انجنوں کو نمایاں طور پر پیچھے چھوڑ دیتا ہے: درستگی اور یاد دونوں کو بڑھانا ممکن ہے۔

بلاشبہ، ہم سمجھتے ہیں کہ یہاں تک کہ جدید ترین آٹومیشن کو بھی نظرانداز کرنے کے طریقے ہمیشہ موجود ہوں گے، خاص طور پر جب معاملہ اتنا خطرناک ہو: اس طرح لکھیں کہ کوئی بیوقوف مشین سمجھ نہ پائے۔ یہاں، جیسا کہ اسپام کے خلاف جنگ میں، ہمارا مقصد کچھ فحش لکھنے کے امکان کو ختم کرنا نہیں ہے؛ ہمارا کام اس بات کو یقینی بنانا ہے کہ گیم موم بتی کے قابل نہ ہو۔

اپنی رائے کا اشتراک کرنے، بات چیت کرنے اور تبصرہ کرنے کا موقع کھولنا مشکل نہیں ہے۔ محفوظ، آرام دہ حالات اور لوگوں کے ساتھ باعزت سلوک کا حصول بہت زیادہ مشکل ہے۔ اور اس کے بغیر کسی کمیونٹی کی ترقی نہیں ہو گی۔

ماخذ: www.habr.com

نیا تبصرہ شامل کریں