كيف تفتح التعليقات ولا تغرق في البريد العشوائي

كيف تفتح التعليقات ولا تغرق في البريد العشوائي

عندما تكون وظيفتك هي إنشاء شيء جميل، فلا داعي للحديث كثيرًا عنه، لأن النتيجة تكون أمام أعين الجميع. لكن إذا قمت بمسح النقوش من على الأسوار، فلن يلاحظ أحد عملك طالما أن الأسوار تبدو لائقة أو حتى تقوم بمسح شيء خاطئ.

أي خدمة يمكنك من خلالها ترك تعليق أو مراجعة أو إرسال رسالة أو تحميل صور عاجلاً أم آجلاً تواجه مشكلة البريد العشوائي والاحتيال والفحش. وهذا لا يمكن تجنبه، ولكن يجب التعامل معه.

اسمي ميخائيل، أعمل في فريق مكافحة البريد العشوائي، الذي يحمي مستخدمي خدمات ياندكس من مثل هذه المشاكل. نادرًا ما يتم ملاحظة عملنا (وهذا أمر جيد!)، لذا سأخبركم اليوم بالمزيد عنه. ستتعلم متى يكون الاعتدال عديم الفائدة ولماذا لا تكون الدقة المؤشر الوحيد لفعاليته. سنتحدث أيضًا عن الشتائم باستخدام مثال القطط والكلاب ولماذا يكون من المفيد أحيانًا "التفكير مثل الشتائم".

تظهر المزيد والمزيد من الخدمات في Yandex حيث ينشر المستخدمون المحتوى الخاص بهم. يمكنك طرح سؤال أو كتابة إجابة في Yandex.Q، ومناقشة أخبار الفناء في Yandex.District، ومشاركة ظروف حركة المرور في المحادثات على Yandex.Maps. ولكن عندما ينمو جمهور الخدمة، تصبح جذابة للمحتالين ومرسلي البريد العشوائي. يأتون ويملؤون التعليقات: يقدمون المال السهل، ويعلنون عن علاجات معجزة ويعدون بمزايا اجتماعية. بسبب مرسلي البريد العشوائي، يخسر بعض المستخدمين الأموال، بينما يفقد البعض الآخر الرغبة في قضاء الوقت في خدمة غير مرتبة مليئة بالبريد العشوائي.

وهذه ليست المشكلة الوحيدة. نحن نسعى جاهدين ليس فقط لحماية المستخدمين من المحتالين، ولكن أيضًا لخلق جو مريح للتواصل. إذا واجه الأشخاص الشتائم والشتائم في التعليقات، فمن المرجح أن يغادروا ولن يعودوا أبدًا. هذا يعني أنك بحاجة أيضًا إلى أن تكون قادرًا على التعامل مع هذا.

شبكة نظيفة

كما هو الحال غالبًا معنا، ولدت التطورات الأولى في البحث، في الجزء الذي يحارب البريد العشوائي في نتائج البحث. منذ حوالي عشر سنوات، ظهرت هناك مهمة تصفية محتوى البالغين لعمليات البحث العائلية والاستعلامات التي لا تتطلب إجابات من فئة 18+. هكذا ظهرت القواميس الأولى المكتوبة يدويًا للإباحية والشتائم، وتم تجديدها من قبل المحللين. كانت المهمة الرئيسية هي تصنيف الطلبات إلى تلك التي يكون من المقبول فيها عرض محتوى للبالغين وتلك التي لا يكون كذلك. ولهذه المهمة، تم جمع العلامات، وبناء الاستدلالات، وتدريب النماذج. هكذا ظهرت التطورات الأولى لتصفية المحتوى غير المرغوب فيه.

بمرور الوقت، بدأ UGC (المحتوى الذي أنشأه المستخدم) في الظهور في Yandex - الرسائل التي يكتبها المستخدمون أنفسهم، وينشر Yandex فقط. للأسباب الموضحة أعلاه، لا يمكن نشر العديد من الرسائل دون النظر إليها - وكان الاعتدال مطلوبًا. ثم قرروا إنشاء خدمة توفر الحماية ضد البريد العشوائي والمهاجمين لجميع منتجات Yandex UGC واستخدام التطورات لتصفية المحتوى غير المرغوب فيه في البحث. كانت الخدمة تسمى "الويب النظيف".

مهام جديدة ومساعدة من دافعي

في البداية، لم ينجح معنا سوى الأتمتة البسيطة: أرسلت الخدمات إلينا نصوصًا، وقمنا بتشغيل قواميس بذيئة وقواميس إباحية وتعبيرات عادية عليها - قام المحللون بتجميع كل شيء يدويًا. ولكن مع مرور الوقت، تم استخدام الخدمة في عدد متزايد من منتجات ياندكس، وكان علينا أن نتعلم كيفية التعامل مع المشاكل الجديدة.

في كثير من الأحيان، بدلا من المراجعة، ينشر المستخدمون مجموعة لا معنى لها من الرسائل، في محاولة لزيادة إنجازاتهم، وأحيانا يعلنون عن شركتهم في مراجعات شركة منافسة، وأحيانا يخلطون بين المنظمات ويكتبون مراجعة حول متجر للحيوانات الأليفة: " سمكة مطبوخة بشكل مثالي!” ربما سيتعلم الذكاء الاصطناعي يومًا ما فهم معنى أي نص بشكل مثالي، ولكن الآن تتعامل الأتمتة في بعض الأحيان بشكل أسوأ من البشر.

أصبح من الواضح أننا لا نستطيع القيام بذلك دون وضع علامة يدوية، وأضفنا مرحلة ثانية إلى دائرتنا - إرسالها للفحص اليدوي من قبل شخص ما. تم تضمين تلك النصوص المنشورة التي لم يجد المصنف أي مشاكل فيها. يمكنك بسهولة أن تتخيل حجم هذه المهمة، لذلك لم نعتمد على المقيمين فحسب، بل استفدنا أيضًا من "حكمة الجمهور"، أي أننا لجأنا إلى المتسامحين طلبًا للمساعدة. إنهم هم الذين يساعدوننا في تحديد ما فاتت الآلة، وبالتالي تعليمها.

التخزين المؤقت الذكي وتجزئة LSH

هناك مشكلة أخرى واجهناها عند التعامل مع التعليقات وهي البريد العشوائي، أو بشكل أكثر دقة، حجمه وسرعة انتشاره. عندما بدأ جمهور Yandex.Region في النمو بسرعة، جاء مرسلي البريد العشوائي إلى هناك. لقد تعلموا تجاوز التعبيرات العادية عن طريق تغيير النص قليلاً. بالطبع، لا يزال يتم العثور على البريد العشوائي وحذفه، ولكن على نطاق ياندكس، يمكن لمئات الأشخاص رؤية رسالة غير مقبولة منشورة حتى لمدة 5 دقائق.

كيف تفتح التعليقات ولا تغرق في البريد العشوائي

بالطبع، هذا لم يناسبنا، وقمنا بالتخزين المؤقت للنص الذكي على أساس LSH (التجزئة الحساسة المحلية). يعمل الأمر على النحو التالي: قمنا بتطبيع النص وإزالة الروابط منه وتقطيعه إلى n-grams (تسلسلات من أحرف n). بعد ذلك، تم حساب تجزئات n-gram، وتم بناء متجه LSH للمستند منها. والحقيقة هي أن النصوص المماثلة، حتى لو تم تغييرها قليلا، تحولت إلى ناقلات مماثلة.

وقد أتاح هذا الحل إمكانية إعادة استخدام أحكام المصنفات والمصنفات لنصوص مماثلة. أثناء هجوم البريد العشوائي، بمجرد اجتياز الرسالة الأولى للفحص ودخولها إلى ذاكرة التخزين المؤقت بحكم "البريد العشوائي"، تلقت جميع الرسائل الجديدة المشابهة، حتى تلك المعدلة، نفس الحكم وتم حذفها تلقائيًا. لاحقًا، تعلمنا كيفية تدريب مصنفات البريد العشوائي وإعادة تدريبها تلقائيًا، لكن "ذاكرة التخزين المؤقت الذكية" هذه ظلت معنا ولا تزال تساعدنا في كثير من الأحيان.

مصنف نص جيد

وبدون أن يكون لدينا وقت لأخذ استراحة من مكافحة البريد العشوائي، أدركنا أن 95% من المحتوى الخاص بنا يتم الإشراف عليه يدويًا: فالمصنفات تتفاعل فقط مع الانتهاكات، ومعظم النصوص جيدة. نقوم بتحميل عمال النظافة الذين يمنحون في 95 حالة من أصل 100 تصنيفًا "كل شيء على ما يرام". اضطررت إلى القيام بعمل غير عادي - إنشاء مصنفات ذات محتوى جيد، ولحسن الحظ تراكمت العلامات خلال هذا الوقت.

بدا المصنف الأول على هذا النحو: قمنا بترجمة النص (تقليل الكلمات إلى شكلها الأولي)، ورمي جميع الأجزاء المساعدة من الكلام واستخدام "قاموس الكلمات الجيدة" المُعد مسبقًا. إذا كانت جميع الكلمات في النص "جيدة"، فإن النص بأكمله لا يحتوي على أي مخالفات. في خدمات مختلفة، أعطى هذا النهج على الفور من 25 إلى 35٪ أتمتة العلامات اليدوية. بالطبع، هذا النهج ليس مثاليًا: فمن السهل الجمع بين عدة كلمات بريئة والحصول على عبارة مسيئة للغاية، لكنه سمح لنا بالوصول بسرعة إلى مستوى جيد من الأتمتة وأعطانا الوقت لتدريب نماذج أكثر تعقيدًا.

تضمنت الإصدارات التالية من مصنفات النصوص الجيدة بالفعل النماذج الخطية وأشجار القرار ومجموعاتها. لتحديد الفظاظة والإهانات، على سبيل المثال، جربنا الشبكة العصبية BERT. من المهم فهم معنى الكلمة في السياق والارتباط بين الكلمات من جمل مختلفة، وقد قام بيرت بعمل جيد في هذا الأمر. (بالمناسبة، مؤخرا الزملاء من الأخبار قال، كيفية استخدام التكنولوجيا لمهمة غير قياسية - العثور على أخطاء في الرؤوس.) ونتيجة لذلك، كان من الممكن أتمتة ما يصل إلى 90٪ من التدفق، اعتمادًا على الخدمة.

الدقة والاكتمال والسرعة

للتطوير، تحتاج إلى فهم الفوائد التي تجلبها بعض المصنفات التلقائية، والتغييرات فيها، وما إذا كانت جودة الفحوصات اليدوية تتدهور. للقيام بذلك، نستخدم مقاييس الدقة والتذكير.

الدقة هي نسبة الأحكام الصحيحة بين جميع الأحكام المتعلقة بالمحتوى السيئ. كلما زادت الدقة، قل عدد النتائج الإيجابية الكاذبة. إذا لم تهتم بالدقة، فمن الناحية النظرية يمكنك حذف جميع الرسائل غير المرغوب فيها والألفاظ البذيئة، ومعها نصف الرسائل الجيدة. من ناحية أخرى، إذا كنت تعتمد فقط على الدقة، فإن أفضل التقنيات ستكون تلك التي لا تصطاد أي شخص على الإطلاق. لذلك، هناك أيضًا مؤشر على الاكتمال: حصة المحتوى السيئ الذي تم تحديده من إجمالي حجم المحتوى السيئ. هذان المقياسان يوازنان بعضهما البعض.

للقياس، نقوم بأخذ عينات من التدفق الوارد بالكامل لكل خدمة ونقدم عينات المحتوى للمقيمين لتقييم الخبراء ومقارنتها مع حلول الماكينة.

ولكن هناك مؤشر مهم آخر.

كتبت أعلاه أن الرسالة غير المقبولة يمكن أن يراها مئات الأشخاص حتى في 5 دقائق. لذلك نحسب عدد المرات التي أظهرنا فيها محتوى سيئًا للأشخاص قبل أن نخفيه. وهذا أمر مهم لأنه لا يكفي العمل بكفاءة - بل تحتاج أيضًا إلى العمل بسرعة. وعندما بنينا دفاعًا ضد الشتائم، شعرنا بذلك على أكمل وجه.

معاداة السامية باستخدام مثال القطط والكلاب

استطراد غنائي صغير. قد يقول البعض أن الفحش والإهانات ليست خطيرة مثل الروابط الضارة، وليست مزعجة مثل البريد العشوائي. لكننا نسعى جاهدين للحفاظ على ظروف مريحة للتواصل لملايين المستخدمين، ولا يحب الأشخاص العودة إلى الأماكن التي يتعرضون فيها للإهانة. لا عجب أن الحظر المفروض على الشتائم والشتائم منصوص عليه في قواعد العديد من المجتمعات، بما في ذلك حبري. لكننا نستطرد.

لا تستطيع قواميس الشتائم التعامل مع ثراء اللغة الروسية. على الرغم من وجود أربعة جذور رئيسية فقط، إلا أنه يمكنك من خلالها تكوين عدد لا يحصى من الكلمات التي لا يمكن لأي محركات عادية التقاطها. بالإضافة إلى ذلك، يمكنك كتابة جزء من الكلمة بالترجمة الصوتية، واستبدال الحروف بمجموعات مماثلة، وإعادة ترتيب الحروف، وإضافة العلامات النجمية، وما إلى ذلك. في بعض الأحيان، بدون سياق، يكون من المستحيل تحديد ما إذا كان المستخدم يقصد كلمة بذيئة. نحن نحترم قواعد هبر، لذلك لن نثبت ذلك بأمثلة حية، بل بالقطط والكلاب.

كيف تفتح التعليقات ولا تغرق في البريد العشوائي

"القانون"، قال القط. لكننا نفهم أن القطة قالت كلمة مختلفة...

بدأنا في التفكير في خوارزميات "المطابقة الغامضة" لقاموسنا وفي المعالجة المسبقة الأكثر ذكاءً: فقد قمنا بتوفير الترجمة الصوتية، ولصقنا المسافات وعلامات الترقيم معًا، وبحثنا عن الأنماط وكتبنا تعبيرات نمطية منفصلة عليها. حقق هذا النهج نتائج، لكنه غالبًا ما أدى إلى تقليل الدقة ولم يوفر الاكتمال المطلوب.

ثم قررنا أن "نفكر مثل الشتائم". بدأنا بإدخال الضجيج في البيانات بأنفسنا: قمنا بإعادة ترتيب الحروف، وإنشاء أخطاء إملائية، واستبدلنا الحروف بتهجئات مماثلة، وما إلى ذلك. تم أخذ الترميز الأولي لهذا من خلال تطبيق قواميس الحصيرة على مجموعات كبيرة من النصوص. إذا أخذت جملة واحدة وقمت بتحريفها بعدة طرق، فسينتهي بك الأمر بجمل عديدة. بهذه الطريقة يمكنك زيادة عينة التدريب عشرات المرات. كل ما تبقى هو تدريب المجموعة الناتجة على نموذج أكثر أو أقل ذكاءً يأخذ في الاعتبار السياق.

كيف تفتح التعليقات ولا تغرق في البريد العشوائي

ومن السابق لأوانه الحديث عن القرار النهائي. مازلنا نجرب طرقًا لحل هذه المشكلة، ولكن يمكننا أن نرى بالفعل أن الشبكة التلافيفية الرمزية البسيطة المكونة من عدة طبقات تتفوق بشكل كبير على القواميس والمحركات العادية: من الممكن زيادة الدقة والتذكر.

بالطبع، نحن ندرك أنه ستكون هناك دائمًا طرق لتجاوز حتى أكثر أنظمة التشغيل الآلي تقدمًا، خاصة عندما يكون الأمر خطيرًا للغاية: اكتب بطريقة لن تفهمها آلة غبية. هنا، كما هو الحال في مكافحة البريد العشوائي، هدفنا ليس القضاء على إمكانية كتابة شيء فاحش؛ مهمتنا هي التأكد من أن اللعبة لا تستحق كل هذا العناء.

إن فتح الفرصة لمشاركة رأيك والتواصل والتعليق ليس بالأمر الصعب. من الأصعب بكثير تحقيق ظروف آمنة ومريحة ومعاملة محترمة للناس. وبدون هذا لن يكون هناك تطور لأي مجتمع.

المصدر: www.habr.com

إضافة تعليق