إنشاء نظام آلي لمكافحة المتطفلين على الموقع (احتيال)

على مدى الأشهر الستة الماضية، قمت بإنشاء نظام لمكافحة الاحتيال (الأنشطة الاحتيالية، والاحتيال، وما إلى ذلك) دون أي بنية تحتية أولية لذلك. تساعدنا أفكار اليوم التي وجدناها وقمنا بتنفيذها في نظامنا على اكتشاف وتحليل العديد من الأنشطة الاحتيالية. أود في هذا المقال أن أتحدث عن المبادئ التي اتبعناها وما فعلناه للوصول إلى الوضع الحالي لنظامنا، دون الخوض في الجزء الفني.

مبادئ نظامنا

عندما تسمع مصطلحات مثل "تلقائي" و"احتيال"، فمن المرجح أن تبدأ في التفكير في التعلم الآلي، وApache Spark، وHadoop، وPython، وAirflow، وغيرها من التقنيات في النظام البيئي لمؤسسة Apache ومجال علوم البيانات. أعتقد أن هناك جانبًا واحدًا لاستخدام هذه الأدوات لا يتم ذكره عادةً: فهي تتطلب توفر متطلبات مسبقة معينة على نظام مؤسستك قبل أن تتمكن من استخدامها. باختصار، أنت بحاجة إلى نظام أساسي لبيانات المؤسسة يشتمل على مستودع بيانات ومساحة تخزين. ولكن ماذا لو لم يكن لديك مثل هذه المنصة وما زلت بحاجة إلى تطوير هذه الممارسة؟ لقد ساعدتنا المبادئ التالية، التي أصفها أدناه، في الوصول إلى النقطة التي يمكننا عندها التركيز على تحسين أفكارنا، بدلاً من العثور على فكرة عملية. ومع ذلك، هذه ليست "هضبة" للمشروع. هناك العديد من الأشياء في الخطة من وجهة النظر التكنولوجية والمنتج.

المبدأ الأول: قيمة الأعمال أولاً

نحن نضع "قيمة الأعمال" في مقدمة جميع جهودنا. بشكل عام، ينتمي أي نظام تحليل تلقائي إلى مجموعة الأنظمة المعقدة ذات المستوى العالي من الأتمتة والتعقيد الفني. سيستغرق إنشاء حل كامل الكثير من الوقت إذا قمت بإنشائه من البداية. قررنا أن نضع قيمة الأعمال أولاً والنضج التكنولوجي ثانيًا. في الحياة الواقعية، هذا يعني أننا لا نقبل التكنولوجيا المتقدمة كعقيدة. نختار التكنولوجيا التي تناسبنا بشكل أفضل في الوقت الحالي. بمرور الوقت، قد يبدو أنه سيتعين علينا إعادة تنفيذ بعض الوحدات. هذه هي التسوية التي قبلناها.

المبدأ الثاني: الذكاء المعزز

أراهن أن معظم الأشخاص الذين لا يشاركون بعمق في تطوير حلول التعلم الآلي قد يعتقدون أن الاستبدال البشري هو الهدف. في الواقع، حلول التعلم الآلي بعيدة كل البعد عن الكمال ولا يمكن استبدالها إلا في مناطق معينة. لقد تخلينا عن هذه الفكرة منذ البداية لعدة أسباب: البيانات غير المتوازنة حول النشاط الاحتيالي وعدم القدرة على توفير قائمة شاملة من الميزات لنماذج التعلم الآلي. وفي المقابل، اخترنا خيار الذكاء المعزز. وهذا مفهوم بديل للذكاء الاصطناعي يركز على الدور الداعم للذكاء الاصطناعي، مع التأكيد على حقيقة أن التقنيات المعرفية مصممة لتعزيز الذكاء البشري، وليس استبداله. [1]

ومع أخذ ذلك في الاعتبار، فإن تطوير حل كامل للتعلم الآلي من البداية سيتطلب قدرًا هائلاً من الجهد الذي من شأنه أن يؤخر إنشاء القيمة لأعمالنا. قررنا بناء نظام ذو جانب متنامي بشكل متكرر من التعلم الآلي تحت إشراف خبراء المجال لدينا. الجزء الصعب في تطوير مثل هذا النظام هو أنه يجب أن يزود محللينا بدراسات حالة ليس فقط فيما يتعلق بما إذا كان هذا نشاطًا احتياليًا أم لا. بشكل عام، أي شذوذ في سلوك العملاء هو حالة مشبوهة يجب على المتخصصين التحقيق فيها والرد عليها بطريقة أو بأخرى. فقط عدد قليل من هذه الحالات المسجلة يمكن تصنيفها على أنها احتيال.

المبدأ الثالث: منصة الرؤى الغنية

الجزء الأكثر صعوبة في نظامنا هو التحقق الشامل من سير عمل النظام. يجب على المحللين والمطورين الحصول بسهولة على مجموعات البيانات التاريخية مع جميع المقاييس التي تم استخدامها للتحليل. وبالإضافة إلى ذلك، ينبغي لمنصة البيانات أن توفر طريقة سهلة لتكملة مجموعة المؤشرات الحالية بمجموعة جديدة. العمليات التي نقوم بإنشائها، وهذه ليست مجرد عمليات برمجية، ينبغي أن تجعل من السهل إعادة حساب الفترات السابقة وإضافة مقاييس جديدة وتغيير توقعات البيانات. يمكننا تحقيق ذلك من خلال تجميع جميع البيانات التي يولدها نظام الإنتاج لدينا. وفي مثل هذه الحالة، ستصبح البيانات عائقًا تدريجيًا. سنحتاج إلى تخزين الكمية المتزايدة من البيانات التي لا نستخدمها وحمايتها. في مثل هذا السيناريو، ستصبح البيانات غير ذات صلة بمرور الوقت، ولكنها لا تزال تتطلب جهودنا لإدارتها. بالنسبة لنا، لم يكن اكتناز البيانات منطقيًا، وقررنا استخدام نهج مختلف. قررنا تنظيم مستودعات بيانات في الوقت الفعلي حول الكيانات المستهدفة التي نريد تصنيفها، وتخزين البيانات فقط التي تسمح لنا بالتحقق من الفترات الأحدث والمحدثة. يكمن التحدي في هذا الجهد في أن نظامنا غير متجانس مع العديد من مخازن البيانات ووحدات البرامج التي تتطلب تخطيطًا دقيقًا للعمل بطريقة متسقة.

مفاهيم التصميم لنظامنا

لدينا أربعة مكونات رئيسية في نظامنا: نظام الاستيعاب، والنظام الحسابي، وتحليل ذكاء الأعمال، ونظام التتبع. إنها تخدم أغراضًا معزولة محددة، ونحن نبقيها معزولة باتباع أساليب تنموية معينة.

إنشاء نظام آلي لمكافحة المتطفلين على الموقع (احتيال)

التصميم القائم على العقد

في البداية، اتفقنا على أن المكونات يجب أن تعتمد فقط على هياكل بيانات معينة (عقود) يتم تمريرها فيما بينها. وهذا يجعل من السهل التكامل بينهما وعدم فرض تركيبة (وترتيب) محدد للمكونات. على سبيل المثال، يسمح لنا هذا في بعض الحالات بدمج نظام الاستقبال مباشرة مع نظام تتبع التنبيهات. وفي مثل هذه الحالة، سيتم ذلك وفقًا لعقد الإخطار المتفق عليه. وهذا يعني أنه سيتم دمج كلا المكونين باستخدام عقد يمكن لأي مكون آخر استخدامه. لن نقوم بإضافة عقد إضافي لإضافة تنبيهات إلى نظام التتبع من نظام الإدخال. يتطلب هذا النهج استخدام حد أدنى محدد مسبقًا من العقود ويبسط النظام والاتصالات. في الأساس، نحن نتبع نهجًا يسمى "التصميم الأول للعقد" ونطبقه على عقود البث. [2]

الجري في كل مكان

إن إنقاذ وإدارة الدولة في النظام سيؤدي حتما إلى تعقيدات في تنفيذه. بشكل عام، يجب أن يمكن الوصول إلى الحالة من أي مكون، ويجب أن تكون متسقة وتوفر أحدث قيمة عبر جميع المكونات، ويجب أن تكون موثوقة بالقيم الصحيحة. بالإضافة إلى ذلك، سيؤدي إجراء استدعاءات للتخزين المستمر للحصول على أحدث حالة إلى زيادة حجم الإدخال/الإخراج وتعقيد الخوارزميات المستخدمة في مسارات الوقت الفعلي لدينا. ولهذا السبب، قررنا إزالة تخزين الحالة بالكامل من نظامنا، إن أمكن. يتطلب هذا الأسلوب تضمين كافة البيانات الضرورية في وحدة البيانات المرسلة (الرسالة). على سبيل المثال، إذا كنا بحاجة إلى حساب العدد الإجمالي لبعض الملاحظات (عدد العمليات أو الحالات ذات خصائص معينة)، فإننا نحسبه في الذاكرة ونولد دفقًا من هذه القيم. ستستخدم الوحدات التابعة التقسيم والتجميع لتقسيم الدفق حسب الكيانات والعمل على أحدث القيم. أدى هذا الأسلوب إلى إلغاء الحاجة إلى تخزين دائم على القرص لمثل هذه البيانات. يستخدم نظامنا كافكا كوسيط للرسائل ويمكن استخدامه كقاعدة بيانات مع KSQL. [3] لكن استخدامه من شأنه أن يربط حلنا بقوة بكافكا، وقررنا عدم استخدامه. يتيح لنا النهج الذي اخترناه استبدال كافكا بوسيط رسائل آخر دون إجراء تغييرات داخلية كبيرة على النظام.

هذا المفهوم لا يعني أننا لا نستخدم تخزين القرص وقواعد البيانات. من أجل اختبار وتحليل أداء النظام، نحتاج إلى تخزين كمية كبيرة من البيانات على القرص، والتي تمثل مؤشرات وحالات مختلفة. النقطة المهمة هنا هي أن خوارزميات الوقت الفعلي لا تعتمد على مثل هذه البيانات. في معظم الحالات، نستخدم البيانات المحفوظة للتحليل دون الاتصال بالإنترنت وتصحيح الأخطاء وتتبع الحالات والنتائج المحددة التي ينتجها النظام.

مشاكل في نظامنا

هناك بعض المشاكل التي قمنا بحلها إلى مستوى معين، لكنها تتطلب حلولاً أكثر تفكيرًا. في الوقت الحالي، أود فقط أن أذكرها هنا، لأن كل عنصر يستحق مقالًا خاصًا به.

  • ما زلنا بحاجة إلى تحديد العمليات والسياسات التي تساعد في إنشاء بيانات مفيدة وذات صلة لتحليل البيانات واكتشافها واستكشافها تلقائيًا.
  • إدخال نتائج التحليل من قبل الشخص في عملية ضبط النظام تلقائيا لتحديثه بأحدث البيانات. لا يعد هذا تحديثًا لنموذجنا فحسب، بل يعد أيضًا تحديثًا لعملياتنا وفهمًا أفضل لبياناتنا.
  • إيجاد التوازن بين النهج الحتمي لـ IF-ELSE و ML. قال أحدهم: "تعلم الآلة هو أداة لليائسين." هذا يعني أنك سوف ترغب في استخدام تعلم الآلة عندما لم تعد تفهم كيفية تحسين الخوارزميات الخاصة بك وتحسينها. ومن ناحية أخرى، فإن النهج الحتمي لا يسمح باكتشاف الحالات الشاذة التي لم تكن متوقعة.
  • نحن بحاجة إلى طريقة سهلة لاختبار فرضياتنا أو الارتباطات بين المقاييس الموجودة في البيانات.
  • يجب أن يكون للنظام مستويات متعددة من النتائج الإيجابية الحقيقية. حالات الاحتيال ليست سوى جزء صغير من جميع الحالات التي يمكن اعتبارها إيجابية للنظام. على سبيل المثال، يرغب المحللون في تلقي جميع الحالات المشبوهة للمراجعة، ولا يكون سوى جزء صغير منها احتياليًا. يجب أن يقوم النظام بتزويد المحللين بشكل فعال بكافة الحالات سواء كانت حالات احتيال حقيقية أو مجرد سلوك مشبوه.
  • يجب أن تكون منصة البيانات قادرة على استرداد مجموعات البيانات التاريخية من خلال الحسابات التي تم إنشاؤها وحسابها بسرعة.
  • النشر البسيط والتلقائي لأي من مكونات النظام في ثلاث بيئات مختلفة على الأقل: الإنتاج والتجريبي (بيتا) والمطورين.
  • وأخيرا وليس آخرا. نحن بحاجة إلى إنشاء منصة قياس أداء واسعة النطاق يمكننا من خلالها تحليل نماذجنا. [4]

مراجع

  1. ما هو الذكاء المعزز؟
  2. تنفيذ منهجية التصميم API-First
  3. كافكا يتحول إلى "قاعدة بيانات لتدفق الأحداث"
  4. فهم منحنى AUC-ROC

المصدر: www.habr.com

إضافة تعليق