كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية

في بعض الأحيان، لحل مشكلة ما، تحتاج فقط إلى النظر إليها من زاوية مختلفة. حتى لو تم حل مشاكل مماثلة على مدى السنوات العشر الماضية بنفس الطريقة وبتأثيرات مختلفة، فليس حقيقة أن هذه الطريقة هي الوحيدة.

هناك موضوع مثل زبد العملاء. الأمر لا مفر منه، لأن عملاء أي شركة يمكنهم، لأسباب عديدة، التوقف عن استخدام منتجاتها أو خدماتها. وبطبيعة الحال، بالنسبة للشركة، يعد التغيير أمرًا طبيعيًا، ولكنه ليس الإجراء المرغوب فيه، لذلك يحاول الجميع تقليل هذا التغيير. والأفضل من ذلك، التنبؤ باحتمالية التراجع عن فئة معينة من المستخدمين، أو مستخدم معين، واقتراح بعض الخطوات للاحتفاظ بهم.

من الضروري تحليل العميل ومحاولة الاحتفاظ به، إن أمكن، للأسباب التالية على الأقل:

  • إن جذب عملاء جدد أكثر تكلفة من إجراءات الاحتفاظ بهم. لجذب عملاء جدد، كقاعدة عامة، تحتاج إلى إنفاق بعض المال (الإعلان)، في حين يمكن تنشيط العملاء الحاليين بعرض خاص بشروط خاصة؛
  • إن فهم أسباب مغادرة العملاء هو المفتاح لتحسين المنتجات والخدمات.

هناك طرق قياسية للتنبؤ بالاضطراب. لكن في إحدى بطولات الذكاء الاصطناعي قررنا تجربة توزيعة Weibull لهذا الغرض. يتم استخدامه غالبًا لتحليل قابلية البقاء والتنبؤ بالطقس وتحليل الكوارث الطبيعية والهندسة الصناعية وما شابه. توزيع Weibull هو دالة توزيع خاصة يتم تحديد معلماتها بواسطة معلمتين كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية и كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية.

كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية
ويكيبيديا

بشكل عام، إنه أمر مثير للاهتمام، ولكن للتنبؤ بالتدفقات الخارجية، وفي مجال التكنولوجيا المالية بشكل عام، لا يتم استخدامه كثيرًا. سنخبرك أدناه كيف قمنا (مختبر استخراج البيانات) بذلك، وفي الوقت نفسه فزنا بالميدالية الذهبية في بطولة الذكاء الاصطناعي في فئة "الذكاء الاصطناعي في البنوك".

حول التقلب بشكل عام

دعونا نفهم قليلاً ما هو "تخضير العملاء" وسبب أهميته. قاعدة العملاء مهمة للأعمال التجارية. يأتي العملاء الجدد إلى هذه القاعدة، على سبيل المثال، بعد أن تعلموا عن منتج أو خدمة من أحد الإعلانات، ويعيشون لبعض الوقت (يستخدمون المنتجات بنشاط) وبعد مرور بعض الوقت يتوقفون عن استخدامها. تسمى هذه الفترة "دورة حياة العميل" - وهو مصطلح يصف المراحل التي يمر بها العميل عندما يتعرف على منتج ما، ويتخذ قرار الشراء، ويدفع، ويستخدمه ويصبح مستهلكًا مخلصًا، ويتوقف في النهاية عن استخدام المنتج. لسبب او لآخر. وبناءً على ذلك، فإن التغيير هو المرحلة الأخيرة من دورة حياة العميل، عندما يتوقف العميل عن استخدام الخدمات، وبالنسبة للأعمال التجارية فهذا يعني أن العميل قد توقف عن تحقيق الربح أو أي فائدة على الإطلاق.

كل عميل بنك هو شخص محدد يختار بطاقة مصرفية أو أخرى خصيصًا لاحتياجاته. إذا كنت تسافر كثيرًا، فستكون البطاقة التي تحتوي على أميال مفيدة. يشتري الكثير - مرحبًا، بطاقة استرداد النقود. إنه يشتري الكثير من المتاجر المحددة - ويوجد بالفعل شريك بلاستيكي خاص لهذا الغرض. بالطبع، في بعض الأحيان يتم اختيار البطاقة بناءً على معيار "الخدمة الأرخص". بشكل عام، هناك ما يكفي من المتغيرات هنا.

ويختار الشخص أيضًا البنك نفسه - ما الفائدة من اختيار بطاقة من بنك فروعه موجودة فقط في موسكو والمنطقة عندما تكون من خاباروفسك؟ حتى لو كانت البطاقة من هذا البنك أكثر ربحية مرتين على الأقل، فإن وجود فروع البنوك القريبة لا يزال معيارًا مهمًا. نعم، لقد أتى عام 2 بالفعل، والرقمية هي كل شيء لدينا، ولكن لا يمكن حل عدد من المشكلات مع بعض البنوك إلا في أحد الفروع. بالإضافة إلى ذلك، مرة أخرى، يثق جزء من السكان في البنك الفعلي أكثر بكثير من تطبيق على الهاتف الذكي، ويجب أن يؤخذ هذا أيضًا في الاعتبار.

ونتيجة لذلك، قد يكون لدى الشخص أسباب كثيرة لرفض المنتجات المصرفية (أو البنك نفسه). لقد غيرت وظيفتي، وتغيرت تعريفة البطاقة من الراتب إلى "للبشر فقط"، وهو أقل ربحية. انتقلت إلى مدينة أخرى حيث لا توجد فروع للبنوك. لم يعجبني التعامل مع العامل غير المؤهل في الفرع. وهذا يعني أنه قد تكون هناك أسباب لإغلاق الحساب أكثر من استخدام المنتج.

ولا يمكن للعميل فقط التعبير بوضوح عن نيته - الحضور إلى البنك وكتابة بيان، ولكن ببساطة التوقف عن استخدام المنتجات دون إنهاء العقد. تقرر استخدام التعلم الآلي والذكاء الاصطناعي لفهم مثل هذه المشكلات.

علاوة على ذلك، يمكن أن يحدث تراجع العملاء في أي صناعة (الاتصالات، ومقدمو خدمات الإنترنت، وشركات التأمين، بشكل عام، أينما توجد قاعدة عملاء ومعاملات دورية).

ماذا فعلنا

بادئ ذي بدء، كان من الضروري وصف حدود واضحة - من أي وقت نبدأ في اعتبار العميل قد غادر. من وجهة نظر البنك الذي زودنا بالبيانات الخاصة بعملنا، كانت حالة نشاط العميل ثنائية - فهو إما نشط أم لا. كانت هناك علامة ACTIVE_FLAG في جدول "النشاط"، والتي يمكن أن تكون قيمتها إما "0" أو "1" ("غير نشط" و"نشط" على التوالي). وسيكون كل شيء على ما يرام، لكن الشخص يمكنه استخدامه بنشاط لبعض الوقت، ثم يخرج من القائمة النشطة لمدة شهر - لقد مرض، أو ذهب إلى بلد آخر في إجازة، أو حتى ذهب لاختبار بطاقة من بنك آخر. أو ربما بعد فترة طويلة من عدم النشاط، البدء في استخدام خدمات البنك مرة أخرى

لذلك، قررنا أن نطلق على فترة عدم النشاط فترة زمنية معينة متواصلة تم خلالها ضبط العلم الخاص بها على "0".

كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية

ينتقل العملاء من حالة عدم النشاط إلى حالة النشاط بعد فترات من عدم النشاط ذات فترات متفاوتة. لدينا الفرصة لحساب درجة القيمة التجريبية "موثوقية فترات عدم النشاط" - أي احتمال أن يبدأ الشخص في استخدام المنتجات المصرفية مرة أخرى بعد عدم النشاط المؤقت.

على سبيل المثال، يوضح هذا الرسم البياني استئناف النشاط (ACTIVE_FLAG=1) للعملاء بعد عدة أشهر من عدم النشاط (ACTIVE_FLAG=0).

كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية

سنوضح هنا قليلاً مجموعة البيانات التي بدأنا العمل بها. لذلك قدم البنك معلومات مجمعة لمدة 19 شهراً في الجداول التالية:

  • "النشاط" - معاملات العملاء الشهرية (عن طريق البطاقات، في الخدمات المصرفية عبر الإنترنت والخدمات المصرفية عبر الهاتف المحمول)، بما في ذلك كشوف المرتبات ومعلومات عن حجم الأعمال.
  • "البطاقات" - بيانات عن كافة البطاقات التي يمتلكها العميل، مع جدول تعريفة مفصل.
  • "الاتفاقيات" - معلومات حول اتفاقيات العميل (المفتوحة والمغلقة): القروض والودائع وما إلى ذلك، مع الإشارة إلى معايير كل منها.
  • "العملاء" - مجموعة من البيانات الديموغرافية (الجنس والعمر) ومدى توفر معلومات الاتصال.

للعمل كنا بحاجة إلى جميع الجداول باستثناء "الخريطة".

كانت هناك صعوبة أخرى هنا - في هذه البيانات لم يوضح البنك نوع النشاط الذي حدث على البطاقات. أي أننا كنا نستطيع أن نفهم ما إذا كانت هناك معاملات أم لا، ولكن لم يعد بإمكاننا تحديد نوعها. ولذلك، لم يكن من الواضح ما إذا كان العميل يسحب نقدًا، أو يتلقى راتبًا، أو ينفق الأموال على المشتريات. ولم تكن لدينا أيضًا بيانات عن أرصدة الحسابات، وهو ما كان من الممكن أن يكون مفيدًا.

وكانت العينة نفسها غير متحيزة - ففي هذا القسم، على مدار 19 شهرًا، لم يقم البنك بأي محاولات للاحتفاظ بالعملاء وتقليل التدفقات الخارجة.

لذلك، حول فترات عدم النشاط.

لصياغة تعريف للخض، يجب تحديد فترة عدم النشاط. لإنشاء توقعات الاضطراب في وقت ما كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية، يجب أن يكون لديك سجل عملاء لا يقل عن 3 أشهر على فترات كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية. كان تاريخنا محدودًا بـ 19 شهرًا، لذلك قررنا أن نأخذ فترة عدم نشاط مدتها 6 أشهر، إذا كانت متاحة. وللمدة الدنيا للتنبؤات عالية الجودة، استغرقنا 3 أشهر. لقد أخذنا الأرقام لمدة 3 و6 أشهر بشكل تجريبي بناءً على تحليل سلوك بيانات العملاء.

لقد قمنا بصياغة تعريف "الخسارة" على النحو التالي: شهر "الخسارة" من جانب العميل كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية هذا هو الشهر الأول الذي يحتوي على ACTIVE_FLAG=0، حيث يوجد اعتبارًا من هذا الشهر ستة أصفار متتالية على الأقل في الحقل ACTIVE_FLAG، بمعنى آخر، الشهر الذي كان العميل غير نشط فيه لمدة 6 أشهر.

كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية
عدد العملاء الذين غادروا

كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية
عدد العملاء المتبقين

كيف يتم حساب التقلب؟

في مثل هذه المسابقات، وفي الممارسة العملية بشكل عام، غالبًا ما يتم التنبؤ بالتدفق الخارجي بهذه الطريقة. يستخدم العميل المنتجات والخدمات في فترات زمنية مختلفة، ويتم تمثيل البيانات المتعلقة بالتفاعل معه كمتجه لميزات ذات طول ثابت n. في أغلب الأحيان تتضمن هذه المعلومات ما يلي:

  • البيانات التي تميز المستخدم (البيانات الديموغرافية، شريحة التسويق).
  • تاريخ استخدام المنتجات والخدمات المصرفية (هذه هي إجراءات العملاء التي ترتبط دائمًا بوقت أو فترة محددة من الفاصل الزمني الذي نحتاجه).
  • البيانات الخارجية، إذا كان من الممكن الحصول عليها - على سبيل المثال، المراجعات من الشبكات الاجتماعية.

وبعد ذلك، يستنتجون تعريفًا مختلفًا لكل مهمة. ثم يستخدمون خوارزمية التعلم الآلي، التي تتنبأ باحتمالية مغادرة العميل كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية على أساس ناقلات العوامل كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية. لتدريب الخوارزمية، يتم استخدام أحد الأطر المعروفة لبناء مجموعات من أشجار القرار، XGBoost, LightGBM, كاتبووست أو تعديلات عليها.

الخوارزمية في حد ذاتها ليست سيئة، ولكن لديها العديد من العيوب الخطيرة عندما يتعلق الأمر بالتنبؤ بالتغيير.

  • ليس لديه ما يسمى بـ "الذاكرة". إدخال النموذج هو عدد محدد من الميزات التي تتوافق مع النقطة الزمنية الحالية. من أجل تخزين معلومات حول تاريخ التغييرات في المعلمات، من الضروري حساب الميزات الخاصة التي تميز التغييرات في المعلمات مع مرور الوقت، على سبيل المثال، عدد أو مبلغ المعاملات المصرفية خلال آخر 1,2,3، XNUMX، XNUMX أشهر. ولا يمكن أن يعكس هذا النهج طبيعة التغييرات المؤقتة إلا جزئيًا.
  • أفق التنبؤ الثابت. النموذج قادر فقط على التنبؤ بتغير العملاء لفترة زمنية محددة مسبقًا، على سبيل المثال، توقع قبل شهر واحد. إذا كان التنبؤ مطلوبًا لفترة زمنية مختلفة، على سبيل المثال، ثلاثة أشهر، فأنت بحاجة إلى إعادة بناء مجموعة التدريب وإعادة تدريب نموذج جديد.

نهجنا

قررنا على الفور أننا لن نستخدم الأساليب القياسية. بالإضافة إلينا، تم تسجيل 497 شخصًا آخر في البطولة، كل منهم لديه خبرة كبيرة وراءه. لذا فإن محاولة القيام بشيء ما وفقًا لمخطط قياسي في مثل هذه الظروف ليست فكرة جيدة.

وبدأنا في حل المشكلات التي تواجه نموذج التصنيف الثنائي من خلال التنبؤ بالتوزيع الاحتمالي لأوقات توقف العملاء. ويمكن رؤية نهج مماثل هنا، فهو يسمح لك بالتنبؤ بالتغيير بمرونة أكبر واختبار فرضيات أكثر تعقيدًا من النهج الكلاسيكي. كعائلة من التوزيعات التي تقوم بنمذجة وقت التدفق، اخترنا التوزيع ويبول لاستخدامه على نطاق واسع في تحليل البقاء على قيد الحياة. يمكن النظر إلى سلوك العميل على أنه نوع من البقاء.

فيما يلي أمثلة لتوزيعات الكثافة الاحتمالية لـ Weibull اعتمادًا على المعلمات كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية и كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية:

كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية

هذه هي دالة الكثافة الاحتمالية لثلاثة عملاء مختلفين مع مرور الوقت. يتم تقديم الوقت بالأشهر. بمعنى آخر، يوضح هذا الرسم البياني متى يكون من المرجح أن يتراجع العميل في الشهرين المقبلين. وكما ترون، فإن العميل الذي لديه توزيع لديه إمكانية أكبر للمغادرة في وقت أبكر من العملاء الذين لديهم Weibull(2, 0.5) وWeibull (3,1،XNUMX) التوزيعات.

والنتيجة هي نموذج لكل عميل ولكل
يتنبأ الشهر بمعلمات توزيع Weibull، والتي تعكس بشكل أفضل حدوث احتمال التدفق الخارجي بمرور الوقت. بتفاصيل اكثر:

  • الميزات المستهدفة في مجموعة التدريب هي الوقت المتبقي حتى يتم الانتهاء من شهر محدد لعميل معين.
  • إذا لم يكن هناك معدل توقف للعميل، فإننا نفترض أن وقت التوقف أكبر من عدد الأشهر من الشهر الحالي إلى نهاية السجل لدينا.
  • النموذج المستخدم: الشبكة العصبية المتكررة مع طبقة LSTM.
  • كدالة خسارة، نستخدم دالة احتمالية السجل السلبية لتوزيع Weibull.

فيما يلي مزايا هذه الطريقة:

  • يسمح التوزيع الاحتمالي، بالإضافة إلى الاحتمال الواضح للتصنيف الثنائي، بالتنبؤ المرن بالأحداث المختلفة، على سبيل المثال، ما إذا كان العميل سيتوقف عن استخدام خدمات البنك في غضون 3 أشهر. وأيضًا، إذا لزم الأمر، يمكن حساب متوسط ​​المقاييس المختلفة على هذا التوزيع.
  • تحتوي الشبكة العصبية المتكررة LSTM على ذاكرة وتستخدم السجل المتاح بالكامل بشكل فعال. ومع توسيع القصة أو تحسينها، تزداد الدقة.
  • ويمكن توسيع نطاق هذا النهج بسهولة عند تقسيم الفترات الزمنية إلى فترات أصغر (على سبيل المثال، عند تقسيم الأشهر إلى أسابيع).

لكن إنشاء نموذج جيد لا يكفي، بل تحتاج أيضًا إلى تقييم جودته بشكل صحيح.

كيف تم تقييم الجودة؟

لقد اخترنا منحنى الرفع كمقياس. يتم استخدامه في الأعمال التجارية لمثل هذه الحالات بسبب تفسيره الواضح وحسن وصفه هنا и هنا. إذا قمت بوصف معنى هذا المقياس في جملة واحدة، فسيكون "كم مرة تقوم الخوارزمية بالتنبؤ الأفضل في الجملة الأولى؟ كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية% بشكل عشوائي."

نماذج التدريب

لم تحدد شروط المنافسة مقياس جودة محددًا يمكن من خلاله مقارنة النماذج والأساليب المختلفة. علاوة على ذلك، يمكن أن يكون تعريف الزبد مختلفًا وقد يعتمد على بيان المشكلة، والذي بدوره يتم تحديده من خلال أهداف العمل. ولذلك، من أجل فهم الطريقة الأفضل، قمنا بتدريب نموذجين:

  1. أسلوب تصنيف ثنائي شائع الاستخدام باستخدام خوارزمية التعلم الآلي لشجرة القرار المجمعة (LightGBM);
  2. نموذج ويبل-LSTM

تتألف مجموعة الاختبار من 500 عميل تم اختيارهم مسبقًا والذين لم يكونوا في مجموعة التدريب. تم اختيار المعلمات الفائقة للنموذج باستخدام التحقق المتبادل، مقسمة حسب العميل. تم استخدام نفس مجموعات الميزات لتدريب كل نموذج.

نظرًا لأن النموذج لا يحتوي على ذاكرة، فقد تم أخذ ميزات خاصة له، توضح نسبة التغييرات في المعلمات لمدة شهر واحد إلى متوسط ​​قيمة المعلمات خلال الأشهر الثلاثة الماضية. وهو ما اتسم به معدل التغير في القيم خلال فترة الثلاثة أشهر الماضية. بدون هذا، سيكون النموذج القائم على الغابة العشوائية في وضع غير مؤاتٍ مقارنة بـ Weibull-LSTM.

لماذا تعتبر LSTM مع توزيع Weibull أفضل من نهج شجرة القرار المجمعة

كل شيء واضح هنا في بضع صور فقط.

كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية
مقارنة منحنى الرفع للخوارزمية الكلاسيكية وWeibull-LSTM

كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية
مقارنة مقياس منحنى الرفع حسب الشهر للخوارزمية الكلاسيكية وWeibull-LSTM

بشكل عام، تتفوق LSTM على الخوارزمية الكلاسيكية في جميع الحالات تقريبًا.

توقعات التقلب

يمكن للنموذج الذي يعتمد على شبكة عصبية متكررة مع خلايا LSTM مع توزيع Weibull أن يتنبأ بالتغيير مقدمًا، على سبيل المثال، التنبؤ بتغير العملاء خلال الأشهر n القادمة. خذ بعين الاعتبار حالة n = 3. في هذه الحالة، لكل شهر، يجب على الشبكة العصبية أن تحدد بشكل صحيح ما إذا كان العميل سيغادر، بدءًا من الشهر التالي وحتى الشهر التاسع. بمعنى آخر، يجب أن يحدد بشكل صحيح ما إذا كان العميل سيبقى بعد n من الأشهر. يمكن اعتبار هذا توقعًا مسبقًا: التنبؤ باللحظة التي يبدأ فيها العميل للتو في التفكير في المغادرة.

دعونا نقارن منحنى الرفع لـ Weibull-LSTM 1 و 2 و 3 أشهر قبل التدفق الخارجي:

كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية

لقد كتبنا بالفعل أعلاه أن التوقعات المقدمة للعملاء الذين لم يعودوا نشطين لبعض الوقت مهمة أيضًا. لذلك، سنضيف هنا إلى العينة مثل هذه الحالات التي يكون فيها العميل المغادر غير نشط بالفعل لمدة شهر أو شهرين، ونتأكد من أن Weibull-LSTM تصنف هذه الحالات بشكل صحيح على أنها حالة توقف. وبما أن مثل هذه الحالات كانت موجودة في العينة، فإننا نتوقع أن تتعامل الشبكة معها بشكل جيد:

كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية

المحافظة على العملاء

في الواقع، هذا هو الشيء الرئيسي الذي يمكن القيام به، مع وجود معلومات في متناول اليد تفيد بأن عملاء كذا وكذا يستعدون للتوقف عن استخدام المنتج. عند الحديث عن بناء نموذج يمكن أن يقدم شيئًا مفيدًا للعملاء من أجل الاحتفاظ بهم، لا يمكن القيام بذلك إذا لم يكن لديك تاريخ من المحاولات المماثلة التي قد تنتهي بشكل جيد.

لم تكن لدينا مثل هذه القصة، لذلك قررنا الأمر بهذه الطريقة.

  1. نحن نبني نموذجًا يحدد المنتجات المثيرة للاهتمام لكل عميل.
  2. نقوم كل شهر بتشغيل أداة التصنيف وتحديد العملاء المحتمل مغادرتهم.
  3. نحن نقدم المنتج لبعض العملاء، وفقًا للنموذج من النقطة 1، ونتذكر أعمالنا.
  4. بعد بضعة أشهر، ننظر إلى أي من هؤلاء العملاء الذين يحتمل أن يتركوا العملاء قد بقي وأي منهم بقي. وبذلك نشكل عينة تدريبية.
  5. نقوم بتدريب النموذج باستخدام التاريخ الذي تم الحصول عليه في الخطوة 4.
  6. اختياريًا، نكرر الإجراء، مع استبدال النموذج من الخطوة 1 بالنموذج الذي تم الحصول عليه في الخطوة 5.

يمكن إجراء اختبار لجودة هذا الاحتفاظ عن طريق اختبار A/B المنتظم - حيث نقوم بتقسيم العملاء الذين من المحتمل أن يغادروا إلى مجموعتين. نحن نقدم المنتجات لأحدهما بناءً على نموذج الاحتفاظ الخاص بنا، ولا نقدم شيئًا للآخر. قررنا تدريب نموذج يمكن أن يكون مفيدًا بالفعل في النقطة 1 من مثالنا.

أردنا أن نجعل التجزئة قابلة للتفسير قدر الإمكان. للقيام بذلك، اخترنا العديد من الميزات التي يمكن تفسيرها بسهولة: إجمالي عدد المعاملات، والأجور، وإجمالي معدل دوران الحساب، والعمر، والجنس. لم يتم أخذ الميزات من جدول "الخرائط" في الاعتبار على أنها غير مفيدة، ولم يتم أخذ الميزات من الجدول 3 "العقود" في الاعتبار بسبب تعقيد المعالجة لتجنب تسرب البيانات بين مجموعة التحقق ومجموعة التدريب.

تم إجراء التجميع باستخدام نماذج الخليط الغاوسي. سمح لنا معيار المعلومات Akaike بتحديد 2 أوبتيما. الأمثل الأول يتوافق مع مجموعة واحدة. الأمثل الثاني، الأقل وضوحًا، يتوافق مع 1 مجموعة. وبناءً على هذه النتيجة، يمكننا استخلاص الاستنتاج التالي: من الصعب للغاية تقسيم البيانات إلى مجموعات دون الحصول على معلومات مسبقة. لتجميع أفضل، تحتاج إلى بيانات تصف كل عميل بالتفصيل.

لذلك، تم النظر في مشكلة التعلم الخاضع للإشراف من أجل تقديم منتج مختلف لكل عميل على حدة. تم النظر في المنتجات التالية: "الوديعة لأجل"، "بطاقة الائتمان"، "السحب على المكشوف"، "القرض الاستهلاكي"، "قرض السيارة"، "الرهن العقاري".

وتضمنت البيانات نوعاً آخر من المنتجات: "الحساب الجاري". لكننا لم نأخذه بعين الاعتبار بسبب قلة محتواه من المعلومات. بالنسبة للمستخدمين الذين هم عملاء البنك، أي. لم تتوقف عن استخدام منتجاتها، بل تم بناء نموذج للتنبؤ بالمنتج الذي قد يثير اهتمامهم. تم اختيار الانحدار اللوجستي كنموذج، وتم استخدام قيمة الرفع للنسب المئوية العشرة الأولى كمقياس لتقييم الجودة.

يمكن تقييم جودة النموذج في الشكل.

كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية
نتائج نموذج توصية المنتج للعملاء

مجموع

لقد أدى هذا النهج إلى حصولنا على المركز الأول في فئة "الذكاء الاصطناعي في البنوك" في بطولة RAIF-Challenge 2017 للذكاء الاصطناعي.

كيف توقعنا الاضطراب من خلال الاقتراب منه وكأنه كارثة طبيعية

على ما يبدو، كان الشيء الرئيسي هو التعامل مع المشكلة من زاوية غير تقليدية واستخدام الطريقة التي تستخدم عادة في مواقف أخرى.

على الرغم من أن التدفق الهائل للمستخدمين قد يشكل كارثة طبيعية للخدمات.

يمكن أخذ هذه الطريقة بعين الاعتبار في أي منطقة أخرى من المهم فيها مراعاة التدفقات الخارجة، وليس فقط البنوك. على سبيل المثال، استخدمناه لحساب التدفق الخارجي الخاص بنا - في فرعي Rostelecom في سيبيريا وسانت بطرسبرغ.

شركة "مختبر التنقيب في البيانات" "بوابة البحث "سبوتنيك"

المصدر: www.habr.com

إضافة تعليق