چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم

گاهی اوقات برای حل یک مشکل، فقط باید از زاویه دیگری به آن نگاه کرد. حتی اگر در طول 10 سال گذشته مشکلات مشابه به یک روش با اثرات متفاوت حل شده باشد، این واقعیت نیست که این روش تنها است.

موضوعی به نام ریزش مشتری وجود دارد. این امر اجتناب ناپذیر است، زیرا مشتریان هر شرکتی به دلایل زیادی می توانند استفاده از محصولات یا خدمات آن را متوقف کنند. البته، برای یک شرکت، ریزش یک عمل طبیعی است، اما مطلوب ترین عمل نیست، بنابراین همه سعی می کنند این ریزش را به حداقل برسانند. با این حال بهتر است، احتمال ریزش را برای دسته خاصی از کاربران یا یک کاربر خاص پیش‌بینی کنید و چند مرحله برای حفظ آنها پیشنهاد دهید.

تجزیه و تحلیل و تلاش برای حفظ مشتری، در صورت امکان، حداقل به دلایل زیر ضروری است:

  • جذب مشتریان جدید گران تر از روش های نگهداری است. برای جذب مشتریان جدید، به عنوان یک قاعده، باید مقداری پول خرج کنید (تبلیغات)، در حالی که مشتریان فعلی را می توان با یک پیشنهاد ویژه با شرایط ویژه فعال کرد.
  • درک دلایل خروج مشتریان کلید بهبود محصولات و خدمات است.

رویکردهای استانداردی برای پیش بینی ریزش وجود دارد. اما در یکی از مسابقات قهرمانی هوش مصنوعی، تصمیم گرفتیم توزیع Weibull را برای این کار امتحان کنیم. اغلب برای تجزیه و تحلیل بقا، پیش بینی آب و هوا، تجزیه و تحلیل بلایای طبیعی، مهندسی صنایع و موارد مشابه استفاده می شود. توزیع Weibull یک تابع توزیع ویژه است که توسط دو پارامتر پارامتر می شود چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم и چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم.

چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم
ویکیپدیا

به طور کلی، چیز جالبی است، اما برای پیش‌بینی جریان‌های خروجی، و به طور کلی در فین‌تک، اغلب از آن استفاده نمی‌شود. در زیر برش به شما می گوییم که چگونه ما (آزمایشگاه داده کاوی) این کار را انجام دادیم و همزمان در مسابقات قهرمانی هوش مصنوعی در رده "AI در بانک ها" طلا گرفتیم.

در مورد ریزش به طور کلی

بیایید کمی درک کنیم که ریزش مشتری چیست و چرا اینقدر مهم است. پایگاه مشتری برای یک تجارت مهم است. مشتریان جدید به این پایگاه می آیند، به عنوان مثال، با اطلاع از یک محصول یا خدمات از یک آگهی، مدتی زندگی می کنند (به طور فعال از محصولات استفاده می کنند) و پس از مدتی استفاده از آن را متوقف می کنند. این دوره «چرخه حیات مشتری» نامیده می‌شود - اصطلاحی که مراحلی را که مشتری طی می‌کند هنگام اطلاع از محصول، تصمیم‌گیری خرید، پرداخت، استفاده و تبدیل شدن به یک مصرف‌کننده وفادار و در نهایت توقف استفاده از محصول طی می‌کند. به یک دلیل یا دلیل دیگر بر این اساس، ریزش آخرین مرحله چرخه زندگی مشتری است، زمانی که مشتری استفاده از خدمات را متوقف می کند، و برای یک کسب و کار این به این معنی است که مشتری دیگر سود یا هیچ منفعتی را به همراه ندارد.

هر مشتری بانک شخص خاصی است که کارت بانکی را به طور خاص برای نیاز خود انتخاب می کند. اگر اغلب سفر می کنید، یک کارت با مایل به کارتان می آید. زیاد خرید می کند - سلام، کارت برگشت نقدی. او در فروشگاه های خاص زیاد خرید می کند - و در حال حاضر یک پلاستیک شریک ویژه برای این وجود دارد. البته گاهی اوقات یک کارت بر اساس معیار «ارزانترین خدمات» انتخاب می شود. به طور کلی، متغیرهای کافی در اینجا وجود دارد.

و شخص نیز خود بانک را انتخاب می کند - وقتی از خاباروفسک هستید، انتخاب کارت از بانکی که شعبه های آن فقط در مسکو و منطقه هستند چه فایده ای دارد؟ حتی اگر یک کارت از چنین بانکی حداقل 2 برابر سود بیشتری داشته باشد، وجود شعب بانک در نزدیکی آن هنوز یک معیار مهم است. بله، سال 2019 در حال حاضر فرا رسیده است و دیجیتال همه چیز ما است، اما تعدادی از مشکلات با برخی بانک ها فقط در یک شعبه قابل حل است. بعلاوه، مجدداً، برخی از مردم به یک بانک فیزیکی بیشتر از یک برنامه کاربردی در تلفن هوشمند اعتماد دارند، این نیز باید در نظر گرفته شود.

در نتیجه، ممکن است شخصی دلایل زیادی برای امتناع از محصولات بانکی (یا خود بانک) داشته باشد. من شغلم را تغییر دادم و تعرفه کارت از حقوق به «برای فانیان صرف» تغییر کرد که سود کمتری دارد. من به شهر دیگری نقل مکان کردم که در آن شعبه بانکی وجود ندارد. من از تعامل با اپراتور بی‌صلاحیت در شعبه خوشم نیامد. یعنی ممکن است حتی دلایل بیشتری برای بستن حساب نسبت به استفاده از محصول وجود داشته باشد.

و مشتری نه تنها می تواند به وضوح قصد خود را بیان کند - به بانک بیاید و بیانیه ای بنویسد، بلکه به سادگی استفاده از محصولات را بدون فسخ قرارداد متوقف کند. تصمیم گرفته شد برای درک چنین مشکلاتی از یادگیری ماشین و هوش مصنوعی استفاده شود.

علاوه بر این، ریزش مشتری می تواند در هر صنعتی رخ دهد (تلکام، ارائه دهندگان اینترنت، شرکت های بیمه، به طور کلی، هر جا که پایگاه مشتری و معاملات دوره ای وجود داشته باشد).

چه کرده ایم

اول از همه، لازم بود یک مرز مشخص توصیف شود - از چه زمانی شروع به در نظر گرفتن مشتری برای ترک آن می کنیم. از نقطه نظر بانکی که داده های کار ما را در اختیار ما قرار داده است، وضعیت فعالیت مشتری باینری بود - او یا فعال است یا نه. یک پرچم ACTIVE_FLAG در جدول "Activity" وجود دارد که مقدار آن می تواند "0" یا "1" (به ترتیب "غیرفعال" و "فعال") باشد. و همه چیز خوب خواهد بود ، اما یک فرد به گونه ای است که می تواند مدتی از آن به طور فعال استفاده کند و سپس به مدت یک ماه از لیست فعال خارج شود - بیمار شد ، در تعطیلات به کشور دیگری رفت یا حتی برای آزمایش رفت. کارت بانکی دیگر یا شاید پس از مدت طولانی عدم فعالیت، دوباره شروع به استفاده از خدمات بانک کنید

بنابراین، ما تصمیم گرفتیم که یک دوره عدم فعالیت را یک دوره زمانی مشخص و پیوسته بنامیم که در طی آن پرچم آن روی "0" تنظیم شده است.

چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم

مشتریان پس از دوره‌های عدم فعالیت با طول‌های مختلف، از غیرفعال به فعال می‌روند. ما این فرصت را داریم که میزان ارزش تجربی "قابلیت اطمینان دوره های عدم فعالیت" را محاسبه کنیم - یعنی احتمال اینکه فرد پس از عدم فعالیت موقت دوباره شروع به استفاده از محصولات بانکی کند.

به عنوان مثال، این نمودار شروع مجدد فعالیت (ACTIVE_FLAG=1) مشتریان را پس از چندین ماه عدم فعالیت نشان می دهد (ACTIVE_FLAG=0).

چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم

در اینجا مجموعه داده هایی را که با آن شروع به کار کردیم کمی روشن خواهیم کرد. به این ترتیب بانک اطلاعات 19 ماهه را در جداول زیر ارائه کرده است:

  • "فعالیت" - معاملات ماهانه مشتری (با کارت، در بانکداری اینترنتی و بانکداری تلفن همراه)، از جمله حقوق و دستمزد و اطلاعات مربوط به گردش مالی.
  • "کارت ها" - داده های مربوط به تمام کارت هایی که مشتری دارد، با یک برنامه تعرفه دقیق.
  • "توافقنامه ها" - اطلاعات مربوط به توافق نامه های مشتری (هم باز و هم بسته): وام ها، سپرده ها و غیره که پارامترهای هر کدام را نشان می دهد.
  • "مشتریان" - مجموعه ای از داده های جمعیت شناختی (جنس و سن) و در دسترس بودن اطلاعات تماس.

برای کار ما به همه جداول به جز "نقشه" نیاز داشتیم.

در اینجا مشکل دیگری وجود داشت - در این داده ها بانک نشان نداد که چه نوع فعالیتی روی کارت ها انجام شده است. یعنی می توانستیم بفهمیم تراکنش وجود دارد یا نه، اما دیگر نمی توانستیم نوع آنها را مشخص کنیم. بنابراین، مشخص نبود که مشتری در حال برداشت نقدی، دریافت حقوق یا خرج کردن پول برای خرید است. ما همچنین اطلاعاتی در مورد مانده حساب نداشتیم که می توانست مفید باشد.

خود نمونه بی طرف بود - در این نمونه، طی 19 ماه، بانک هیچ تلاشی برای حفظ مشتریان و به حداقل رساندن خروجی انجام نداد.

بنابراین، در مورد دوره های عدم فعالیت.

برای تدوین تعریفی از ریزش، یک دوره عدم فعالیت باید انتخاب شود. برای ایجاد یک پیش بینی ریزش در یک نقطه از زمان چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم، باید حداقل 3 ماه سابقه مشتری در یک بازه زمانی داشته باشید چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم. سابقه ما محدود به 19 ماه بود، بنابراین تصمیم گرفتیم در صورت وجود یک دوره 6 ماهه عدم فعالیت داشته باشیم. و برای حداقل دوره برای پیش بینی با کیفیت بالا، 3 ماه زمان بردیم. ما این ارقام را برای 3 و 6 ماه به صورت تجربی بر اساس تجزیه و تحلیل رفتار داده های مشتری در نظر گرفتیم.

ما تعریف ریزش را به صورت زیر فرموله کردیم: ماه ریزش مشتری چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم این اولین ماه با ACTIVE_FLAG=0 است که از این ماه حداقل شش صفر متوالی در فیلد ACTIVE_FLAG وجود دارد، به عبارت دیگر، ماهی که مشتری از آن به مدت 6 ماه غیرفعال بوده است.

چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم
تعداد مشتریانی که ترک کردند

چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم
تعداد مشتریان باقی مانده

ریزش چگونه محاسبه می شود؟

در این گونه مسابقات و به طور کلی در عمل، اغلب به این صورت پیش بینی می شود. مشتری از محصولات و خدمات در دوره های زمانی مختلف استفاده می کند، داده های تعامل با او به عنوان بردار ویژگی های طول ثابت n نشان داده می شود. اغلب این اطلاعات شامل موارد زیر است:

  • داده های مشخص کننده کاربر (داده های جمعیت شناختی، بخش بازاریابی).
  • تاریخچه استفاده از محصولات و خدمات بانکی (اینها اقدامات مشتری هستند که همیشه به زمان یا دوره خاصی از بازه زمانی مورد نیاز ما گره خورده است).
  • داده های خارجی، در صورت امکان به دست آوردن آن - به عنوان مثال، بررسی از شبکه های اجتماعی.

و پس از آن، آنها تعریفی از Churn به دست می آورند که برای هر کار متفاوت است. سپس از یک الگوریتم یادگیری ماشینی استفاده می کنند که احتمال خروج مشتری را پیش بینی می کند چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم بر اساس بردار عوامل چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم. برای آموزش الگوریتم، از یکی از چارچوب های شناخته شده برای ساخت مجموعه های درخت تصمیم استفاده می شود. XGBoost, LightGBM, CatBoost یا اصلاحات آن

خود الگوریتم بد نیست، اما در مورد پیش‌بینی ریزش، چندین معایب جدی دارد.

  • او به اصطلاح "حافظه" ندارد. ورودی مدل تعداد مشخصی از ویژگی‌ها است که با زمان فعلی مطابقت دارد. برای ذخیره اطلاعات مربوط به تاریخچه تغییرات پارامترها، لازم است ویژگی های خاصی را محاسبه کنید که تغییرات پارامترها را در طول زمان مشخص می کند، به عنوان مثال، تعداد یا میزان تراکنش های بانکی طی 1,2,3، XNUMX، XNUMX ماه گذشته. این رویکرد فقط می تواند تا حدی ماهیت تغییرات موقت را منعکس کند.
  • افق پیش بینی ثابت این مدل فقط می‌تواند ریزش مشتری را برای یک دوره از پیش تعریف‌شده پیش‌بینی کند، به عنوان مثال، پیش‌بینی یک ماه قبل. اگر پیش‌بینی برای دوره زمانی متفاوتی، مثلاً سه ماه، مورد نیاز است، باید مجموعه آموزشی را بازسازی کنید و مدل جدیدی را دوباره آموزش دهید.

رویکرد ما

ما بلافاصله تصمیم گرفتیم که از رویکردهای استاندارد استفاده نکنیم. علاوه بر ما 497 نفر دیگر در مسابقات قهرمانی ثبت نام کردند که هر کدام تجربه قابل توجهی پشت سر خود داشتند. بنابراین تلاش برای انجام کاری طبق یک طرح استاندارد در چنین شرایطی ایده خوبی نیست.

و ما شروع به حل مشکلات پیش روی مدل طبقه بندی باینری با پیش بینی توزیع احتمال زمان های ریزش مشتری کردیم. رویکرد مشابهی را می توان مشاهده کرد اینجا، به شما این امکان را می دهد که ریزش را با انعطاف بیشتری پیش بینی کنید و فرضیه های پیچیده تری را نسبت به رویکرد کلاسیک آزمایش کنید. به عنوان خانواده ای از توزیع ها که زمان خروج را مدل می کنند، توزیع را انتخاب کردیم وایبول برای استفاده گسترده از آن در تجزیه و تحلیل بقا. رفتار مشتری را می توان نوعی بقا در نظر گرفت.

در اینجا نمونه هایی از توزیع چگالی احتمال Weibull بسته به پارامترها وجود دارد چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم и چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم:

چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم

این تابع چگالی احتمال سه مشتری مختلف در طول زمان است. زمان بر حسب ماه ارائه می شود. به عبارت دیگر، این نمودار نشان می دهد که چه زمانی مشتری به احتمال زیاد در دو ماه آینده ریزش می کند. همانطور که می بینید، مشتری با توزیع پتانسیل بیشتری برای خروج زودتر از مشتریان با Weibull(2, 0.5) و Weibull دارد. (3,1،XNUMX) توزیع ها.

نتیجه مدلی است که برای هر مشتری، برای هر مشتری
ماه پارامترهای توزیع Weibull را پیش‌بینی می‌کند، که به بهترین شکل وقوع احتمال خروج را در طول زمان نشان می‌دهد. با جزئیات بیشتر:

  • ویژگی‌های هدف در مجموعه آموزشی، زمان باقی‌مانده تا خروج در یک ماه خاص برای یک مشتری خاص است.
  • اگر نرخ ریزش برای مشتری وجود نداشته باشد، فرض می‌کنیم که زمان ریزش بیشتر از تعداد ماه‌ها از ماه جاری تا پایان تاریخچه‌ای است که داریم.
  • مدل مورد استفاده: شبکه عصبی بازگشتی با لایه LSTM.
  • به عنوان یک تابع ضرر، ما از تابع log-relihood منفی برای توزیع Weibull استفاده می کنیم.

در اینجا به مزایای این روش می پردازیم:

  • توزیع احتمال، علاوه بر امکان آشکار طبقه‌بندی باینری، امکان پیش‌بینی انعطاف‌پذیر رویدادهای مختلف را فراهم می‌کند، به‌عنوان مثال، اینکه آیا مشتری در عرض 3 ماه استفاده از خدمات بانک را متوقف می‌کند یا خیر. همچنین در صورت لزوم می توان معیارهای مختلفی را روی این توزیع میانگین گرفت.
  • شبکه عصبی بازگشتی LSTM دارای حافظه است و به طور موثر از کل تاریخچه موجود استفاده می کند. با گسترش یا اصلاح داستان، دقت افزایش می یابد.
  • این رویکرد را می توان به راحتی در هنگام تقسیم دوره های زمانی به دوره های کوچکتر (مثلاً هنگام تقسیم ماه ها به هفته) مقیاس بندی کرد.

اما ایجاد یک مدل خوب کافی نیست؛ همچنین باید کیفیت آن را به درستی ارزیابی کنید.

کیفیت چگونه ارزیابی شد؟

ما Lift Curve را به عنوان معیار انتخاب کردیم. در تجارت برای چنین مواردی استفاده می شود زیرا به دلیل تفسیر واضح آن به خوبی توضیح داده شده است اینجا и اینجا. اگر معنی این متریک را در یک جمله توصیف کنید، این خواهد بود: «الگوریتم چند بار بهترین پیش بینی را در اول انجام می دهد. چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم% از تصادفی."

مدل های آموزشی

شرایط رقابت معیار کیفیت خاصی را ایجاد نمی کند که با آن بتوان مدل ها و رویکردهای مختلف را با هم مقایسه کرد. علاوه بر این، تعریف Churn می تواند متفاوت باشد و ممکن است به بیان مشکل بستگی داشته باشد که به نوبه خود توسط اهداف تجاری تعیین می شود. بنابراین، برای اینکه بفهمیم کدام روش بهتر است، دو مدل را آموزش دادیم:

  1. یک رویکرد طبقه‌بندی دودویی رایج با استفاده از الگوریتم یادگیری ماشین درخت تصمیم مجموعه (LightGBM);
  2. مدل Weibull-LSTM

مجموعه آزمون شامل 500 مشتری از پیش انتخاب شده بود که در مجموعه آموزشی نبودند. فراپارامترها برای مدل با استفاده از اعتبارسنجی متقاطع، تفکیک شده توسط مشتری انتخاب شدند. مجموعه‌ای از ویژگی‌های یکسان برای آموزش هر مدل استفاده شد.

با توجه به اینکه مدل فاقد حافظه است، ویژگی های خاصی برای آن در نظر گرفته شده است که نسبت تغییرات پارامترهای یک ماهه به میانگین مقدار پارامترها در سه ماه گذشته را نشان می دهد. آنچه که مشخصه نرخ تغییر مقادیر طی سه ماه گذشته است. بدون این، مدل مبتنی بر جنگل تصادفی نسبت به Weibull-LSTM در مضیقه خواهد بود.

چرا LSTM با توزیع Weibull بهتر از رویکرد درخت تصمیم مجموعه است

همه چیز در اینجا فقط در چند تصویر واضح است.

چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم
مقایسه منحنی لیفت برای الگوریتم کلاسیک و Weibull-LSTM

چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم
مقایسه متریک منحنی افزایش بر اساس ماه برای الگوریتم کلاسیک و Weibull-LSTM

به طور کلی، LSTM تقریباً در همه موارد برتر از الگوریتم کلاسیک است.

پیش بینی ریزش

یک مدل مبتنی بر یک شبکه عصبی مکرر با سلول‌های LSTM با توزیع Weibull می‌تواند ریزش را از قبل پیش‌بینی کند، برای مثال، ریزش مشتری را در n ماه آینده پیش‌بینی کند. مورد را برای n = 3 در نظر بگیرید. در این مورد، برای هر ماه، شبکه عصبی باید به درستی تعیین کند که آیا کلاینت از ماه بعد و تا ماه n می رود یا خیر. به عبارت دیگر، باید به درستی تعیین کند که آیا مشتری پس از n ماه باقی می ماند یا خیر. این را می توان از قبل یک پیش بینی در نظر گرفت: پیش بینی لحظه ای که مشتری به تازگی شروع به فکر کردن به ترک کرده است.

بیایید منحنی لیفت را برای Weibull-LSTM 1، 2 و 3 ماه قبل از خروج مقایسه کنیم:

چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم

قبلاً در بالا نوشتیم که پیش‌بینی‌های انجام شده برای مشتریانی که مدتی دیگر فعال نیستند نیز مهم هستند. بنابراین، در اینجا مواردی را که مشتری خارج شده قبلاً یک یا دو ماه غیرفعال بوده است را به نمونه اضافه می کنیم و بررسی می کنیم که Weibull-LSTM به درستی چنین مواردی را به عنوان ریزش طبقه بندی می کند. از آنجایی که چنین مواردی در نمونه وجود داشت، ما انتظار داریم که شبکه به خوبی آنها را مدیریت کند:

چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم

حفظ مشتری

در واقع، این اصلی‌ترین کاری است که می‌توان انجام داد، داشتن اطلاعاتی مبنی بر اینکه فلان مشتری در حال آماده شدن برای توقف استفاده از محصول است. صحبت از ساخت مدلی است که می تواند چیز مفیدی به مشتریان ارائه دهد تا آنها را حفظ کند، اگر سابقه تلاش های مشابهی نداشته باشید که به خوبی ختم می شود، این کار نمی تواند انجام شود.

ما چنین داستانی نداشتیم، بنابراین اینگونه تصمیم گرفتیم.

  1. ما در حال ساخت مدلی هستیم که محصولات جالبی را برای هر مشتری شناسایی می کند.
  2. ما هر ماه طبقه‌بندی‌کننده را اجرا می‌کنیم و مشتریان بالقوه خروج را شناسایی می‌کنیم.
  3. ما بر اساس مدل نقطه 1، محصول را به برخی از مشتریان پیشنهاد می کنیم و اقدامات خود را به خاطر می آوریم.
  4. پس از چند ماه، ما به این موضوع نگاه می کنیم که کدام یک از این مشتریان بالقوه ترک رفتند و کدام یک باقی ماندند. بنابراین، ما یک نمونه آموزشی تشکیل می دهیم.
  5. ما مدل را با استفاده از تاریخچه به دست آمده در مرحله 4 آموزش می دهیم.
  6. در صورت تمایل، روش را تکرار می کنیم و مدل مرحله 1 را با مدل به دست آمده در مرحله 5 جایگزین می کنیم.

آزمایش کیفیت چنین نگهداری را می توان با آزمایش منظم A/B انجام داد - مشتریانی را که به طور بالقوه ترک می کنند به دو گروه تقسیم می کنیم. ما محصولاتی را به یکی بر اساس مدل نگهداری خود ارائه می دهیم و به دیگری چیزی ارائه نمی دهیم. ما تصمیم گرفتیم مدلی را آموزش دهیم که می تواند در نقطه 1 مثال ما مفید باشد.

ما می خواستیم تقسیم بندی را تا حد امکان قابل تفسیر کنیم. برای انجام این کار، چندین ویژگی را انتخاب کردیم که به راحتی قابل تفسیر بودند: تعداد کل تراکنش ها، دستمزدها، کل گردش حساب، سن، جنسیت. ویژگی‌های جدول «نقشه‌ها» به‌عنوان غیر اطلاعاتی در نظر گرفته نشد، و ویژگی‌های جدول 3 «قراردادها» به دلیل پیچیدگی پردازش در نظر گرفته نشد تا از نشت داده‌ها بین مجموعه اعتبارسنجی و مجموعه آموزشی جلوگیری شود.

خوشه بندی با استفاده از مدل های مخلوط گاوسی انجام شد. معیار اطلاعات Akaike به ما اجازه داد تا 2 بهینه را تعیین کنیم. اولین بهینه مربوط به 1 خوشه است. بهینه دوم که کمتر مشخص است، مربوط به 80 خوشه است. بر اساس این نتیجه، می‌توان نتیجه‌گیری زیر را گرفت: تقسیم داده‌ها به خوشه‌ها بدون اطلاعات قبلی بسیار دشوار است. برای خوشه بندی بهتر، به داده هایی نیاز دارید که هر مشتری را با جزئیات توصیف کند.

بنابراین، مشکل یادگیری نظارت شده در نظر گرفته شد تا به هر مشتری فردی محصول متفاوتی ارائه شود. محصولات زیر در نظر گرفته شد: «واریز مدت دار»، «کارت اعتباری»، «اضافه برداشت»، «وام مصرفی»، «وام خودرو»، «رهن».

داده ها شامل یک نوع محصول دیگر بود: "حساب جاری". اما به دلیل محتوای کم اطلاعات آن را در نظر نگرفتیم. برای کاربرانی که مشتری بانک هستند، یعنی. استفاده از محصولات خود را متوقف نکرد، مدلی ساخته شد تا پیش بینی کند کدام محصول ممکن است مورد علاقه آنها باشد. رگرسیون لجستیک به عنوان مدل انتخاب شد و مقدار Lift برای 10 صدک اول به عنوان معیار ارزیابی کیفیت استفاده شد.

کیفیت مدل را می توان در شکل ارزیابی کرد.

چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم
نتایج مدل پیشنهادی محصول برای مشتریان

مجموع

این رویکرد برای ما مقام اول را در رده "AI in Banks" در مسابقات AI-Challenge 2017 RAIF به ارمغان آورد.

چگونه با نزدیک شدن به آن مانند یک فاجعه طبیعی، ریزش را پیش بینی کردیم

ظاهراً نکته اصلی این بود که از زاویه ای غیر متعارف به مسئله برخورد کنیم و از روشی استفاده کنیم که معمولاً برای موقعیت های دیگر استفاده می شود.

اگرچه خروج گسترده کاربران ممکن است یک فاجعه طبیعی برای خدمات باشد.

این روش را می توان برای هر حوزه دیگری که در نظر گرفتن خروجی مهم است، نه فقط بانک ها، در نظر گرفت. به عنوان مثال، ما از آن برای محاسبه جریان خروجی خود - در شعبه های سیبری و سنت پترزبورگ Rostelecom استفاده کردیم.

"آزمایشگاه داده کاوی" شرکت "جستجو پورتال "اسپوتنیک"

منبع: www.habr.com

اضافه کردن نظر