Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali

Xi drabi, sabiex issolvi problema, għandek bżonn biss li tħares lejha minn angolu differenti. Anke jekk matul l-aħħar 10 snin problemi simili ġew solvuti bl-istess mod b'effetti differenti, mhuwiex fatt li dan il-metodu huwa l-uniku wieħed.

Hemm tali suġġett bħala customer churn. Il-ħaġa hija inevitabbli, għaliex il-klijenti ta 'kwalunkwe kumpanija jistgħu, għal ħafna raġunijiet, jieqfu jużaw il-prodotti jew is-servizzi tagħha. Naturalment, għal kumpanija, iċ-ċaqliq huwa azzjoni naturali, iżda mhux l-aktar mixtieqa, għalhekk kulħadd jipprova jimminimizza dan it-tidwir. Aħjar, ibassar il-probabbiltà ta 'churn għal kategorija partikolari ta' utenti, jew utent speċifiku, u tissuġġerixxi xi passi biex iżżommhom.

Huwa meħtieġ li tanalizza u tipprova żżomm il-klijent, jekk possibbli, għal mill-inqas ir-raġunijiet li ġejjin:

  • li jattiraw klijenti ġodda jiswa aktar mill-proċeduri ta' żamma. Biex tattira klijenti ġodda, bħala regola, għandek bżonn tonfoq xi flus (reklamar), filwaqt li klijenti eżistenti jistgħu jiġu attivati ​​b'offerta speċjali b'kundizzjonijiet speċjali;
  • Il-fehim tar-raġunijiet għalfejn il-klijenti jitilqu huwa ċ-ċavetta għat-titjib tal-prodotti u s-servizzi.

Hemm approċċi standard għat-tbassir tat-tfixkil. Iżda f'wieħed mill-kampjonati AI, iddeċidejna li nippruvaw id-distribuzzjoni Weibull għal dan. Ħafna drabi jintuża għall-analiżi tas-sopravivenza, it-tbassir tat-temp, l-analiżi tad-diżastri naturali, l-inġinerija industrijali u affarijiet simili. Id-distribuzzjoni Weibull hija funzjoni ta 'distribuzzjoni speċjali parametrizzata minn żewġ parametri Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali и Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali.

Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali
Wikipedija

B'mod ġenerali, hija ħaġa interessanti, iżda għat-tbassir tal-ħruġ, u fil-fintech b'mod ġenerali, ma tintużax daqshekk spiss. Taħt il-qatgħa ngħidulek kif aħna (Data Mining Laboratory) għamilna dan, fl-istess ħin irbaħ id-deheb fil-Kampjonat tal-Intelliġenza Artifiċjali fil-kategorija "AI fil-Banek".

Dwar il-lenbija b'mod ġenerali

Ejja nifhmu ftit dwar x'inhu l-client churn u għaliex huwa daqshekk importanti. Bażi ta 'klijenti hija importanti għal negozju. Klijenti ġodda jaslu għal din il-bażi, pereżempju, wara li tgħallmu dwar prodott jew servizz minn reklam, jgħixu għal xi żmien (użaw il-prodotti b'mod attiv) u wara xi żmien jieqfu jużawh. Dan il-perjodu jissejjaħ il-“Customer Lifecycle” – terminu li jiddeskrivi l-istadji li jgħaddi minnhom klijent meta jitgħallem dwar prodott, jieħu deċiżjoni ta’ xiri, iħallas, juża u jsir konsumatur leali, u fl-aħħar mill-aħħar jieqaf juża l-prodott. għal xi raġuni jew oħra. Għaldaqstant, iċ-ċaqliq huwa l-istadju finali taċ-ċiklu tal-ħajja tal-klijent, meta l-klijent jieqaf juża s-servizzi, u għal negozju dan ifisser li l-klijent ma baqax iġib profitt jew xi benefiċċju.

Kull klijent tal-bank huwa persuna speċifika li tagħżel karta bankarja jew oħra speċifikament għall-bżonnijiet tiegħu. Jekk tivvjaġġa spiss, karta bil-mili tkun utli. Ixtri ħafna - hello, cashback card. Huwa jixtri ħafna fi ħwienet speċifiċi - u diġà hemm plastik imsieħeb speċjali għal dan. Naturalment, xi drabi karta tintgħażel abbażi tal-kriterju ta' "L-orħos servizz". B'mod ġenerali, hawn biżżejjed varjabbli.

U persuna tagħżel ukoll il-bank innifsu - hemm xi punt li tagħżel karta minn bank li l-fergħat tiegħu huma biss f'Moska u r-reġjun, meta tkun minn Khabarovsk? Anke jekk karta minn tali bank tkun mill-inqas 2 darbiet aktar profittabbli, il-preżenza ta 'fergħat bankarji fil-qrib għadha kriterju importanti. Iva, l-2019 diġà tinsab hawn u d-diġitali hija kollox tagħna, iżda għadd ta 'kwistjonijiet ma' xi banek jistgħu jiġu solvuti biss f'fergħa. Barra minn hekk, għal darb'oħra, xi parti tal-popolazzjoni tafda bank fiżiku ħafna aktar minn applikazzjoni fuq smartphone, dan jeħtieġ li jitqies ukoll.

Bħala riżultat, persuna jista 'jkollha ħafna raġunijiet biex tirrifjuta prodotti bankarji (jew il-bank innifsu). Bdilt ix-xogħol, u t-tariffa tal-karta nbidlet minn salarju għal "Għal sempliċi mortali", li hija inqas profittabbli. Mort f’belt oħra fejn m’hemmx fergħat tal-banek. Ma għoġobnix l-interazzjoni mal-operatur mhux kwalifikat fil-fergħa. Jiġifieri, jista 'jkun hemm saħansitra aktar raġunijiet għall-għeluq ta' kont milli għall-użu tal-prodott.

U l-klijent jista 'mhux biss jesprimi b'mod ċar l-intenzjoni tiegħu - jasal għand il-bank u jikteb dikjarazzjoni, iżda sempliċement jieqaf juża l-prodotti mingħajr ma jtemm il-kuntratt. Ġie deċiż li jintużaw it-tagħlim tal-magni u l-AI biex jifhmu problemi bħal dawn.

Barra minn hekk, it-tfixkil tal-klijenti jista 'jseħħ fi kwalunkwe industrija (telekomunikazzjoni, fornituri tal-Internet, kumpaniji tal-assigurazzjoni, b'mod ġenerali, kull fejn ikun hemm bażi ta' klijenti u tranżazzjonijiet perjodiċi).

X’għamilna

L-ewwelnett, kien meħtieġ li tiġi deskritta fruntiera ċara - minn liema ħin nibdew nikkunsidraw li l-klijent telaq. Mill-perspettiva tal-bank li pprovdilna d-dejta għax-xogħol tagħna, l-istatus tal-attività tal-klijent kien binarju - huwa jew attiv jew le. Kien hemm bandiera ACTIVE_FLAG fit-tabella "Attività", li l-valur tagħha jista' jkun jew "0" jew "1" ("Inattiv" u "Attiv" rispettivament). U kollox ikun tajjeb, iżda persuna hija tali li tista 'tużaha b'mod attiv għal xi żmien, u mbagħad taqa' barra mil-lista attiva għal xahar - marda, mar f'pajjiż ieħor fuq vaganza, jew saħansitra mar biex jittestja karta minn bank ieħor. Jew forsi wara perjodu twil ta’ inattività, terġa’ tibda tuża s-servizzi tal-bank

Għalhekk, iddeċidejna li nsejħu perjodu ta 'inattività ċertu perjodu ta' żmien kontinwu li matulu l-bandiera għalih kienet issettjata għal "0".

Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali

Il-klijenti jimxu minn inattivi għal attivi wara perjodi ta 'inattività ta' tulijiet differenti. Għandna l-opportunità li nikkalkulaw il-grad ta 'valur empiriku "affidabbiltà ta' perjodi ta 'inattività" - jiġifieri, il-probabbiltà li persuna terġa' tibda tuża prodotti bankarji wara inattività temporanja.

Pereżempju, din il-grafika turi t-tkomplija tal-attività (ACTIVE_FLAG=1) tal-klijenti wara diversi xhur ta' inattività (ACTIVE_FLAG=0).

Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali

Hawnhekk se niċċaraw ftit is-sett tad-dejta li bdejna naħdmu miegħu. Għalhekk, il-bank ipprovda informazzjoni aggregata għal 19-il xahar fit-tabelli li ġejjin:

  • "Attività" - tranżazzjonijiet ta 'kull xahar tal-klijenti (bil-kards, fl-Internet banking u banking mobbli), inklużi pagi u informazzjoni dwar il-fatturat.
  • "Kards" - dejta dwar il-karti kollha li għandu l-klijent, bi skeda dettaljata tat-tariffi.
  • "Ftehim" - informazzjoni dwar il-ftehimiet tal-klijent (kemm miftuħa kif ukoll magħluqa): self, depożiti, eċċ, li jindikaw il-parametri ta 'kull wieħed.
  • "Klijenti" - sett ta 'dejta demografika (sess u età) u d-disponibbiltà ta' informazzjoni ta 'kuntatt.

Għax-xogħol kellna bżonn it-tabelli kollha ħlief għall-“Mappa”.

Kien hemm diffikultà oħra hawnhekk - f'din id-dejta l-bank ma indikax x'tip ta 'attività saret fuq il-karti. Jiġifieri, stajna nifhmu jekk kienx hemm tranżazzjonijiet jew le, iżda ma nistgħux niddeterminaw it-tip tagħhom. Għalhekk, ma kienx ċar jekk il-klijent kienx qed jirtira flus kontanti, jirċievi salarju, jew jonfoq il-flus fuq ix-xiri. Ma kellniex ukoll data dwar il-bilanċi tal-kontijiet, li kien ikun utli.

Il-kampjun innifsu kien imparzjali - f'dan il-kampjun, fuq 19-il xahar, il-bank ma għamel ebda tentattiv biex iżomm il-klijenti u jimminimizza l-ħruġ.

Allura, dwar perjodi ta 'inattività.

Biex tiġi fformulata definizzjoni ta' churn, irid jintgħażel perjodu ta' inattività. Biex tinħoloq tbassir ta' ċaqliq f'punt fiż-żmien Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali, irid ikollok storja ta' klijent ta' mill-inqas 3 xhur f'intervall Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali. L-istorja tagħna kienet limitata għal 19-il xahar, għalhekk iddeċidejna li nieħdu perjodu ta' inattività ta' 6 xhur, jekk disponibbli. U għall-perjodu minimu għal tbassir ta 'kwalità għolja, ħadna 3 xhur. Ħadna ċ-ċifri għal 3 u 6 xhur b'mod empiriku bbażati fuq analiżi tal-imġiba tad-dejta tal-klijenti.

Aħna fformulajna d-definizzjoni ta ' churn kif ġej: xahar ta ' l- churn tal-klijent Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali dan huwa l-ewwel xahar b'ACTIVE_FLAG=0, fejn minn dan ix-xahar hemm mill-inqas sitt żerijiet konsekuttivi fil-qasam ACTIVE_FLAG, fi kliem ieħor, ix-xahar li minnu l-klijent kien inattiv għal 6 xhur.

Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali
Numru ta' klijenti li telqu

Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali
Numru ta' klijenti li fadal

Kif jiġi kkalkulat il-churn?

F'kompetizzjonijiet bħal dawn, u fil-prattika b'mod ġenerali, il-ħruġ ta 'spiss huwa previst b'dan il-mod. Il-klijent juża prodotti u servizzi f'perjodi ta 'żmien differenti, id-dejta dwar l-interazzjoni miegħu hija rappreżentata bħala vettur ta' karatteristiċi ta 'tul fiss n. Ħafna drabi din l-informazzjoni tinkludi:

  • Dejta li tikkaratterizza l-utent (dejta demografika, segment tal-kummerċjalizzazzjoni).
  • Storja tal-użu ta’ prodotti u servizzi bankarji (dawn huma azzjonijiet tal-klijenti li dejjem huma marbuta ma’ żmien jew perjodu speċifiku tal-intervall li għandna bżonn).
  • Dejta esterna, jekk kien possibbli li tinkiseb - per eżempju, reviżjonijiet minn netwerks soċjali.

U wara dan, huma jiksbu definizzjoni ta 'churn, differenti għal kull kompitu. Imbagħad jużaw algoritmu ta 'tagħlim tal-magni, li jbassar il-probabbiltà li klijent jitlaq Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali ibbażata fuq vettur ta’ fatturi Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali. Biex tħarreġ l-algoritmu, jintuża wieħed mill-oqfsa magħrufa għall-bini ta’ ensembles ta’ siġar tad-deċiżjonijiet, XGBoost, LightGBM, CatBoost jew modifiki tagħhom.

L-algoritmu innifsu mhuwiex ħażin, iżda għandu diversi żvantaġġi serji meta niġu biex tbassar it-tbigħ.

  • M'għandux l-hekk imsejħa "memorja". L-input tal-mudell huwa numru speċifikat ta 'karatteristiċi li jikkorrispondu għall-punt attwali fiż-żmien. Sabiex tinħażen informazzjoni dwar l-istorja tal-bidliet fil-parametri, huwa meħtieġ li jiġu kkalkulati karatteristiċi speċjali li jikkaratterizzaw il-bidliet fil-parametri matul iż-żmien, pereżempju, in-numru jew l-ammont ta 'tranżazzjonijiet bankarji matul l-aħħar 1,2,3, XNUMX, XNUMX xhur. Dan l-approċċ jista' jirrifletti biss parzjalment in-natura tal-bidliet temporanji.
  • Orizzont tat-tbassir fiss. Il-mudell huwa kapaċi biss ibassar it-tfixkil tal-klijenti għal perjodu ta 'żmien predefinit, pereżempju, tbassir xahar bil-quddiem. Jekk tbassir huwa meħtieġ għal perjodu ta 'żmien differenti, pereżempju, tliet xhur, allura għandek bżonn terġa' tibni s-sett ta 'taħriġ u tħarreġ mill-ġdid mudell ġdid.

L-approċċ tagħna

Iddeċidejna mill-ewwel li ma nużawx approċċi standard. Barra minna, fil-kampjonat irreġistraw 497 persuna oħra, li kull wieħed minnhom kellu esperjenza konsiderevoli warajhom. Allura li tipprova tagħmel xi ħaġa skond skema standard f'kundizzjonijiet bħal dawn mhix idea tajba.

U bdejna nsolvu l-problemi li qed jiffaċċja l-mudell ta 'klassifikazzjoni binarja billi nbassru d-distribuzzjoni tal-probabbiltà tal-ħinijiet ta' ċaqliq tal-klijenti. Approċċ simili jista 'jidher hawn, jippermettilek li tbassar it-twarrib b'mod aktar flessibbli u tittestja ipoteżijiet aktar kumplessi milli fl-approċċ klassiku. Bħala familja ta 'distribuzzjonijiet li jimmudellaw il-ħin tal-ħruġ, għażilna d-distribuzzjoni Weibull għall-użu mifrux tagħha fl-analiżi tas-sopravivenza. L-imġieba tal-klijent tista 'titqies bħala tip ta' sopravivenza.

Hawn huma eżempji ta 'distribuzzjonijiet tad-densità tal-probabbiltà ta' Weibull skont il-parametri Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali и Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali:

Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali

Din hija l-funzjoni tad-densità tal-probabbiltà ta 'tliet klijenti differenti li jduru maż-żmien. Iż-żmien huwa ppreżentat f'xhur. Fi kliem ieħor, din il-grafika turi meta klijent huwa l-aktar probabbli li jmur fix-xahrejn li ġejjin.Kif tistgħu taraw, klijent bi distribuzzjoni għandu potenzjal akbar li jitlaq qabel minn klijenti bil-Weibull(2, 0.5) u Weibull (3,1) distribuzzjonijiet.

Ir-riżultat huwa mudell li, għal kull klijent, għal kull
xahar ibassar il-parametri tad-distribuzzjoni Weibull, li tirrifletti l-aħjar l-okkorrenza tal-probabbiltà ta 'ħruġ maż-żmien. F'aktar dettall:

  • Il-karatteristiċi fil-mira fuq is-sett ta 'taħriġ huma ż-żmien li jibqa' sakemm jintbagħat f'xahar speċifiku għal klijent speċifiku.
  • Jekk ma jkun hemm l-ebda rata ta 'churn għal klijent, aħna nassumu li l-ħin ta' ċaqliq huwa akbar min-numru ta 'xhur mix-xahar kurrenti sa tmiem l-istorja li għandna.
  • Mudell użat: netwerk newrali rikorrenti b'saff LSTM.
  • Bħala funzjoni ta 'telf, nużaw il-funzjoni ta' probabbiltà log negattiva għad-distribuzzjoni Weibull.

Hawn huma l-vantaġġi ta 'dan il-metodu:

  • Id-distribuzzjoni tal-probabbiltà, minbarra l-possibbiltà ovvja ta 'klassifikazzjoni binarja, tippermetti tbassir flessibbli ta' diversi avvenimenti, pereżempju, jekk klijent jieqafx juża s-servizzi tal-bank fi żmien 3 xhur. Ukoll, jekk meħtieġ, diversi metriċi jistgħu jiġu medjati fuq din id-distribuzzjoni.
  • In-netwerk newrali rikorrenti LSTM għandu memorja u juża b'mod effettiv l-istorja kollha disponibbli. Hekk kif l-istorja tiġi estiża jew irfinuta, l-eżattezza tiżdied.
  • L-approċċ jista 'jiġi skalat faċilment meta taqsam perjodi ta' żmien f'dawk iżgħar (pereżempju, meta jaqsmu x-xhur f'ġimgħat).

Iżda mhux biżżejjed li toħloq mudell tajjeb; trid ukoll tevalwa sew il-kwalità tiegħu.

Kif ġiet evalwata l-kwalità?

Aħna għażilna Lift Curve bħala l-metrika. Jintuża fin-negozju għal każijiet bħal dawn minħabba l-interpretazzjoni ċara tiegħu, huwa deskritt tajjeb hawn и hawn. Jekk tiddeskrivi t-tifsira ta’ din il-metrika f’sentenza waħda, tkun “Kemm drabi l-algoritmu jagħmel l-aħjar tbassir fl-ewwel Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali% milli b'mod każwali."

Mudelli ta' taħriġ

Il-kundizzjonijiet tal-kompetizzjoni ma stabbilixxewx metrika ta' kwalità speċifika li biha jistgħu jitqabblu mudelli u approċċi differenti. Barra minn hekk, id-definizzjoni ta 'churn tista' tkun differenti u tista 'tiddependi fuq id-dikjarazzjoni tal-problema, li, min-naħa tagħha, hija determinata mill-għanijiet tan-negozju. Għalhekk, sabiex nifhmu liema metodu huwa aħjar, ħriġna żewġ mudelli:

  1. Approċċ ta' klassifikazzjoni binarja użat b'mod komuni bl-użu ta' algoritmu ta' tagħlim tal-magni tas-siġra tad-deċiżjonijiet ta' ensemble (LightGBM);
  2. Mudell Weibull-LSTM

Is-sett tat-test kien jikkonsisti minn 500 klijent magħżula minn qabel li ma kinux fis-sett tat-taħriġ. Iper-parametri ġew magħżula għall-mudell bl-użu ta 'validazzjoni inkroċjata, imqassma skond il-klijent. Intużaw l-istess settijiet ta 'karatteristiċi biex iħarrġu kull mudell.

Minħabba l-fatt li l-mudell m'għandux memorja, ittieħdu karatteristiċi speċjali għalih, li juru l-proporzjon tal-bidliet fil-parametri għal xahar mal-valur medju għall-parametri matul l-aħħar tliet xhur. Dak li kkaratterizza r-rata ta 'bidla fil-valuri matul l-aħħar perjodu ta' tliet xhur. Mingħajr dan, il-mudell ibbażat fuq Random Forest ikun fi żvantaġġ meta mqabbel ma 'Weibull-LSTM.

Għaliex LSTM b'distribuzzjoni Weibull hija aħjar minn approċċ ta 'siġra tad-deċiżjonijiet ta' ensemble

Kollox huwa ċar hawnhekk biss fi ftit stampi.

Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali
Tqabbil tal-Lift Curve għall-algoritmu klassiku u Weibull-LSTM

Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali
Tqabbil tal-metrika tal-Kurva tal-Lift skont ix-xahar għall-algoritmu klassiku u Weibull-LSTM

B'mod ġenerali, LSTM huwa superjuri għall-algoritmu klassiku fi kważi l-każijiet kollha.

Tbassir ta' tbassir

Mudell ibbażat fuq netwerk newrali rikorrenti b'ċelluli LSTM b'distribuzzjoni Weibull jista 'jbassar it-tfixkil bil-quddiem, pereżempju, ibassar it-tfixkil tal-klijenti fi żmien n xhur li ġejjin. Ikkunsidra l-każ għal n = 3. F'dan il-każ, għal kull xahar, in-netwerk newrali għandu jiddetermina b'mod korrett jekk il-klijent se jitlaq, li jibda mix-xahar li jmiss u sa x-xahar nth. Fi kliem ieħor, għandu jiddetermina b'mod korrett jekk il-klijent hux se jibqa' wara n xhur. Dan jista 'jitqies bħala tbassir minn qabel: tbassir tal-mument meta l-klijent kien għadu qed jibda jaħseb biex jitlaq.

Ejja nqabblu Lift Curve għal Weibull-LSTM 1, 2 u 3 xhur qabel il-ħruġ:

Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali

Diġà ktibna hawn fuq li t-tbassir li sar għal klijenti li ma jibqgħux attivi għal xi żmien huma importanti wkoll. Għalhekk, hawnhekk se nżidu mal-kampjun każijiet bħal dawn meta l-klijent telaq ikun diġà kien inattiv għal xahar jew xahrejn, u niċċekkja li Weibull-LSTM tikklassifika b'mod korrett tali każijiet bħala churn. Peress li każijiet bħal dawn kienu preżenti fil-kampjun, nistennew li n-netwerk jimmaniġġjahom tajjeb:

Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali

Żamma tal-klijenti

Fil-fatt, din hija l-ħaġa ewlenija li tista 'ssir, li jkollok fl-idejn informazzjoni li tali klijenti u tali klijenti qed jippreparaw biex jieqfu jużaw il-prodott. Meta wieħed jitkellem dwar il-bini ta’ mudell li jista’ joffri xi ħaġa utli lill-klijenti sabiex iżommuhom, dan ma jistax isir jekk ma jkollokx storja ta’ attentati simili li jispiċċaw tajjeb.

Ma kellniex storja bħal din, għalhekk iddeċidejna b'dan il-mod.

  1. Qed nibnu mudell li jidentifika prodotti interessanti għal kull klijent.
  2. Kull xahar inħaddmu l-klassifikatur u nidentifikaw klijenti li potenzjalment jitilqu.
  3. Noffru xi klijenti l-prodott, skond il-mudell mill-punt 1, u ftakar l-azzjonijiet tagħna.
  4. Wara ftit xhur, inħarsu lejn liema minn dawn il-klijenti potenzjalment jitilqu telqu u liema baqgħu. Għalhekk, aħna niffurmaw kampjun ta 'taħriġ.
  5. Aħna nħarrġu l-mudell billi tuża l-istorja miksuba fil-pass 4.
  6. B'għażla, nirrepetu l-proċedura, billi nissostitwixxu l-mudell mill-pass 1 bil-mudell miksub fil-pass 5.

Test tal-kwalità ta 'tali żamma jista' jsir permezz ta 'ttestjar A/B regolari - aħna naqsmu klijenti li potenzjalment jitilqu f'żewġ gruppi. Noffru prodotti lil wieħed ibbażat fuq il-mudell ta 'żamma tagħna, u lill-ieħor ma noffru xejn. Iddeċidejna li nħarrġu mudell li jista 'jkun utli diġà fil-punt 1 tal-eżempju tagħna.

Ridna nagħmlu s-segmentazzjoni kemm jista’ jkun interpretabbli. Biex nagħmlu dan, għażilna diversi karatteristiċi li jistgħu jiġu interpretati faċilment: in-numru totali ta 'tranżazzjonijiet, pagi, fatturat totali tal-kont, età, sess. Il-karatteristiċi mit-tabella "Mapep" ma ġewx ikkunsidrati bħala mhux informattivi, u l-karatteristiċi mit-tabella 3 "Kuntratti" ma ġewx ikkunsidrati minħabba l-kumplessità tal-ipproċessar sabiex tiġi evitata t-tnixxija tad-dejta bejn is-sett ta 'validazzjoni u s-sett ta' taħriġ.

Il-clustering sar permezz ta' mudelli ta' taħlita Gaussjana. Il-kriterju tal-informazzjoni Akaike ippermetta li niddeterminaw 2 optima. L-ewwel ottimali jikkorrispondi għal raggruppament 1. It-tieni ottimali, inqas evidenti, jikkorrispondi għal 80 raggruppament. Fuq il-bażi ta' dan ir-riżultat, nistgħu niġbdu l-konklużjoni li ġejja: huwa estremament diffiċli li d-dejta tinqasam fi gruppi mingħajr informazzjoni mogħtija a priori. Għal raggruppament aħjar, għandek bżonn dejta li tiddeskrivi kull klijent fid-dettall.

Għalhekk, il-problema tat-tagħlim sorveljat ġiet ikkunsidrata sabiex kull klijent individwali joffri prodott differenti. Il-prodotti li ġejjin ġew ikkunsidrati: "Depożitu għal żmien", "Karta ta 'kreditu", "Overdraft", "Self tal-konsumatur", "Self tal-karozzi", "Ipoteki".

Id-dejta kienet tinkludi tip ieħor ta’ prodott: “Kont kurrenti”. Iżda aħna ma kkunsidrawhiex minħabba l-kontenut baxx ta 'informazzjoni tagħha. Għal utenti li huma klijenti bankarji, i.e. ma waqafx juża l-prodotti tiegħu, inbena mudell biex ibassar liema prodott jista 'jkun ta' interess għalihom. Rigressjoni loġistika ntgħażlet bħala l-mudell, u l-valur Lift għall-ewwel perċentili 10 intuża bħala l-metrika tal-valutazzjoni tal-kwalità.

Il-kwalità tal-mudell tista 'tiġi evalwata fil-figura.

Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali
Riżultati tal-mudell ta 'rakkomandazzjoni tal-prodott għall-klijenti

Total

Dan l-approċċ ġabilna l-ewwel post fil-kategorija "AI fil-Banek" fil-Kampjonat AI RAIF-Challenge 2017.

Kif ipprevedejna ċ-ċaqliq billi avviċinawh bħal diżastru naturali

Apparentement, il-ħaġa prinċipali kienet li tavviċina l-problema minn angolu mhux konvenzjonali u tuża metodu li normalment jintuża għal sitwazzjonijiet oħra.

Għalkemm ħruġ massiv ta' utenti jista' jkun diżastru naturali għas-servizzi.

Dan il-metodu jista 'jitqies għal kwalunkwe qasam ieħor fejn huwa importanti li jittieħed kont tal-ħruġ, mhux biss banek. Pereżempju, użajna biex nikkalkulaw il-ħruġ tagħna stess - fil-fergħat tas-Siberja u ta 'San Pietruburgu ta' Rostelecom.

"Data Mining Laboratory" kumpanija "Search portal "Sputnik"

Sors: www.habr.com

Ixtri hosting affidabbli għal siti bi protezzjoni DDoS, servers VPS VDS 🔥 Ixtri hosting ta' websajts affidabbli bi protezzjoni DDoS, servers VPS VDS | ProHoster