Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai

Dažreiz, lai atrisinātu problēmu, jums vienkārÅ”i jāpaskatās uz to no cita leņķa. Pat ja pēdējo 10 gadu laikā lÄ«dzÄ«gas problēmas ir atrisinātas vienādi ar dažādiem efektiem, tas nav fakts, ka Ŕī metode ir vienÄ«gā.

Ir tāda tēma kā klientu atturÄ“Å”anās. Lieta ir neizbēgama, jo jebkura uzņēmuma klienti daudzu iemeslu dēļ var pārtraukt lietot tā produktus vai pakalpojumus. Protams, uzņēmumam kaulÄ“Å”anās ir dabiska, bet ne pati vēlamākā darbÄ«ba, tāpēc katrs cenÅ”as Å”o slogu samazināt lÄ«dz minimumam. Vēl labāk, prognozējiet atteikÅ”anās iespējamÄ«bu noteiktai lietotāju kategorijai vai konkrētam lietotājam un iesakiet dažas darbÄ«bas, lai tos saglabātu.

Ir nepiecieÅ”ams analizēt un mēģināt noturēt klientu, ja iespējams, vismaz Ŕādu iemeslu dēļ:

  • jaunu klientu piesaiste ir dārgāka nekā saglabāŔanas procedÅ«ras. Lai piesaistÄ«tu jaunus klientus, parasti ir jāiztērē nauda (reklāma), savukārt esoÅ”os klientus var aktivizēt ar Ä«paÅ”u piedāvājumu ar Ä«paÅ”iem nosacÄ«jumiem;
  • Izpratne par iemesliem, kāpēc klienti aiziet, ir produktu un pakalpojumu uzlaboÅ”anas atslēga.

Ir standarta pieejas, lai prognozētu atteikÅ”anos. Bet vienā no AI čempionātiem mēs nolēmām izmēģināt Weibull izplatÄ«Å”anu Å”im nolÅ«kam. To visbiežāk izmanto izdzÄ«voÅ”anas analÄ«zei, laika prognozÄ“Å”anai, dabas katastrofu analÄ«zei, rÅ«pnieciskajai inženierijai un tamlÄ«dzÄ«giem nolÅ«kiem. Veibula sadalÄ«jums ir Ä«paÅ”a sadalÄ«juma funkcija, ko parametrizē divi parametri Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai Šø Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai.

Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai
Wikipedia

Kopumā tā ir interesanta lieta, taču aizplÅ«Å”anas prognozÄ“Å”anai un fintech vispār to neizmanto tik bieži. Zem griezuma mēs pastāstÄ«sim, kā mēs (Datu ieguves laboratorija) to izdarÄ«jām, vienlaikus izcÄ«not zeltu MākslÄ«gā intelekta čempionātā kategorijā ā€œAI bankāsā€.

Par churn vispār

Mazliet sapratÄ«sim, kas ir klientu atteikÅ”anās un kāpēc tas ir tik svarÄ«gi. Klientu bāze ir svarÄ«ga uzņēmumam. Å ajā bāzē nonāk jauni klienti, piemēram, uzzinājuÅ”i par kādu preci vai pakalpojumu no sludinājuma, kādu laiku dzÄ«vo (aktÄ«vi lieto preces) un pēc kāda laika pārtrauc to lietot. Å o periodu sauc par ā€œKlienta dzÄ«ves cikluā€ ā€” termins, kas apraksta posmus, ko klients iziet, kad viņŔ uzzina par produktu, pieņem lēmumu par pirkumu, maksā, lieto un kļūst par lojālu patērētāju un galu galā pārtrauc produkta lietoÅ”anu. viena vai otra iemesla dēļ. AttiecÄ«gi churn ir klienta dzÄ«ves cikla pēdējais posms, kad klients pārtrauc izmantot pakalpojumus, un uzņēmumam tas nozÄ«mē, ka klients vairs nenes peļņu vai vispār ir pārstājis nest labumu.

Katrs bankas klients ir konkrēta persona, kura izvēlas vienu vai otru bankas karti tieÅ”i savām vajadzÄ«bām. Ja ceļojat bieži, noderēs karte ar jÅ«dzēm. Pērk daudz - sveiki, naudas atmaksas karte. ViņŔ daudz pērk konkrētos veikalos - un tam jau ir Ä«paÅ”a partnera plastmasa. Protams, dažreiz karte tiek izvēlēta pēc kritērija ā€œLētākais pakalpojumsā€. Kopumā Å”eit ir pietiekami daudz mainÄ«go.

Un cilvēks izvēlas arÄ« paÅ”u banku - kāda jēga izvēlēties karti no bankas, kuras filiāles ir tikai Maskavā un reÄ£ionā, kad esat no Habarovskas? Pat ja karte no Ŕādas bankas ir vismaz 2 reizes izdevÄ«gāka, bankas filiāļu klātbÅ«tne tuvumā joprojām ir svarÄ«gs kritērijs. Jā, 2019. gads jau ir klāt, un digitālais mums ir viss, taču vairākas problēmas ar dažām bankām var atrisināt tikai filiālē. Turklāt atkal daļa iedzÄ«votāju daudz vairāk uzticas fiziskai bankai nekā aplikācijai viedtālrunÄ«, arÄ« tas ir jāņem vērā.

Tā rezultātā personai var bÅ«t daudz iemeslu atteikties no bankas produktiem (vai paÅ”ai bankai). Es mainÄ«ju darbu, un karÅ”u tarifs mainÄ«jās no algas uz ā€œVienkārÅ”iem mirstÄ«gajiemā€, kas ir mazāk izdevÄ«gi. Pārcēlos uz citu pilsētu, kur nav bankas filiāļu. Man nepatika mijiedarbÄ«ba ar nekvalificētu operatoru filiālē. Tas nozÄ«mē, ka konta slēgÅ”anai var bÅ«t pat vairāk iemeslu nekā produkta lietoÅ”anai.

Un klients var ne tikai skaidri izteikt savu nodomu ā€“ atnākt uz banku un uzrakstÄ«t paziņojumu, bet vienkārÅ”i pārtraukt produktu lietoÅ”anu, nepārtraucot lÄ«gumu. Tika nolemts izmantot maŔīnmācÄ«Å”anos un AI, lai izprastu Ŕādas problēmas.

Turklāt klientu atkāpÅ”anās var notikt jebkurā nozarē (telekomunikācijas, interneta pakalpojumu sniedzēji, apdroÅ”ināŔanas kompānijas kopumā, visur, kur ir klientu bāze un periodiski darÄ«jumi).

Ko mēs esam izdarÄ«juÅ”i

Pirmkārt, bija jāapraksta skaidra robeža ā€“ no kura laika sākam uzskatÄ«t, ka klients ir aizgājis. No tās bankas viedokļa, kura mums sniedza datus mÅ«su darbam, klienta aktivitātes statuss bija binārs ā€“ viņŔ ir vai nu aktÄ«vs, vai nē. Tabulā "Activity" bija karodziņŔ ACTIVE_FLAG, kura vērtÄ«ba varēja bÅ«t "0" vai "1" (attiecÄ«gi "NeaktÄ«vs" un "AktÄ«vs"). Un viss jau bÅ«tu labi, bet cilvēks ir tāds, ka kādu laiku var aktÄ«vi lietot, un tad uz mēnesi izkrist no aktÄ«vā saraksta - saslimis, aizbrauca uz citu valsti atvaļinājumā vai pat aizbrauca pārbaudÄ«t karti no citas bankas. Vai varbÅ«t pēc ilgāka neaktivitātes perioda atsāciet izmantot bankas pakalpojumus

Tāpēc mēs nolēmām dÄ«kstāves periodu saukt par noteiktu nepārtrauktu laika periodu, kurā tā karodziņŔ tika iestatÄ«ts uz ā€œ0ā€.

Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai

Pēc dažāda ilguma neaktivitātes periodiem klienti pāriet no neaktÄ«va uz aktÄ«vo. Mums ir iespēja aprēķināt empÄ«riskās vērtÄ«bas ā€œneaktivitātes periodu ticamÄ«basā€ pakāpi - tas ir, varbÅ«tÄ«bu, ka persona pēc Ä«slaicÄ«gas neaktivitātes atsāks lietot bankas produktus.

Piemēram, Ŕī diagramma parāda klientu darbÄ«bas atsākÅ”anu (ACTIVE_FLAG=1) pēc vairāku mēneÅ”u neaktivitātes (ACTIVE_FLAG=0).

Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai

Å eit mēs nedaudz precizēsim datu kopu, ar kuru mēs sākām strādāt. Tātad banka sniedza apkopotu informāciju par 19 mēneÅ”iem Ŕādās tabulās:

  • ā€œAktivitāteā€ - ikmēneÅ”a klientu darÄ«jumi (ar kartēm, internetbankā un mobilajā bankā), ieskaitot algu sarakstu un informāciju par apgrozÄ«jumu.
  • ā€œKartesā€ - dati par visām klientam esoÅ”ajām kartēm ar detalizētu tarifu grafiku.
  • ā€œLÄ«gumiā€ - informācija par klienta lÄ«gumiem (gan atvērtiem, gan slēgtiem): aizdevumiem, noguldÄ«jumiem utt., norādot katra parametrus.
  • ā€œKlientiā€ - demogrāfisko datu kopums (dzimums un vecums) un kontaktinformācijas pieejamÄ«ba.

Darbam mums bija nepiecieÅ”ami visi galdi, izņemot ā€œKartiā€.

Å eit bija vēl viena grÅ«tÄ«ba - Å”ajos datos banka nav norādÄ«jusi, kāda darbÄ«ba kartēs notikusi. Tas ir, mēs varējām saprast, vai darÄ«jumi ir vai nebija, bet mēs vairs nevarējām noteikt to veidu. LÄ«dz ar to nebija skaidrs, vai klients izņem skaidru naudu, saņem algu vai tērē naudu pirkumiem. Mums nebija arÄ« datu par kontu atlikumiem, kas bÅ«tu noderējuÅ”i.

Pati izlase bija objektÄ«va ā€“ Å”ajā sadaļā 19 mēneÅ”u laikā banka nemēģināja noturēt klientus un samazināt aizplÅ«Å”anu.

Tātad, par neaktivitātes periodiem.

Lai formulētu churn definÄ«ciju, ir jāizvēlas neaktivitātes periods. Lai izveidotu novirzes prognozi noteiktā laika brÄ«dÄ« Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai, jums ir jābÅ«t vismaz 3 mēneÅ”u klientu vēsturei ar intervālu Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai. MÅ«su vēsture bija ierobežota lÄ«dz 19 mēneÅ”iem, tāpēc mēs nolēmām izmantot 6 mēneÅ”u dÄ«kstāves periodu, ja tas ir pieejams. Un minimālajam periodam augstas kvalitātes prognozei mēs paņēmām 3 mēneÅ”us. Mēs empÄ«riski izmantojām skaitļus par 3 un 6 mēneÅ”iem, pamatojoties uz klientu datu uzvedÄ«bas analÄ«zi.

Mēs formulējām Ŕādu definÄ«ciju: klientu atlaiÅ”anas mēnesis Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai Å”is ir pirmais mēnesis ar ACTIVE_FLAG=0, kur no Ŕī mēneÅ”a laukā ACTIVE_FLAG ir vismaz seÅ”as secÄ«gas nulles, citiem vārdiem sakot, mēnesis, no kura klients bija neaktÄ«vs 6 mēneÅ”us.

Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai
AizbraukuŔo klientu skaits

Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai
AtlikuŔo klientu skaits

Kā tiek aprēķināts atteikums?

Šādos konkursos un vispār praksē bieži tiek prognozēta aizplÅ«Å”ana Ŕādā veidā. Klients izmanto preces un pakalpojumus dažādos laika periodos, dati par mijiedarbÄ«bu ar viņu tiek attēloti kā fiksēta garuma n pazÄ«mju vektors. Visbiežāk Ŕī informācija ietver:

  • Lietotāju raksturojoÅ”ie dati (demogrāfiskie dati, mārketinga segments).
  • Bankas produktu un pakalpojumu izmantoÅ”anas vēsture (tās ir klientu darbÄ«bas, kas vienmēr ir saistÄ«tas ar noteiktu mums vajadzÄ«gā intervāla laiku vai periodu).
  • Ārējie dati, ja tos bija iespējams iegÅ«t - piemēram, atsauksmes no sociālajiem tÄ«kliem.

Un pēc tam viņi iegÅ«st churn definÄ«ciju, kas katram uzdevumam ir atŔķirÄ«ga. Pēc tam viņi izmanto maŔīnmācÄ«Å”anās algoritmu, kas paredz klienta aizieÅ”anas iespējamÄ«bu Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai pamatojoties uz faktoru vektoru Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai. Algoritma apmācÄ«bai tiek izmantots viens no labi zināmajiem lēmumu koku ansambļu konstruÄ“Å”anas ietvariem, XGBoost, LightGBM, CatBoost vai to modifikācijas.

Algoritms pats par sevi nav slikts, taču tam ir vairāki nopietni trÅ«kumi, kad runa ir par churn prognozÄ“Å”anu.

  • Viņam nav tā saucamās "atmiņas". Modeļa ievade ir noteikts skaits funkciju, kas atbilst paÅ”reizējam laika punktam. Lai saglabātu informāciju par parametru izmaiņu vēsturi, ir jāaprēķina Ä«paÅ”as pazÄ«mes, kas raksturo parametru izmaiņas laika gaitā, piemēram, bankas darÄ«jumu skaits vai apjoms pēdējo 1,2,3, XNUMX, XNUMX mēneÅ”u laikā. Å Ä« pieeja var tikai daļēji atspoguļot pagaidu izmaiņu bÅ«tÄ«bu.
  • Fiksēts prognozÄ“Å”anas horizonts. Modelis spēj paredzēt tikai klientu atteikÅ”anos uz iepriekÅ” noteiktu laika periodu, piemēram, prognozi vienu mēnesi iepriekÅ”. Ja prognoze ir nepiecieÅ”ama citam laika periodam, piemēram, trÄ«s mēneÅ”iem, tad jums ir jāpārveido apmācÄ«bas komplekts un jāpārmāca jauns modelis.

MÅ«su pieeja

Mēs uzreiz nolēmām, ka neizmantosim standarta pieejas. Bez mums čempionātā reÄ£istrējās vēl 497 cilvēki, kuriem katram aiz muguras bija ievērojama pieredze. Tāpēc mēģināt kaut ko darÄ«t saskaņā ar standarta shēmu Ŕādos apstākļos nav laba ideja.

Un mēs sākām risināt problēmas, ar kurām saskaras binārās klasifikācijas modelis, prognozējot klientu atteikÅ”anās laiku varbÅ«tÄ«bas sadalÄ«jumu. Var redzēt lÄ«dzÄ«gu pieeju Å”eit, tas ļauj elastÄ«gāk prognozēt apgrÅ«tinājumu un pārbaudÄ«t sarežģītākas hipotēzes nekā klasiskajā pieejā. Kā sadalÄ«jumu saime, kas modelē izplÅ«des laiku, mēs izvēlējāmies sadalÄ«jumu Veibuls par tā plaÅ”o izmantoÅ”anu izdzÄ«voÅ”anas analÄ«zē. Klienta uzvedÄ«bu var uzskatÄ«t par sava veida izdzÄ«voÅ”anu.

Å eit ir piemēri Veibula varbÅ«tÄ«bas blÄ«vuma sadalÄ«jumam atkarÄ«bā no parametriem Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai Šø Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai:

Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai

Å Ä« ir iespējamÄ«bas blÄ«vuma funkcija trÄ«s dažādiem klientiem, kuri laika gaitā ir mainÄ«juÅ”ies. Laiks tiek uzrādÄ«ts mēneÅ”os. Citiem vārdiem sakot, Å”is grafiks parāda, kad klients, visticamāk, atteiksies nākamo divu mēneÅ”u laikā. Kā redzat, klientam ar izplatÄ«Å”anu ir lielāka iespēja aiziet agrāk nekā klientiem ar Weibull(2, 0.5) un Weibull. (3,1) sadalÄ«jumi.

Rezultāts ir modelis, kas piemērots katram klientam, ikvienam
mēnesis prognozē Veibula sadalÄ«juma parametrus, kas vislabāk atspoguļo aizplÅ«Å”anas varbÅ«tÄ«bas raÅ”anos laika gaitā. SÄ«kāk:

  • MācÄ«bu komplekta mērÄ·a funkcijas ir laiks, kas konkrētam klientam atlicis lÄ«dz pārtraukumam noteiktā mēnesÄ«.
  • Ja klientam nav atteikÅ”anās rādÄ«tāja, mēs pieņemam, ka atteikÅ”anās laiks ir lielāks par mēneÅ”u skaitu no paÅ”reizējā mēneÅ”a lÄ«dz mÅ«su vēstures beigām.
  • Izmantotais modelis: atkārtots neironu tÄ«kls ar LSTM slāni.
  • Kā zaudējuma funkciju mēs izmantojam Veibula sadalÄ«juma negatÄ«vās log-iespējamÄ«bas funkciju.

Šeit ir Ŕīs metodes priekŔrocības:

  • VarbÅ«tÄ«bu sadalÄ«jums papildus acÄ«mredzamajai binārās klasifikācijas iespējai ļauj elastÄ«gi prognozēt dažādus notikumus, piemēram, vai klients pārtrauks izmantot bankas pakalpojumus 3 mēneÅ”u laikā. Tāpat, ja nepiecieÅ”ams, Å”im sadalÄ«jumam var aprēķināt dažādus rādÄ«tājus.
  • LSTM atkārtotajam neironu tÄ«klam ir atmiņa, un tas efektÄ«vi izmanto visu pieejamo vēsturi. Kad stāsts tiek paplaÅ”ināts vai pilnveidots, precizitāte palielinās.
  • Pieeju var viegli mērogot, sadalot laika periodus mazākos (piemēram, sadalot mēneÅ”us nedēļās).

Taču ar laba modeļa izveidi vien nepietiek, ir arī pareizi jānovērtē tā kvalitāte.

Kā tika novērtēta kvalitāte?

Mēs kā metriku izvēlējāmies kāpuma lÄ«kni. Tas tiek izmantots uzņēmējdarbÄ«bā Ŕādos gadÄ«jumos, jo tas ir skaidri interpretēts, tas ir labi aprakstÄ«ts Å”eit Šø Å”eit. Ja jÅ«s aprakstÄ«tu Ŕīs metrikas nozÄ«mi vienā teikumā, tas bÅ«tu: "Cik reizes algoritms veic vislabāko prognozi pirmajā Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai% nekā nejauÅ”i."

Apmācību modeļi

Konkursa nosacījumi nenoteica konkrētu kvalitātes rādītāju, pēc kura varētu salīdzināt dažādus modeļus un pieejas. Turklāt aprites definīcija var būt dažāda un var būt atkarīga no problēmas izklāsta, ko, savukārt, nosaka biznesa mērķi. Tāpēc, lai saprastu, kura metode ir labāka, mēs apmācījām divus modeļus:

  1. Bieži lietota binārās klasifikācijas pieeja, izmantojot ansambļa lēmumu koka maŔīnmācÄ«Å”anās algoritmu (LightGBM);
  2. Weibull-LSTM modelis

Testa komplekts sastāvēja no 500 iepriekÅ” atlasÄ«tiem klientiem, kuri nebija apmācÄ«bu komplektā. Hiperparametri tika atlasÄ«ti modelim, izmantojot savstarpēju validāciju, kas sadalÄ«ta pēc klienta. Katra modeļa apmācÄ«bai tika izmantotas vienas un tās paÅ”as funkciju kopas.

Sakarā ar to, ka modelim nav atmiņas, tam tika ņemtas Ä«paÅ”as funkcijas, kas parāda viena mēneÅ”a parametru izmaiņu attiecÄ«bu pret vidējo parametru vērtÄ«bu pēdējo trÄ«s mēneÅ”u laikā. Kas raksturo vērtÄ«bu izmaiņu ātrumu pēdējo trÄ«s mēneÅ”u laikā. Bez tā uz Random Forest balstÄ«tais modelis bÅ«tu neizdevÄ«gākā situācijā salÄ«dzinājumā ar Weibull-LSTM.

Kāpēc LSTM ar Weibull izplatÄ«Å”anu ir labāks par ansambļa lēmumu koka pieeju

Šeit viss ir skaidrs tikai pāris bildēs.

Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai
PacelŔanas līknes salīdzinājums klasiskajam algoritmam un Weibull-LSTM

Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai
PaaugstināŔanas lÄ«knes metrikas salÄ«dzinājums pa mēneÅ”iem klasiskajam algoritmam un Weibull-LSTM

Kopumā LSTM gandrīz visos gadījumos ir pārāks par klasisko algoritmu.

Kakla prognoze

Modelis, kura pamatā ir atkārtots neironu tÄ«kls ar LSTM Ŕūnām ar Veibula sadalÄ«jumu, var iepriekÅ” paredzēt atteikÅ”anos, piemēram, prognozēt klientu samazināŔanos nākamo n mēneÅ”u laikā. Apsveriet gadÄ«jumu n = 3. Å ajā gadÄ«jumā neironu tÄ«klam katram mēnesim ir pareizi jānosaka, vai klients aizies, sākot no nākamā mēneÅ”a un lÄ«dz n-tajam mēnesim. Citiem vārdiem sakot, tai pareizi jānosaka, vai klients paliks pēc n mēneÅ”iem. To var uzskatÄ«t par prognozi jau iepriekÅ”: paredzot brÄ«di, kad klients tikai sāka domāt par aizieÅ”anu.

SalÄ«dzināsim Weibull-LSTM paaugstināŔanas lÄ«kni 1, 2 un 3 mēneÅ”us pirms aizplÅ«Å”anas:

Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai

IepriekÅ” jau rakstÄ«jām, ka svarÄ«gas ir arÄ« prognozes, kas tiek veiktas klientiem, kuri kādu laiku vairs nav aktÄ«vi. Tāpēc Å”eit mēs pievienosim izlasei tādus gadÄ«jumus, kad aizgājuÅ”ais klients jau ir bijis neaktÄ«vs vienu vai divus mēneÅ”us, un pārbaudÄ«sim, vai Weibull-LSTM pareizi klasificē Ŕādus gadÄ«jumus kā churn. Tā kā izlasē bija Ŕādi gadÄ«jumi, mēs sagaidām, ka tÄ«kls tos labi apstrādās:

Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai

Klientu noturēŔana

PatiesÄ«bā tas ir galvenais, ko var izdarÄ«t, turot rokās informāciju, ka tādi un tādi klienti gatavojas pārtraukt produkta lietoÅ”anu. Runājot par tāda modeļa izveidi, kas varētu piedāvāt klientiem kaut ko noderÄ«gu, lai viņus noturētu, to nevar izdarÄ«t, ja jums nav lÄ«dzÄ«gu mēģinājumu, kas beigtos labi.

Mums nebija Ŕāda stāsta, tāpēc mēs to izlēmām Ŕādi.

  1. Mēs veidojam modeli, kas katram klientam identificē interesantus produktus.
  2. Katru mēnesi mēs veicam klasifikatoru un identificējam potenciāli aizejoÅ”os klientus.
  3. Dažiem klientiem piedāvājam preci, pēc modeļa no 1. punkta, un atceramies mūsu rīcību.
  4. Pēc dažiem mēneÅ”iem mēs aplÅ«kojam, kuri no Å”iem potenciāli aizejoÅ”ajiem klientiem aizgāja un kuri palika. Tādējādi mēs veidojam apmācÄ«bas paraugu.
  5. Mēs apmācām modeli, izmantojot 4. solī iegūto vēsturi.
  6. Pēc izvēles mēs atkārtojam procedūru, aizstājot modeli no 1. darbības ar modeli, kas iegūts 5. darbībā.

Šādas saglabāŔanas kvalitātes pārbaudi var veikt ar regulāru A/B testÄ“Å”anu ā€“ potenciāli aizbraukuÅ”os klientus sadalām divās grupās. Vienam mēs piedāvājam produktus, pamatojoties uz mÅ«su saglabāŔanas modeli, bet otram mēs neko nepiedāvājam. Mēs nolēmām apmācÄ«t modeli, kas varētu bÅ«t noderÄ«gs jau mÅ«su piemēra 1. punktā.

Mēs vēlējāmies padarÄ«t segmentāciju pēc iespējas interpretējamāku. Lai to izdarÄ«tu, mēs izvēlējāmies vairākas viegli interpretējamas funkcijas: kopējais darÄ«jumu skaits, algas, kopējais konta apgrozÄ«jums, vecums, dzimums. Tabulas ā€œKartesā€ lÄ«dzekļi netika ņemti vērā kā neinformatÄ«vi, un 3. tabulas ā€œLÄ«gumiā€ lÄ«dzekļi netika ņemti vērā apstrādes sarežģītÄ«bas dēļ, lai izvairÄ«tos no datu noplÅ«des starp validācijas kopu un apmācÄ«bu kopu.

Klasterizācija tika veikta, izmantojot Gausa maisÄ«jumu modeļus. Akaike informācijas kritērijs ļāva mums noteikt 2 optimus. Pirmais optimālais atbilst 1 klasterim. Otrais optimālais, mazāk izteikts, atbilst 80 klasteriem. Pamatojoties uz Å”o rezultātu, mēs varam izdarÄ«t Ŕādu secinājumu: ir ārkārtÄ«gi grÅ«ti sadalÄ«t datus klasteros bez a priori sniegtas informācijas. Labākai klasterizācijai ir nepiecieÅ”ami dati, kas detalizēti apraksta katru klientu.

Tāpēc tika apsvērta supervadÄ«tas mācÄ«Å”anās problēma, lai katram klientam piedāvātu citu produktu. Tika izskatÄ«ti Ŕādi produkti: ā€œTermiņdepozÄ«tsā€, ā€œKredÄ«tkarteā€, ā€œOverdraftsā€, ā€œPatēriņa kredÄ«tsā€, ā€œAuto kredÄ«tsā€, ā€œHipotēkaā€.

Dati ietvēra vēl vienu produkta veidu: ā€œNorēķinu kontsā€. Bet mēs to neuzskatÄ«jām zemā informācijas satura dēļ. Lietotājiem, kuri ir bankas klienti, t.i. nepārstāja lietot savus produktus, tika izveidots modelis, lai paredzētu, kurÅ” produkts viņus varētu interesēt. Par modeli tika izvēlēta loÄ£istiskā regresija, un kā kvalitātes novērtējuma metrika tika izmantota Lift vērtÄ«ba pirmajām 10 procentilēm.

Modeļa kvalitāti var novērtēt attēlā.

Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai
Produktu ieteikumu modeļa rezultāti klientiem

Kopsavilkums

Å Ä« pieeja mums atnesa pirmo vietu kategorijā ā€œAI bankāsā€ RAIF-Challenge 2017 AI čempionātā.

Kā mēs paredzējām sabrukumu, tuvojoties tai kā dabas katastrofai

Acīmredzot galvenais bija pieiet problēmai no netradicionāla leņķa un izmantot metodi, ko parasti izmanto citās situācijās.

Lai gan liela lietotāju aizplūŔana var būt dabas katastrofa pakalpojumiem.

Å o metodi var ņemt vērā jebkurā citā jomā, kur ir svarÄ«gi ņemt vērā aizplÅ«Å”anu, ne tikai bankām. Piemēram, mēs to izmantojām, lai aprēķinātu savu aizplÅ«Å”anu - Rostelecom SibÄ«rijas un Sanktpēterburgas filiālēs.

Uzņēmums "Datu ieguves laboratorija" "MeklÄ“Å”anas portāls "Sputnik"

Avots: www.habr.com

Pievieno komentāru