Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna

Minsan, para masolusyunan ang isang problema, kailangan mo lang tingnan ito sa ibang anggulo. Kahit na sa nakalipas na 10 taon ang mga katulad na problema ay nalutas sa parehong paraan na may iba't ibang mga epekto, ito ay hindi isang katotohanan na ang pamamaraang ito ay isa lamang.

Mayroong isang paksa tulad ng customer churn. Ang bagay ay hindi maiiwasan, dahil ang mga customer ng anumang kumpanya ay maaaring, sa maraming kadahilanan, na huminto sa paggamit ng mga produkto o serbisyo nito. Siyempre, para sa isang kumpanya, natural ang churn, ngunit hindi ang pinaka-kanais-nais na aksyon, kaya sinusubukan ng lahat na bawasan ang churn na ito. Mas mabuti pa, hulaan ang posibilidad ng churn para sa isang partikular na kategorya ng mga user, o isang partikular na user, at magmungkahi ng ilang hakbang upang mapanatili ang mga ito.

Kinakailangang pag-aralan at subukang panatilihin ang kliyente, kung maaari, para sa hindi bababa sa mga sumusunod na dahilan:

  • ang pag-akit ng mga bagong customer ay mas mahal kaysa sa mga pamamaraan ng pagpapanatili. Upang maakit ang mga bagong customer, bilang panuntunan, kailangan mong gumastos ng kaunting pera (advertising), habang ang mga umiiral na customer ay maaaring i-activate gamit ang isang espesyal na alok na may mga espesyal na kundisyon;
  • Ang pag-unawa sa mga dahilan kung bakit umaalis ang mga customer ay ang susi sa pagpapabuti ng mga produkto at serbisyo.

May mga karaniwang diskarte sa paghula ng churn. Ngunit sa isa sa mga kampeonato ng AI, nagpasya kaming subukan ang pamamahagi ng Weibull para dito. Ito ay kadalasang ginagamit para sa survivability analysis, weather forecasting, natural disaster analysis, industrial engineering at iba pa. Ang pamamahagi ng Weibull ay isang espesyal na function ng pamamahagi na na-parameter ng dalawang parameter Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna ΠΈ Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna.

Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna
Wikipedia

Sa pangkalahatan, ito ay isang kawili-wiling bagay, ngunit para sa pagtataya ng mga outflow, at sa fintech sa pangkalahatan, hindi ito madalas na ginagamit. Sa ibaba ng cut, sasabihin namin sa iyo kung paano namin (Data Mining Laboratory) ginawa ito, sabay-sabay na nanalo ng ginto sa Artificial Intelligence Championship sa kategoryang "AI in Banks".

Tungkol sa churn sa pangkalahatan

Unawain natin nang kaunti kung ano ang customer churn at kung bakit ito napakahalaga. Ang isang customer base ay mahalaga para sa isang negosyo. Ang mga bagong customer ay pumupunta sa base na ito, halimbawa, na natutunan ang tungkol sa isang produkto o serbisyo mula sa isang ad, nabubuhay nang ilang oras (aktibong ginagamit ang mga produkto) at pagkatapos ng ilang oras ay ihinto ang paggamit nito. Ang panahong ito ay tinatawag na "Customer Lifecycle" - isang terminong naglalarawan sa mga yugto na pinagdadaanan ng isang customer kapag nalaman niya ang tungkol sa isang produkto, gumawa ng desisyon sa pagbili, nagbabayad, gumagamit at naging tapat na mamimili, at sa huli ay huminto sa paggamit ng produkto. para sa isang kadahilanan o iba pa. Alinsunod dito, ang churn ay ang huling yugto ng ikot ng buhay ng kliyente, kapag huminto ang kliyente sa paggamit ng mga serbisyo, at para sa isang negosyo, nangangahulugan ito na ang kliyente ay tumigil sa pagdadala ng tubo o anumang benepisyo.

Ang bawat kliyente ng bangko ay isang partikular na tao na pumipili ng isa o ibang bank card na partikular para sa kanyang mga pangangailangan. Kung madalas kang maglalakbay, ang isang card na may milya ay magagamit. Bumili ng marami - hello, cashback card. Marami siyang binibili sa mga partikular na tindahan - at mayroon nang isang espesyal na kasosyo na plastik para dito. Siyempre, minsan pinipili ang isang card batay sa pamantayang "Pinakamamura na serbisyo". Sa pangkalahatan, mayroong sapat na mga variable dito.

At pinipili din ng isang tao ang bangko mismo - mayroon bang anumang punto sa pagpili ng isang card mula sa isang bangko na ang mga sangay ay nasa Moscow lamang at sa rehiyon, kapag ikaw ay mula sa Khabarovsk? Kahit na ang isang card mula sa naturang bangko ay hindi bababa sa 2 beses na mas kumikita, ang pagkakaroon ng mga sangay ng bangko sa malapit ay isang mahalagang criterion. Oo, narito na ang 2019 at digital na ang lahat, ngunit ang ilang mga isyu sa ilang mga bangko ay maaari lamang malutas sa isang sangay. Dagdag pa, muli, ang ilang bahagi ng populasyon ay nagtitiwala sa isang pisikal na bangko nang higit pa kaysa sa isang aplikasyon sa isang smartphone, kailangan din itong isaalang-alang.

Bilang resulta, ang isang tao ay maaaring magkaroon ng maraming dahilan para sa pagtanggi sa mga produkto ng bangko (o ang bangko mismo). Nagpalit ako ng trabaho, at ang taripa ng card ay binago mula sa suweldo tungo sa β€œPara sa mga mortal,” na hindi gaanong kumikita. Lumipat ako sa ibang lungsod kung saan walang sangay ng bangko. Hindi ko nagustuhan ang pakikipag-ugnayan sa hindi kwalipikadong operator sa sangay. Iyon ay, maaaring may mas maraming dahilan para sa pagsasara ng isang account kaysa sa paggamit ng produkto.

At hindi lamang malinaw na maipahayag ng kliyente ang kanyang intensyon - pumunta sa bangko at magsulat ng isang pahayag, ngunit itigil lamang ang paggamit ng mga produkto nang hindi tinatapos ang kontrata. Napagpasyahan na gumamit ng machine learning at AI para maunawaan ang mga ganitong problema.

Bukod dito, maaaring mangyari ang customer churn sa anumang industriya (telecom, Internet provider, insurance company, sa pangkalahatan, saanman mayroong customer base at pana-panahong mga transaksyon).

Ano'ng nagawa natin

Una sa lahat, ito ay kinakailangan upang ilarawan ang isang malinaw na hangganan - mula sa kung anong oras namin simulan upang isaalang-alang ang kliyente na umalis. Mula sa punto ng view ng bangko na nagbigay sa amin ng data para sa aming trabaho, binary ang status ng aktibidad ng kliyente - aktibo siya o hindi. Nagkaroon ng ACTIVE_FLAG na flag sa talahanayang "Aktibidad", ang halaga nito ay maaaring "0" o "1" ("Hindi Aktibo" at "Aktibo" ayon sa pagkakabanggit). At ang lahat ay magiging maayos, ngunit ang isang tao ay tulad na maaari niyang aktibong gamitin ito sa loob ng ilang panahon, at pagkatapos ay mawawala sa aktibong listahan sa loob ng isang buwan - nagkasakit siya, nagpunta sa ibang bansa upang magbakasyon, o kahit na pumunta upang subukan ang isang card mula sa ibang bangko. O baka pagkatapos ng mahabang panahon ng kawalan ng aktibidad, simulan muli ang paggamit ng mga serbisyo ng bangko

Samakatuwid, nagpasya kaming tawagan ang isang panahon ng kawalan ng aktibidad bilang isang tiyak na tuloy-tuloy na tagal ng panahon kung saan ang bandila para dito ay nakatakda sa "0".

Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna

Ang mga kliyente ay lumipat mula sa hindi aktibo patungo sa aktibo pagkatapos ng mga panahon ng hindi aktibo na may iba't ibang haba. Mayroon kaming pagkakataon na kalkulahin ang antas ng empirical na halaga "pagkakatiwalaan ng mga panahon ng kawalan ng aktibidad" - iyon ay, ang posibilidad na ang isang tao ay magsisimulang gumamit muli ng mga produkto ng bangko pagkatapos ng pansamantalang hindi aktibo.

Halimbawa, ipinapakita ng graph na ito ang pagpapatuloy ng aktibidad (ACTIVE_FLAG=1) ng mga kliyente pagkatapos ng ilang buwan na hindi aktibo (ACTIVE_FLAG=0).

Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna

Dito ay linawin namin nang kaunti ang set ng data kung saan kami nagsimulang magtrabaho. Kaya, ang bangko ay nagbigay ng pinagsama-samang impormasyon para sa 19 na buwan sa mga sumusunod na talahanayan:

  • "Aktibidad" - buwanang mga transaksyon ng customer (sa pamamagitan ng mga card, sa Internet banking at mobile banking), kasama ang payroll at impormasyon sa turnover.
  • "Mga Card" - data tungkol sa lahat ng mga card na mayroon ang kliyente, na may detalyadong iskedyul ng taripa.
  • "Mga Kasunduan" - impormasyon tungkol sa mga kasunduan ng kliyente (parehong bukas at sarado): mga pautang, deposito, atbp., na nagpapahiwatig ng mga parameter ng bawat isa.
  • "Mga Customer" - isang set ng demograpikong data (kasarian at edad) at ang pagkakaroon ng impormasyon sa pakikipag-ugnayan.

Para sa trabaho kailangan namin ang lahat ng mga talahanayan maliban sa "Mapa".

Nagkaroon ng isa pang kahirapan dito - sa data na ito hindi ipinahiwatig ng bangko kung anong uri ng aktibidad ang naganap sa mga card. Ibig sabihin, maiintindihan namin kung may mga transaksyon o wala, ngunit hindi na namin matukoy ang kanilang uri. Samakatuwid, hindi malinaw kung ang kliyente ay nag-withdraw ng pera, tumatanggap ng suweldo, o ginagastos ang pera sa mga pagbili. Wala rin kaming data sa mga balanse ng account, na magiging kapaki-pakinabang.

Ang sample mismo ay walang kinikilingan - sa sample na ito, sa loob ng 19 na buwan, ang bangko ay hindi gumawa ng anumang mga pagtatangka na panatilihin ang mga customer at bawasan ang pag-agos.

Kaya, tungkol sa mga panahon ng kawalan ng aktibidad.

Upang bumuo ng isang kahulugan ng churn, isang panahon ng kawalan ng aktibidad ay dapat mapili. Upang lumikha ng pagtataya ng churn sa isang punto ng oras Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna, dapat ay mayroon kang kasaysayan ng customer na hindi bababa sa 3 buwan sa pagitan Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna. Ang aming kasaysayan ay limitado sa 19 na buwan, kaya nagpasya kaming tumagal ng isang panahon ng kawalan ng aktibidad na 6 na buwan, kung magagamit. At para sa pinakamababang panahon para sa isang mataas na kalidad na pagtataya, tumagal kami ng 3 buwan. Kinuha namin ang mga numero sa loob ng 3 at 6 na buwan nang empirically batay sa pagsusuri ng gawi ng data ng customer.

Binuo namin ang kahulugan ng churn gaya ng sumusunod: buwan ng customer churn Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna ito ang unang buwan na may ACTIVE_FLAG=0, kung saan mula sa buwang ito mayroong hindi bababa sa anim na magkakasunod na zero sa field na ACTIVE_FLAG, sa madaling salita, ang buwan kung saan hindi aktibo ang kliyente sa loob ng 6 na buwan.

Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna
Bilang ng mga kliyenteng umalis

Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna
Bilang ng natitirang mga kliyente

Paano kinakalkula ang churn?

Sa ganitong mga kumpetisyon, at sa pagsasanay sa pangkalahatan, ang pag-agos ay madalas na hinuhulaan sa ganitong paraan. Gumagamit ang kliyente ng mga produkto at serbisyo sa iba't ibang yugto ng panahon, ang data sa pakikipag-ugnayan sa kanya ay kinakatawan bilang isang vector ng mga tampok ng isang nakapirming haba n. Kadalasan ang impormasyong ito ay kinabibilangan ng:

  • Data na nagpapakilala sa user (demographic data, marketing segment).
  • Kasaysayan ng paggamit ng mga produkto at serbisyo ng pagbabangko (ito ang mga aksyon ng customer na palaging nakatali sa isang partikular na oras o panahon ng agwat na kailangan namin).
  • Panlabas na data, kung posible na makuha ito - halimbawa, mga pagsusuri mula sa mga social network.

At pagkatapos nito, nakakakuha sila ng kahulugan ng churn, naiiba para sa bawat gawain. Pagkatapos ay gumamit sila ng machine learning algorithm, na hinuhulaan ang posibilidad na umalis ang isang kliyente Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna batay sa isang vector ng mga kadahilanan Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna. Upang sanayin ang algorithm, ang isa sa mga kilalang balangkas para sa pagbuo ng mga ensemble ng mga puno ng desisyon ay ginagamit, XGBoost, LightGBM, CatBoost o mga pagbabago nito.

Ang algorithm mismo ay hindi masama, ngunit mayroon itong ilang malubhang disadvantages pagdating sa paghula ng churn.

  • Wala siyang tinatawag na "memorya". Ang input ng modelo ay isang tinukoy na bilang ng mga tampok na tumutugma sa kasalukuyang punto ng oras. Upang mag-imbak ng impormasyon tungkol sa kasaysayan ng mga pagbabago sa mga parameter, kinakailangang kalkulahin ang mga espesyal na tampok na nagpapakilala sa mga pagbabago sa mga parameter sa paglipas ng panahon, halimbawa, ang bilang o dami ng mga transaksyon sa bangko sa nakalipas na 1,2,3, XNUMX, XNUMX buwan. Ang pamamaraang ito ay maaari lamang bahagyang sumasalamin sa likas na katangian ng mga pansamantalang pagbabago.
  • Nakapirming abot-tanaw sa pagtataya. Nagagawa lang ng modelo na mahulaan ang churn ng customer para sa isang paunang natukoy na yugto ng panahon, halimbawa, isang hula nang isang buwan nang maaga. Kung kinakailangan ang pagtataya para sa ibang yugto ng panahon, halimbawa, tatlong buwan, kailangan mong muling buuin ang set ng pagsasanay at muling sanayin ang isang bagong modelo.

Ang aming diskarte

Napagpasyahan namin kaagad na hindi kami gagamit ng mga karaniwang diskarte. Bilang karagdagan sa amin, 497 higit pang mga tao ang nakarehistro sa kampeonato, bawat isa ay may malaking karanasan sa likod nila. Kaya't ang pagsisikap na gumawa ng isang bagay ayon sa isang karaniwang pamamaraan sa gayong mga kondisyon ay hindi magandang ideya.

At sinimulan naming lutasin ang mga problemang kinakaharap ng binary classification model sa pamamagitan ng paghula sa probability distribution ng customer churn times. Ang isang katulad na diskarte ay makikita dito, binibigyang-daan ka nitong mahulaan ang churn nang mas may kakayahang umangkop at subukan ang mga mas kumplikadong hypotheses kaysa sa klasikal na diskarte. Bilang isang pamilya ng mga pamamahagi na nagmomodelo sa oras ng pag-agos, pinili namin ang pamamahagi Weibull para sa malawakang paggamit nito sa pagsusuri ng kaligtasan. Ang pag-uugali ng kliyente ay maaaring tingnan bilang isang uri ng kaligtasan.

Narito ang mga halimbawa ng Weibull probability density distribution depende sa mga parameter Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna ΠΈ Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna:

Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna

Ito ang probability density function ng tatlong magkakaibang customer na nag-churn sa paglipas ng panahon. Ang oras ay ipinakita sa mga buwan. Sa madaling salita, ipinapakita ng graph na ito kung kailan pinakamalamang na mag-churn ang isang kliyente sa susunod na dalawang buwan. Gaya ng nakikita mo, ang isang kliyenteng may distribusyon ay may mas malaking potensyal na umalis nang mas maaga kaysa sa mga kliyenteng may Weibull(2, 0.5) at Weibull (3,1) mga pamamahagi.

Ang resulta ay isang modelo na, para sa bawat kliyente, para sa bawat
hinuhulaan ng buwan ang mga parameter ng pamamahagi ng Weibull, na pinakamahusay na sumasalamin sa paglitaw ng posibilidad ng pag-agos sa paglipas ng panahon. Sa higit pang detalye:

  • Ang mga target na feature sa training set ay ang natitirang oras hanggang sa churn sa isang partikular na buwan para sa isang partikular na kliyente.
  • Kung walang churn rate para sa isang customer, ipinapalagay namin na ang churn time ay mas malaki kaysa sa bilang ng mga buwan mula sa kasalukuyang buwan hanggang sa katapusan ng history na mayroon kami.
  • Modelong ginamit: paulit-ulit na neural network na may LSTM layer.
  • Bilang function ng pagkawala, ginagamit namin ang function na negatibong log-likelihood para sa pamamahagi ng Weibull.

Narito ang mga pakinabang ng pamamaraang ito:

  • Ang pamamahagi ng probabilidad, bilang karagdagan sa malinaw na posibilidad ng binary classification, ay nagbibigay-daan sa kakayahang umangkop na hula ng iba't ibang mga kaganapan, halimbawa, kung ang isang kliyente ay titigil sa paggamit ng mga serbisyo ng bangko sa loob ng 3 buwan. Gayundin, kung kinakailangan, maaaring i-average ang iba't ibang sukatan sa distribusyon na ito.
  • Ang LSTM na paulit-ulit na neural network ay may memorya at epektibong ginagamit ang buong magagamit na kasaysayan. Habang pinalawak o pino ang kwento, tumataas ang katumpakan.
  • Ang diskarte ay madaling mai-scale kapag hinahati ang mga yugto ng panahon sa mas maliit (halimbawa, kapag hinahati ang mga buwan sa mga linggo).

Ngunit hindi sapat na lumikha ng isang mahusay na modelo; kailangan mo ring maayos na suriin ang kalidad nito.

Paano tinasa ang kalidad?

Pinili namin ang Lift Curve bilang sukatan. Ginagamit ito sa negosyo para sa mga ganitong kaso dahil sa malinaw na interpretasyon nito, mahusay itong inilarawan dito ΠΈ dito. Kung ilalarawan mo ang kahulugan ng sukatang ito sa isang pangungusap, ito ay magiging "Ilang beses ginagawa ng algorithm ang pinakamahusay na hula sa una Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna% kaysa random."

Mga modelo ng pagsasanay

Ang mga kundisyon ng kumpetisyon ay hindi nagtatag ng isang tiyak na sukatan ng kalidad kung saan maihahambing ang iba't ibang mga modelo at diskarte. Bukod dito, ang kahulugan ng churn ay maaaring iba at maaaring depende sa pahayag ng problema, na, naman, ay tinutukoy ng mga layunin sa negosyo. Samakatuwid, upang maunawaan kung aling pamamaraan ang mas mahusay, sinanay namin ang dalawang modelo:

  1. Isang karaniwang ginagamit na binary classification approach gamit ang isang ensemble decision tree machine learning algorithm (LightGBM);
  2. Weibull-LSTM na modelo

Ang set ng pagsubok ay binubuo ng 500 paunang napiling mga kliyente na wala sa set ng pagsasanay. Ang mga hyper-parameter ay pinili para sa modelo gamit ang cross-validation, na pinaghiwa-hiwalay ng kliyente. Ang parehong mga hanay ng mga tampok ay ginamit upang sanayin ang bawat modelo.

Dahil sa ang katunayan na ang modelo ay walang memorya, ang mga espesyal na tampok ay kinuha para dito, na nagpapakita ng ratio ng mga pagbabago sa mga parameter para sa isang buwan sa average na halaga para sa mga parameter sa nakaraang tatlong buwan. Ano ang katangian ng rate ng pagbabago sa mga halaga sa huling panahon ng tatlong buwan. Kung wala ito, ang modelong nakabatay sa Random Forest ay magiging dehado sa Weibull-LSTM.

Bakit ang LSTM na may Weibull distribution ay mas mahusay kaysa sa isang ensemble decision tree approach

Ang lahat ay malinaw dito sa isang pares ng mga larawan.

Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna
Paghahambing ng Lift Curve para sa classical na algorithm at Weibull-LSTM

Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna
Paghahambing ng sukatan ng Lift Curve ayon sa buwan para sa classical na algorithm at Weibull-LSTM

Sa pangkalahatan, ang LSTM ay higit na mataas sa klasikal na algorithm sa halos lahat ng kaso.

Hula ng Churn

Ang isang modelong batay sa paulit-ulit na neural network na may mga LSTM cell na may Weibull distribution ay maaaring mahulaan nang maaga ang churn, halimbawa, hulaan ang customer churn sa loob ng susunod na n buwan. Isaalang-alang ang kaso para sa n = 3. Sa kasong ito, para sa bawat buwan, dapat matukoy nang tama ng neural network kung aalis ang kliyente, simula sa susunod na buwan at hanggang sa ika-nth buwan. Sa madaling salita, dapat nitong matukoy nang tama kung mananatili ang customer pagkatapos ng n buwan. Maaari itong ituring na isang hula nang maaga: hinuhulaan ang sandali kung kailan nagsisimula pa lang mag-isip ang kliyente tungkol sa pag-alis.

Ihambing natin ang Lift Curve para sa Weibull-LSTM 1, 2 at 3 buwan bago ang pag-agos:

Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna

Naisulat na namin sa itaas na mahalaga din ang mga pagtataya na ginawa para sa mga kliyenteng hindi na aktibo sa loob ng ilang panahon. Samakatuwid, dito ay idaragdag namin sa sample ang mga naturang kaso kapag ang umalis na customer ay naging hindi aktibo sa loob ng isa o dalawang buwan, at tingnan kung wastong inuri ng Weibull-LSTM ang mga naturang kaso bilang churn. Dahil ang mga ganitong kaso ay naroroon sa sample, inaasahan namin ang network na pangasiwaan ang mga ito nang maayos:

Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna

Pagpapanatili ng customer

Sa totoo lang, ito ang pangunahing bagay na maaaring gawin, pagkakaroon ng impormasyon sa kamay na ang mga ganoon at ganoong mga kliyente ay naghahanda upang ihinto ang paggamit ng produkto. Sa pagsasalita tungkol sa pagbuo ng isang modelo na maaaring mag-alok ng isang bagay na kapaki-pakinabang sa mga customer upang mapanatili ang mga ito, hindi ito magagawa kung wala kang kasaysayan ng mga katulad na pagsubok na magtatapos nang maayos.

Wala kaming ganoong kwento, kaya napagpasyahan namin ito sa ganitong paraan.

  1. Gumagawa kami ng isang modelo na tumutukoy sa mga kawili-wiling produkto para sa bawat kliyente.
  2. Bawat buwan pinapatakbo namin ang classifier at tinutukoy ang mga potensyal na umaalis sa mga customer.
  3. Nag-aalok kami sa ilang kliyente ng produkto, ayon sa modelo mula sa punto 1, at tandaan ang aming mga aksyon.
  4. Pagkalipas ng ilang buwan, tinitingnan namin kung alin sa mga potensyal na umaalis na mga kliyente ang naiwan at alin ang nanatili. Kaya, bumubuo kami ng sample ng pagsasanay.
  5. Sinasanay namin ang modelo gamit ang kasaysayan na nakuha sa hakbang 4.
  6. Opsyonal, inuulit namin ang pamamaraan, pinapalitan ang modelo mula sa hakbang 1 gamit ang modelong nakuha sa hakbang 5.

Ang isang pagsubok sa kalidad ng naturang pagpapanatili ay maaaring gawin sa pamamagitan ng regular na pagsusuri sa A/B - hinahati namin ang mga customer na posibleng umalis sa dalawang grupo. Nag-aalok kami ng mga produkto sa isa batay sa aming modelo ng pagpapanatili, at sa isa ay wala kaming inaalok. Nagpasya kaming sanayin ang isang modelo na maaaring maging kapaki-pakinabang sa punto 1 ng aming halimbawa.

Nais naming gawin ang pagse-segment bilang nabibigyang kahulugan hangga't maaari. Para magawa ito, pumili kami ng ilang feature na madaling ma-interpret: ang kabuuang bilang ng mga transaksyon, sahod, kabuuang turnover ng account, edad, kasarian. Ang mga tampok mula sa talahanayan ng "Mga Mapa" ay hindi isinasaalang-alang bilang hindi nagbibigay-kaalaman, at ang mga tampok mula sa talahanayan 3 "Mga Kontrata" ay hindi isinasaalang-alang dahil sa pagiging kumplikado ng pagproseso upang maiwasan ang pagtagas ng data sa pagitan ng hanay ng pagpapatunay at hanay ng pagsasanay.

Ang pag-cluster ay isinagawa gamit ang mga modelo ng pinaghalong Gaussian. Ang criterion ng impormasyon ng Akaike ay nagpapahintulot sa amin na matukoy ang 2 optima. Ang unang pinakamabuting kalagayan ay tumutugma sa 1 kumpol. Ang pangalawang pinakamabuting kalagayan, hindi gaanong binibigkas, ay tumutugma sa 80 kumpol. Batay sa resultang ito, maaari nating gawin ang sumusunod na konklusyon: napakahirap hatiin ang data sa mga kumpol nang walang ibinigay na impormasyon. Para sa mas mahusay na clustering, kailangan mo ng data na naglalarawan sa bawat kliyente nang detalyado.

Samakatuwid, ang problema ng pinangangasiwaang pag-aaral ay isinasaalang-alang upang mag-alok sa bawat indibidwal na kliyente ng ibang produkto. Ang mga sumusunod na produkto ay isinasaalang-alang: "Term deposit", "Credit card", "Overdraft", "Consumer loan", "Car loan", "Mortgage".

Kasama sa data ang isa pang uri ng produkto: "Kasalukuyang account." Ngunit hindi namin ito isinasaalang-alang dahil sa mababang nilalaman ng impormasyon nito. Para sa mga user na mga kliyente sa bangko, i.e. hindi huminto sa paggamit ng mga produkto nito, isang modelo ang ginawa para mahulaan kung aling produkto ang maaaring maging interesado sa kanila. Pinili ang logistic regression bilang modelo, at ang Lift value para sa unang 10 percentiles ay ginamit bilang sukatan ng pagtatasa ng kalidad.

Ang kalidad ng modelo ay maaaring masuri sa figure.

Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna
Mga resulta ng modelo ng rekomendasyon ng produkto para sa mga customer

Kabuuan

Ang diskarte na ito ay nagdala sa amin ng unang lugar sa kategoryang "AI sa mga Bangko" sa RAIF-Challenge 2017 AI Championship.

Kung paano namin hinulaan ang churn sa pamamagitan ng paglapit dito na parang isang natural na sakuna

Tila, ang pangunahing bagay ay upang lapitan ang problema mula sa isang hindi kinaugalian na anggulo at gumamit ng isang paraan na karaniwang ginagamit para sa iba pang mga sitwasyon.

Bagama't ang napakalaking pag-agos ng mga user ay maaaring natural na sakuna para sa mga serbisyo.

Ang pamamaraang ito ay maaaring isaalang-alang para sa anumang iba pang lugar kung saan mahalagang isaalang-alang ang pag-agos, hindi lamang ang mga bangko. Halimbawa, ginamit namin ito upang kalkulahin ang aming sariling pag-agos - sa mga sangay ng Rostelecom ng Siberian at St. Petersburg.

"Data Mining Laboratory" kumpanya "Paghahanap portal "Sputnik"

Pinagmulan: www.habr.com

Magdagdag ng komento