Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali

Calchì volta, per risolve un prublema, basta à fighjà da un altru angulu. Ancu s'è in l'ultimi 10 anni prublemi simili sò stati risolti in u listessu modu cù effetti diffirenti, ùn hè micca un fattu chì stu metudu hè l'unicu.

Ci hè un tema cum'è u cliente churn. A cosa hè inevitabbile, perchè i clienti di ogni cumpagnia ponu, per parechje ragioni, cessà di utilizà i so prudutti o servizii. Di sicuru, per una sucità, u churn hè un naturali, ma micca l'azzione più desiderata, cusì ognunu prova di minimizzà stu churn. Megliu ancu, predice a probabilità di churn per una categuria particulare di utilizatori, o un utilizatore specificu, è suggerisce qualchi passi per mantene.

Hè necessariu analizà è pruvà à mantene u cliente, se pussibule, per almenu i seguenti motivi:

  • attrae novi clienti hè più caru cà i prucessi di retenzioni. Per attruverà novi clienti, in regula, avete bisognu di gastru un pocu di soldi (publicità), mentre chì i clienti esistenti ponu esse attivati ​​cù una offerta speciale cù cundizioni speciali;
  • Capisce i mutivi per chì i clienti partenu hè a chjave per migliurà i prudutti è i servizii.

Ci sò approcci standard per predice churn. Ma in unu di i campionati AI, avemu decisu di pruvà a distribuzione Weibull per questu. Hè più spessu usatu per l'analisi di sopravvivenza, previsioni climatichi, analisi di disastri naturali, ingegneria industriale è simili. A distribuzione Weibull hè una funzione di distribuzione speciale parametrizzata da dui parametri Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali и Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali.

Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali
Wikipedia

In generale, hè una cosa interessante, ma per a previsione di i flussi, è in fintech in generale, ùn hè micca usatu cusì spessu. Sottu à u tagliu vi diceremu cumu avemu (Data Mining Laboratory) hà fattu questu, vincendu simultaneamente l'oru à u Campionatu di Intelligenza Artificiale in a categuria "AI in Banks".

À propositu di churn in generale

Capemu un pocu di ciò chì u churn di u cliente hè è perchè hè cusì impurtante. Una basa di clienti hè impurtante per un affari. I novi clienti venenu à sta basa, per esempiu, avè amparatu nantu à un pruduttu o serviziu da un annunziu, vivenu per qualchì tempu (utilizanu attivamente i prudutti) è dopu un pocu tempu cessanu di usà. Stu periodu hè chjamatu u "Ciculu di Vita di u Cliente" - un termu chì descrive e tappe chì un cliente passa per quandu ampara nantu à un pruduttu, face una decisione di compra, paga, usa è diventa un cunsumadore leale, è infine cessà di utilizà u pruduttu. per un mutivu o un altru. In cunsiquenza, u churn hè a tappa finale di u ciculu di vita di u cliente, quandu u cliente smette di utilizà i servizii, è per un affari significa chì u cliente hà cessatu di purtà un prufittu o qualsiasi beneficiu.

Ogni cliente bancariu hè una persona specifica chì sceglie una o una altra carta bancaria specificamente per i so bisogni. Sè vo viaghjate spessu, una carta cù chilometri serà utile. Cumpra assai - ciao, carta di cashback. Ellu cumprà assai in magazzini specifichi - è ci hè digià un cumpagnu di plastica speciale per questu. Di sicuru, qualchì volta una carta hè selezziunata basatu annantu à u criteriu "U serviziu più prezzu". In generale, ci sò abbastanza variàbili quì.

È una persona sceglie ancu u bancu stessu - ci hè un puntu di sceglie una carta da un bancu chì i rami sò solu in Mosca è a regione, quandu site da Khabarovsk? Ancu s'è una carta da un tali bancu hè almenu 2 volte più prufittuosa, a presenza di filiali bancarie vicinu hè sempre un criteriu impurtante. Iè, 2019 hè digià quì è u digitale hè u nostru tuttu, ma una quantità di prublemi cù certi banche ponu esse risolti solu in una filiera. In più, di novu, una parte di a pupulazione fiducia in un bancu fisicu assai più cà una applicazione nantu à un smartphone, questu hè ancu da esse cunsideratu.

In u risultatu, una persona pò avè parechje motivi per ricusà i prudutti bancari (o u bancu stessu). Aghju cambiatu u travagliu, è a tarifa di a carta hà cambiatu da u salariu à "Per mera mortali", chì hè menu prufittu. Mi trasfirìu in una altra cità induve ùn ci hè micca filiali bancarie. Ùn mi piace micca l'interazzione cù l'operatore senza qualificazione in a filiera. Questu hè, pò esse ancu più motivi per chjude un contu chè per aduprà u pruduttu.

È u cliente ùn pò micca solu sprime chjaramente a so intenzione - vene à u bancu è scrivite una dichjarazione, ma solu cessà di utilizà i prudutti senza finisce u cuntrattu. Hè statu decisu di utilizà l'apprendimentu machine è l'AI per capisce tali prublemi.

Inoltre, u churn di i clienti pò accade in ogni industria (telecomunicazioni, fornitori di Internet, cumpagnie d'assicuranza, in generale, induve ci hè una basa di clienti è transazzione periodica).

Chì avemu fattu

Prima di tuttu, era necessariu di discrìviri un cunfini chjaru - da quandu avemu principiatu à cunsiderà chì u cliente hè partutu. Da u puntu di vista di u bancu chì ci hà furnitu i dati per u nostru travagliu, u statutu di l'attività di u cliente era binariu - hè attivu o micca. Ci era una bandiera ACTIVE_FLAG in a tavula "Attività", u valore di quale puderia esse "0" o "1" ("Inattivu" è "Attivu" rispettivamente). È tuttu saria bè, ma una persona hè cusì chì pò attivamente usà per qualchì tempu, è poi cascà fora di a lista attiva per un mesi - si ammazzò, andò in un altru paese in vacanze, o ancu andò à pruvà un carta da un altru bancu. O forsi dopu à un longu periodu di inattività, cuminciate à aduprà di novu i servizii di u bancu

Per quessa, avemu decisu di chjamà un periodu di inattività un certu periodu di tempu continuu durante u quale a bandiera per questu hè stata "0".

Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali

I clienti passanu da inattivu à attivu dopu periodi d'inattività di variate longu. Avemu l'uppurtunità di calculà u gradu di u valore empiricu "affidabilità di i periodi di inattività" - vale à dì, a probabilità chì una persona hà da principià à utilizà i prudutti bancari di novu dopu l'inattività temporale.

Per esempiu, stu graficu mostra a ripresa di l'attività (ACTIVE_FLAG=1) di i clienti dopu parechji mesi di inattività (ACTIVE_FLAG=0).

Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali

Quì avemu da chjarificà un pocu u settore di dati cù quale avemu principiatu à travaglià. Dunque, u bancu hà furnitu infurmazioni aggregate per 19 mesi in i seguenti tabelli:

  • "Attività" - transazzione mensili di i clienti (per carte, in Internet banking è mobile banking), cumpresa a paga è infurmazione nantu à u fatturatu.
  • "Carte" - dati nantu à tutte e carte chì u cliente hà, cù un schedariu di tariffu detallatu.
  • "Acords" - infurmazione nantu à l'accordu di u cliente (apertu è chjusu): prestiti, dipositi, etc., indicà i paràmetri di ognunu.
  • "Clienti" - un inseme di dati demografici (sessu è età) è a dispunibilità di l'infurmazioni di cuntattu.

Per u travagliu avemu bisognu di tutte e tavule eccettu per u "Map".

Ci era una altra difficultà quì - in questa dati, u bancu ùn hà micca indicatu chì tipu d'attività hà fattu nantu à e carte. Questu hè, pudemu capisce s'ellu ci era transazzione o micca, ma ùn pudemu micca più determinà u so tipu. Dunque, ùn era micca chjaru se u cliente ritirava soldi, riceveva un salariu o spende i soldi in compra. Ùn avemu micca ancu dati nantu à i saldi di i cunti, chì avaristi stati utili.

A mostra stessa era imparziale - in questa mostra, più di 19 mesi, u bancu ùn hà micca fattu tentativu di mantene i clienti è minimizzà u flussu.

Dunque, nantu à i periodi di inattività.

Per furmulà una definizione di churn, un periodu di inattività deve esse sceltu. Per creà una previsione di churn à un puntu in u tempu Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali, duvete avè una storia di u cliente di almenu 3 mesi à un intervallu Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali. A nostra storia era limitata à 19 mesi, cusì avemu decisu di piglià un periodu di inattività di 6 mesi, se dispunibule. È per u periodu minimu per una previsione d'alta qualità, avemu pigliatu 3 mesi. Avemu pigliatu i figuri per 3 è 6 mesi empirically basatu annantu à una analisi di u cumpurtamentu di i dati di u cliente.

Avemu formulatu a definizione di churn cusì: mese di churn di u cliente Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali questu hè u primu mese cù ACTIVE_FLAG = 0, induve da questu mese ci sò almenu sei zeri consecutivi in ​​u campu ACTIVE_FLAG, in altre parolle, u mese da quale u cliente era inattivu per 6 mesi.

Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali
Numeru di clienti chì sò partuti

Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali
Numeru di clienti rimanenti

Cumu hè calculatu u churn?

In tali cuncorsi, è in a pràtica in generale, u flussu hè spessu previstu in questu modu. U cliente usa i prudutti è servizii in diversi periodi di tempu, e dati nantu à l'interazzione cun ellu hè rapprisintatu cum'è un vettore di caratteristiche di una lunghezza fissa n. A maiò spessu, sta infurmazione include:

  • Dati chì caratterizzanu l'utilizatori (dati demografichi, segmentu di marketing).
  • Storia di l'usu di i prudutti bancari è i servizii (questu sò l'azzioni di i clienti chì sò sempre ligati à un tempu o periodu specificu di l'intervallu chì avemu bisognu).
  • Dati esterni, se era pussibule di ottene - per esempiu, recensioni da e rete soziale.

È dopu, derivanu una definizione di churn, sfarente per ogni compitu. Allora usanu un algoritmu d'apprendimentu di macchina, chì predice a probabilità di un cliente chì parte Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali basatu nantu à un vettore di fattori Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali. Per furmà l'algoritmu, unu di i frameworki ben cunnisciuti per a custruzzione d'insiemi d'arburi di decisione hè utilizatu, XGBoost, LightGBM, CatBoost o mudificazioni di questu.

L'algoritmu stessu ùn hè micca male, ma hà parechji disadvantages serii quandu si tratta di predice churn.

  • Ùn hà micca cusì chjamatu "memoria". L'input di u mudellu hè un numeru specificatu di funziunalità chì currisponde à u puntu attuale in u tempu. Per almacenà infurmazione nantu à a storia di i cambiamenti in i paràmetri, hè necessariu di calculà e caratteristiche spiciali chì caratterizeghjanu i cambiamenti in i paràmetri in u tempu, per esempiu, u numeru o quantità di transazzione bancaria in l'ultimi mesi 1,2,3, XNUMX, XNUMX. Stu approcciu pò riflette solu parzialmente a natura di cambiamenti tempuranee.
  • Orizzonte di previsione fissa. U mudellu hè solu capaci di predichendu u churn di u cliente per un periudu di tempu predefinitu, per esempiu, una previsione un mese in anticipu. Se una previsione hè necessaria per un periudu di tempu diversu, per esempiu, trè mesi, allora avete bisognu di ricustruisce u gruppu di furmazione è ricuperà un novu mudellu.

U nostru approcciu

Avemu decisu subitu chì ùn avemu micca aduprà approcci standard. In più di noi, 497 persone più registrate in u campiunatu, ognunu hà avutu una sperienza considerableu daretu à elli. Allora pruvà à fà qualcosa secondu un schema standard in tali cundizioni ùn hè micca una bona idea.

E avemu cuminciatu à risolve i prublemi chì face u mudellu di classificazione binariu predichendu a distribuzione di probabilità di i tempi di churn di i clienti. Un approcciu simili pò esse vistu ccà, vi permette di predict churn più flexiblely è pruvà ipotesi più cumplessi chì in l'approcciu classicu. Cum'è una famiglia di distribuzioni chì modellanu u tempu di flussu, avemu sceltu a distribuzione Weibull per u so usu generale in l'analisi di sopravvivenza. U cumpurtamentu di u cliente pò esse vistu cum'è un tipu di survival.

Eccu esempi di distribuzioni di densità di probabilità di Weibull secondu i paràmetri Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali и Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali:

Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali

Questa hè a funzione di densità di probabilità di trè clienti sfarente chì si stendenu cù u tempu. U tempu hè presentatu in mesi. In altri palori, stu graficu mostra quandu un cliente hè più prubabile di sbulicà in i prossimi dui mesi.Comu pudete vede, un cliente cù una distribuzione hà un putenziale maiò di lascià prima di i clienti cù u Weibull(2, 0.5) è Weibull. (3,1) distribuzioni.

U risultatu hè un mudellu chì, per ogni cliente, per ogni
mese predice i paràmetri di a distribuzione Weibull, chì riflette megliu l'occurrence di a probabilità di u flussu à u tempu. In più detail:

  • E caratteristiche di destinazione nantu à u settore di furmazione sò u tempu chì resta finu à u churn in un mese specificu per un cliente specificu.
  • Se ùn ci hè micca una tarifa di churn per un cliente, assumemu chì u tempu di churn hè più grande di u numeru di mesi da u mese attuale à a fine di a storia chì avemu.
  • Mudellu utilizatu: rete neurale recurrente cù strata LSTM.
  • Cum'è una funzione di perdita, usemu a funzione log-probabilità negativa per a distribuzione Weibull.

Eccu i vantaghji di stu metudu:

  • A distribuzione di probabilità, in più di a pussibilità ovvia di classificazione binaria, permette una predizione flexible di diversi avvenimenti, per esempiu, se un cliente smette di utilizà i servizii di u bancu in 3 mesi. Inoltre, se ne necessariu, diverse metriche ponu esse mediu nantu à sta distribuzione.
  • A rete neurale recurrente LSTM hà memoria è usa in modu efficace tutta a storia dispunibule. Quandu a storia hè allargata o raffinata, a precisione aumenta.
  • L'approcciu pò esse facilmente scalatu quandu si divide i periodi di tempu in più chjuchi (per esempiu, quandu si divide mesi in settimane).

Ma ùn hè micca abbastanza per creà un bonu mudellu; hè ancu bisognu di valutà bè a so qualità.

Cumu hè stata valutata a qualità?

Avemu sceltu Lift Curve cum'è metrica. Hè adupratu in l'affari per tali casi per via di a so interpretazione chjara, hè ben descrittu ccà и ccà. Se discrivite u significatu di sta metrica in una frase, saria "Quante volte l'algoritmu face a megliu predizione in u primu Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali% chè casualmente ".

Modelli di furmazione

E cundizioni di cuncurrenza ùn anu micca stabilitu una metrica di qualità specifica per quale mudelli è approcci diffirenti ponu esse paragunati. Inoltre, a definizione di churn pò esse diversa è pò dipende da a dichjarazione di u prublema, chì, à u turnu, hè determinata da i scopi di l'affari. Dunque, per capisce quale metudu hè megliu, avemu furmatu dui mudelli:

  1. Un approcciu di classificazione binariu cumunimenti utilizatu utilizendu un algoritmu di apprendimentu automaticu di l'arburu di decisione d'inseme (LightGBM);
  2. U mudellu Weibull-LSTM

U gruppu di test era custituitu da 500 clienti preselezionati chì ùn eranu micca in u gruppu di furmazione. Iper-parametri sò stati scelti per u mudellu cù validazione incruciata, spartiti per cliente. I stessi setti di funziunalità sò stati usati per furmà ogni mudellu.

A causa di u fattu chì u mudellu ùn hà micca memoria, i funziunalità particulari sò stati pigliati per questu, chì mostra u rapportu di cambiamenti in i paràmetri per un mesi à u valore mediu di i paràmetri in l'ultimi trè mesi. Ciò chì hà carattarizatu u ritmu di cambiamentu di i valori annantu à l'ultimu periodu di trè mesi. Senza questu, u mudellu Random Forest-basatu saria in un svantaghju relative à Weibull-LSTM.

Perchè LSTM cù a distribuzione Weibull hè megliu cà un approcciu di l'arburu di decisione d'ensemble

Tuttu hè chjaru quì in solu un paru di ritratti.

Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali
Comparazione di Lift Curve per l'algoritmu classicu è Weibull-LSTM

Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali
Comparazione di a metrica di Curva di Lift per mese per l'algoritmu classicu è Weibull-LSTM

In generale, LSTM hè superiore à l'algoritmu classicu in quasi tutti i casi.

Previsione di churn

Un mudellu basatu annantu à una rete neurale recurrente cù cellule LSTM cù distribuzione Weibull pò predice churn in anticipu, per esempiu, predice churn customer in i prossimi n mesi. Cunsiderate u casu per n = 3. In questu casu, per ogni mese, a rete neurale deve esse determinate currettamente se u cliente abbandunà, da u mesi dopu è finu à u mese nth. In altri palori, deve determinà currettamente se u cliente restarà dopu à n mesi. Questu pò esse cunsideratu una previsione in anticipu: predichendu u mumentu quandu u cliente principia à pensà à lascià.

Comparamu a Curva di Lift per Weibull-LSTM 1, 2 è 3 mesi prima di u flussu:

Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali

Avemu digià scrittu sopra chì e previsioni fatte per i clienti chì ùn sò più attivi per qualchì tempu sò ancu impurtanti. Per quessa, quì aghjunghjemu à l'esempiu tali casi quandu u cliente partitu hè digià inattivu per unu o dui mesi, è verificate chì Weibull-LSTM classificà currettamente tali casi cum'è churn. Siccomu tali casi eranu prisenti in u sample, aspittemu chì a reta li gestione bè:

Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali

Ritenzione di i clienti

In verità, questu hè u principale chì pò esse fattu, avè in manu infurmazioni chì tali è tali clienti si preparanu à piantà di utilizà u pruduttu. Parlendu di custruisce un mudellu chì puderia offre qualcosa d'utile à i clienti per mantene, questu ùn pò micca esse fattu sè ùn avete micca una storia di tentativi simili chì finiscinu bè.

Ùn avemu micca una tale storia, cusì avemu decisu cusì.

  1. Custruemu un mudellu chì identifica i prudutti interessanti per ogni cliente.
  2. Ogni mese eseguimu u classificatore è identifichemu potenzialmente i clienti chì lascianu.
  3. Avemu prupostu certi clienti u pruduttu, secondu à u mudellu da u puntu 1, è ricurdate i nostri azzioni.
  4. Dopu uni pochi di mesi, guardemu quale di questi clienti potenzialmente abbandunà è quelli chì sò rimasti. Cusì, formemu una mostra di furmazione.
  5. Formemu u mudellu utilizendu a storia ottenuta in u passu 4.
  6. Opcionalmente, ripetemu a prucedura, rimpiazzà u mudellu da u passu 1 cù u mudellu ottenutu in u passu 5.

Una prova di a qualità di tale ritenzione pò esse fatta da teste A / B regulare - dividimu i clienti chì potenzalmentu partenu in dui gruppi. Offriamu prudutti à unu basatu nantu à u nostru mudellu di retenzioni, è à l'altru ùn offremu nunda. Avemu decisu di furmà un mudellu chì puderia esse utile digià à u puntu 1 di u nostru esempiu.

Vulemu fà a segmentazione u più interpretabile pussibule. Per fà questu, avemu sceltu parechje caratteristiche chì ponu esse facilmente interpretate: u numeru tutale di transacciones, salarii, fattura tutale di u contu, età, sessu. Features da a tavola "Maps" ùn sò micca stati cunsiderati cum'è uninformative, è e caratteristiche di a tavola 3 "Contracts" ùn sò micca stati cunsiderati per via di a cumplessità di u prucessu per evità a fuga di dati trà u settore di validazione è u gruppu di furmazione.

U clustering hè statu realizatu cù mudelli di mistura gaussiana. U criteriu d'infurmazione Akaike ci hà permessu di determinà 2 optima. U primu ottimu currisponde à 1 cluster. U sicondu optimum, menu pronunzianu, currisponde à 80 clusters. Basatu nantu à stu risultatu, pudemu piglià a seguente cunclusione: hè assai difficiuli di dividisce e dati in clusters senza a priori infurmazione data. Per un megliu clustering, avete bisognu di dati chì descrizanu ogni cliente in dettaglio.

Dunque, u prublema di l'apprendimentu tutelatu hè statu cunsideratu per offre à ogni cliente individuale un pruduttu diversu. I seguenti prudutti sò stati cunsiderati: "Depositu à termine", "Carta di creditu", "Overdraft", "Prestitu di cunsumatori", "Prestitu di vittura", "Ipoteca".

I dati includenu un altru tipu di pruduttu: "Contu currente". Ma ùn avemu micca cunsideratu per via di u so cuntenutu pocu infurmazione. Per l'utilizatori chì sò clienti bancari, i.e. ùn hà micca cessatu di utilizà i so prudutti, un mudellu hè statu custruitu per predichendu quale pruduttu puderia esse di interessu per elli. A regressione logistica hè stata scelta cum'è u mudellu, è u valore Lift per i primi 10 percentiles hè stata utilizata cum'è metrica di valutazione di qualità.

A qualità di u mudellu pò esse valutata in a figura.

Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali
I risultati di u mudellu di raccomandazione di u produttu per i clienti

U risultatu

Stu approcciu ci hà purtatu u primu postu in a categuria "AI in Banks" in u RAIF-Challenge 2017 AI Championship.

Cumu avemu previstu churn avvicinendusi cum'è un disastru naturali

Apparentemente, u principale era di avvicinà u prublema da un angulu pocu cunvinziunali è aduprà un metudu chì hè di solitu usatu per altre situazioni.

Ancu s'è un flussu massivu di utilizatori pò esse un disastru naturali per i servizii.

Stu metudu pò esse cunsideratu per qualsiasi altra zona induve hè impurtante di piglià in contu u flussu, micca solu i banche. Per esempiu, l'avemu utilizatu per calculà u nostru propiu flussu - in i rami Siberian è San Petersburgu di Rostelecom.

Cumpagnia "Data Mining Laboratory" "Portale di ricerca "Sputnik"

Source: www.habr.com

Add a comment