Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή

Μερικές φορές, για να λύσετε ένα πρόβλημα, χρειάζεται απλώς να το δείτε από διαφορετική οπτική γωνία. Ακόμα κι αν τα τελευταία 10 χρόνια παρόμοια προβλήματα έχουν λυθεί με τον ίδιο τρόπο με διαφορετικά αποτελέσματα, δεν είναι γεγονός ότι αυτή η μέθοδος είναι η μοναδική.

Υπάρχει ένα τέτοιο θέμα όπως η ανατροπή πελατών. Το πράγμα είναι αναπόφευκτο, γιατί οι πελάτες οποιασδήποτε εταιρείας μπορούν, για πολλούς λόγους, να σταματήσουν να χρησιμοποιούν τα προϊόντα ή τις υπηρεσίες της. Φυσικά, για μια εταιρεία, το churn είναι μια φυσική, αλλά όχι η πιο επιθυμητή ενέργεια, επομένως όλοι προσπαθούν να ελαχιστοποιήσουν αυτήν την ανατροπή. Ακόμα καλύτερα, προβλέψτε την πιθανότητα ανατροπής για μια συγκεκριμένη κατηγορία χρηστών ή έναν συγκεκριμένο χρήστη και προτείνετε κάποια βήματα για να τους διατηρήσετε.

Είναι απαραίτητο να αναλύσετε και να προσπαθήσετε να διατηρήσετε τον πελάτη, εάν είναι δυνατόν, για τουλάχιστον τους ακόλουθους λόγους:

  • Η προσέλκυση νέων πελατών είναι πιο ακριβή από τις διαδικασίες διατήρησης. Για να προσελκύσετε νέους πελάτες, κατά κανόνα, πρέπει να ξοδέψετε κάποια χρήματα (διαφήμιση), ενώ οι υπάρχοντες πελάτες μπορούν να ενεργοποιηθούν με ειδική προσφορά με ειδικούς όρους.
  • Η κατανόηση των λόγων για τους οποίους οι πελάτες φεύγουν είναι το κλειδί για τη βελτίωση των προϊόντων και των υπηρεσιών.

Υπάρχουν τυπικές προσεγγίσεις για την πρόβλεψη της ανατροπής. Αλλά σε ένα από τα πρωταθλήματα AI, αποφασίσαμε να δοκιμάσουμε τη διανομή Weibull για αυτό. Χρησιμοποιείται συχνότερα για ανάλυση επιβίωσης, πρόγνωση καιρού, ανάλυση φυσικών καταστροφών, βιομηχανική μηχανική και παρόμοια. Η κατανομή Weibull είναι μια ειδική συνάρτηση διανομής που παραμετροποιείται από δύο παραμέτρους Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή и Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή.

Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή
Wikipedia

Γενικά, είναι ένα ενδιαφέρον πράγμα, αλλά για την πρόβλεψη εκροών και γενικά στο fintech, δεν χρησιμοποιείται τόσο συχνά. Κάτω από την περικοπή θα σας πούμε πώς εμείς (Εργαστήριο Εξόρυξης Δεδομένων) το κάναμε αυτό, κερδίζοντας ταυτόχρονα το χρυσό στο Πρωτάθλημα Τεχνητής Νοημοσύνης στην κατηγορία «AI in Banks».

Σχετικά με το churn γενικά

Ας καταλάβουμε λίγο τι είναι η απόσυρση πελατών και γιατί είναι τόσο σημαντική. Η πελατειακή βάση είναι σημαντική για μια επιχείρηση. Νέοι πελάτες έρχονται σε αυτή τη βάση, για παράδειγμα, έχοντας μάθει για ένα προϊόν ή μια υπηρεσία από μια διαφήμιση, ζουν για κάποιο χρονικό διάστημα (χρησιμοποιούν ενεργά τα προϊόντα) και μετά από κάποιο χρονικό διάστημα σταματούν να το χρησιμοποιούν. Αυτή η περίοδος ονομάζεται «κύκλος ζωής πελάτη» - ένας όρος που περιγράφει τα στάδια που περνά ένας πελάτης όταν μαθαίνει για ένα προϊόν, παίρνει μια απόφαση αγοράς, πληρώνει, χρησιμοποιεί και γίνεται πιστός καταναλωτής και τελικά σταματά να χρησιμοποιεί το προϊόν. για τον έναν ή τον άλλο λόγο. Αντίστοιχα, το Churn είναι το τελικό στάδιο του κύκλου ζωής του πελάτη, όταν ο πελάτης σταματά να χρησιμοποιεί τις υπηρεσίες, και για μια επιχείρηση αυτό σημαίνει ότι ο πελάτης έχει πάψει να αποφέρει κέρδος ή οποιοδήποτε όφελος.

Κάθε πελάτης τράπεζας είναι ένα συγκεκριμένο άτομο που επιλέγει τη μία ή την άλλη τραπεζική κάρτα ειδικά για τις ανάγκες του. Αν ταξιδεύετε συχνά, μια κάρτα με μίλια θα σας φανεί χρήσιμη. Αγοράζει πολλά - γεια σας, κάρτα επιστροφής μετρητών. Αγοράζει πολλά σε συγκεκριμένα καταστήματα - και υπάρχει ήδη ειδικός πλαστικός συνεργάτης για αυτό. Φυσικά, μερικές φορές μια κάρτα επιλέγεται με βάση το κριτήριο «Φθηνότερη υπηρεσία». Σε γενικές γραμμές, υπάρχουν αρκετές μεταβλητές εδώ.

Και ένα άτομο επιλέγει επίσης την ίδια την τράπεζα - υπάρχει νόημα να επιλέξετε μια κάρτα από μια τράπεζα της οποίας τα υποκαταστήματα βρίσκονται μόνο στη Μόσχα και στην περιοχή, όταν είστε από το Khabarovsk; Ακόμα κι αν μια κάρτα από μια τέτοια τράπεζα είναι τουλάχιστον 2 φορές πιο κερδοφόρα, η παρουσία τραπεζικών υποκαταστημάτων κοντά εξακολουθεί να είναι ένα σημαντικό κριτήριο. Ναι, το 2019 είναι ήδη εδώ και το ψηφιακό είναι το παν μας, αλλά ορισμένα ζητήματα με ορισμένες τράπεζες μπορούν να επιλυθούν μόνο σε ένα υποκατάστημα. Επιπλέον, και πάλι, ένα μέρος του πληθυσμού εμπιστεύεται μια φυσική τράπεζα πολύ περισσότερο από μια εφαρμογή σε smartphone, αυτό πρέπει επίσης να ληφθεί υπόψη.

Ως αποτέλεσμα, ένα άτομο μπορεί να έχει πολλούς λόγους για να αρνηθεί τα τραπεζικά προϊόντα (ή την ίδια την τράπεζα). Άλλαξα δουλειά και το τιμολόγιο της κάρτας άλλαξε από μισθό σε "Για απλούς θνητούς", το οποίο είναι λιγότερο κερδοφόρο. Μετακόμισα σε άλλη πόλη όπου δεν υπάρχουν υποκαταστήματα τράπεζας. Δεν μου άρεσε η αλληλεπίδραση με τον αναρμόδιο χειριστή στο υποκατάστημα. Δηλαδή, μπορεί να υπάρχουν ακόμη περισσότεροι λόγοι για το κλείσιμο ενός λογαριασμού παρά για τη χρήση του προϊόντος.

Και ο πελάτης μπορεί όχι μόνο να εκφράσει ξεκάθαρα την πρόθεσή του - να έρθει στην τράπεζα και να γράψει μια δήλωση, αλλά απλώς να σταματήσει να χρησιμοποιεί τα προϊόντα χωρίς να τερματίσει τη σύμβαση. Αποφασίστηκε η χρήση μηχανικής μάθησης και τεχνητής νοημοσύνης για την κατανόηση τέτοιων προβλημάτων.

Επιπλέον, η απόρριψη πελατών μπορεί να συμβεί σε οποιονδήποτε κλάδο (τηλεπικοινωνίες, πάροχοι Διαδικτύου, ασφαλιστικές εταιρείες, γενικά, όπου υπάρχει πελατειακή βάση και περιοδικές συναλλαγές).

Τι καναμε

Πρώτα απ 'όλα, ήταν απαραίτητο να περιγράψουμε ένα σαφές όριο - από πότε αρχίζουμε να θεωρούμε ότι ο πελάτης έχει φύγει. Από την πλευρά της τράπεζας που μας παρείχε τα δεδομένα για την εργασία μας, η κατάσταση δραστηριότητας του πελάτη ήταν δυαδική - είτε είναι ενεργός είτε όχι. Υπήρχε μια σημαία ACTIVE_FLAG στον πίνακα "Δραστηριότητα", η τιμή της οποίας θα μπορούσε να είναι είτε "0" ή "1" ("Ανενεργό" και "Ενεργό" αντίστοιχα). Και όλα θα ήταν καλά, αλλά ένα άτομο είναι τέτοιο που μπορεί να το χρησιμοποιήσει ενεργά για κάποιο χρονικό διάστημα και στη συνέχεια να πέσει έξω από την ενεργή λίστα για ένα μήνα - αρρώστησε, πήγε σε άλλη χώρα για διακοπές ή ακόμα και πήγε να δοκιμάσει κάρτα από άλλη τράπεζα. Ή ίσως μετά από μια μακρά περίοδο αδράνειας, αρχίστε να χρησιμοποιείτε ξανά τις υπηρεσίες της τράπεζας

Ως εκ τούτου, αποφασίσαμε να ονομάσουμε μια περίοδο αδράνειας μια ορισμένη συνεχή χρονική περίοδο κατά την οποία η σημαία για αυτήν ορίστηκε στο "0".

Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή

Οι πελάτες μετακινούνται από ανενεργούς σε ενεργούς μετά από περιόδους αδράνειας ποικίλης διάρκειας. Έχουμε την ευκαιρία να υπολογίσουμε τον βαθμό της εμπειρικής αξίας «αξιοπιστία περιόδων αδράνειας» - δηλαδή την πιθανότητα ένα άτομο να αρχίσει να χρησιμοποιεί τραπεζικά προϊόντα ξανά μετά από προσωρινή αδράνεια.

Για παράδειγμα, αυτό το γράφημα δείχνει την επανέναρξη της δραστηριότητας (ACTIVE_FLAG=1) των πελατών μετά από αρκετούς μήνες αδράνειας (ACTIVE_FLAG=0).

Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή

Εδώ θα διευκρινίσουμε λίγο το σύνολο δεδομένων με το οποίο ξεκινήσαμε να εργαζόμαστε. Έτσι, η τράπεζα παρείχε συγκεντρωτικά στοιχεία για 19 μήνες στους παρακάτω πίνακες:

  • «Δραστηριότητα» - μηνιαίες συναλλαγές πελατών (μέσω καρτών, διαδικτυακής τραπεζικής και κινητής τραπεζικής), συμπεριλαμβανομένης της μισθοδοσίας και των πληροφοριών για τον κύκλο εργασιών.
  • «Κάρτες» - δεδομένα για όλες τις κάρτες που διαθέτει ο πελάτης, με αναλυτικό χρονοδιάγραμμα τιμολογίων.
  • "Συμφωνίες" - πληροφορίες σχετικά με τις συμφωνίες του πελάτη (τόσο ανοιχτές όσο και κλειστές): δάνεια, καταθέσεις κ.λπ., υποδεικνύοντας τις παραμέτρους του καθενός.
  • "Πελάτες" - ένα σύνολο δημογραφικών δεδομένων (φύλο και ηλικία) και διαθεσιμότητα στοιχείων επικοινωνίας.

Για δουλειά χρειαζόμασταν όλους τους πίνακες εκτός από τον «Χάρτη».

Υπήρχε μια άλλη δυσκολία εδώ - σε αυτά τα δεδομένα η τράπεζα δεν ανέφερε τι είδους δραστηριότητα έλαβε χώρα στις κάρτες. Δηλαδή, μπορούσαμε να καταλάβουμε αν υπήρχαν συναλλαγές ή όχι, αλλά δεν μπορούσαμε πλέον να προσδιορίσουμε το είδος τους. Επομένως, δεν ήταν σαφές εάν ο πελάτης έβγαζε μετρητά, λάμβανε μισθό ή ξόδευε τα χρήματα σε αγορές. Επίσης, δεν είχαμε στοιχεία για τα υπόλοιπα των λογαριασμών, τα οποία θα ήταν χρήσιμα.

Το ίδιο το δείγμα ήταν αμερόληπτο - σε αυτήν την ενότητα, για 19 μήνες, η τράπεζα δεν έκανε καμία προσπάθεια να διατηρήσει πελάτες και να ελαχιστοποιήσει τις εκροές.

Λοιπόν, για περιόδους αδράνειας.

Για να διαμορφωθεί ένας ορισμός της ανατροπής, πρέπει να επιλεγεί μια περίοδος αδράνειας. Για να δημιουργήσετε μια πρόβλεψη ανατροπής σε μια χρονική στιγμή Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή, πρέπει να έχετε ιστορικό πελάτη τουλάχιστον 3 μηνών ανά διαστήματα Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή. Το ιστορικό μας περιορίστηκε στους 19 μήνες, οπότε αποφασίσαμε να πάρουμε μια περίοδο αδράνειας 6 μηνών, εάν υπάρχει. Και για την ελάχιστη περίοδο για μια πρόβλεψη υψηλής ποιότητας, χρειαστήκαμε 3 μήνες. Πήραμε τα στοιχεία για 3 και 6 μήνες εμπειρικά με βάση μια ανάλυση της συμπεριφοράς δεδομένων πελατών.

Διατυπώσαμε τον ορισμό του churn ως εξής: μήνας απόκλισης πελατών Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή Αυτός είναι ο πρώτος μήνας με ACTIVE_FLAG=0, όπου από αυτόν τον μήνα υπάρχουν τουλάχιστον έξι συνεχόμενα μηδενικά στο πεδίο ACTIVE_FLAG, με άλλα λόγια, ο μήνας από τον οποίο ο πελάτης ήταν ανενεργός για 6 μήνες.

Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή
Αριθμός πελατών που έφυγαν

Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή
Αριθμός υπολοίπων πελατών

Πώς υπολογίζεται η ανατροπή;

Σε τέτοιους αγώνες και στην πράξη γενικότερα, η εκροή συχνά προβλέπεται με αυτόν τον τρόπο. Ο πελάτης χρησιμοποιεί προϊόντα και υπηρεσίες σε διαφορετικές χρονικές περιόδους, τα δεδομένα αλληλεπίδρασης μαζί του αντιπροσωπεύονται ως διάνυσμα χαρακτηριστικών σταθερού μήκους n. Τις περισσότερες φορές αυτές οι πληροφορίες περιλαμβάνουν:

  • Δεδομένα που χαρακτηρίζουν τον χρήστη (δημογραφικά δεδομένα, τμήμα μάρκετινγκ).
  • Ιστορικό χρήσης τραπεζικών προϊόντων και υπηρεσιών (πρόκειται για ενέργειες πελατών που συνδέονται πάντα με συγκεκριμένο χρόνο ή περίοδο του διαστήματος που χρειαζόμαστε).
  • Εξωτερικά δεδομένα, εάν ήταν δυνατό να τα αποκτήσετε - για παράδειγμα, κριτικές από κοινωνικά δίκτυα.

Και μετά από αυτό, αντλούν έναν ορισμό του churn, διαφορετικό για κάθε εργασία. Στη συνέχεια χρησιμοποιούν έναν αλγόριθμο μηχανικής μάθησης, ο οποίος προβλέπει την πιθανότητα αποχώρησης ενός πελάτη Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή με βάση ένα διάνυσμα παραγόντων Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή. Για την εκπαίδευση του αλγόριθμου, χρησιμοποιείται ένα από τα γνωστά πλαίσια για την κατασκευή συνόλων δέντρων αποφάσεων, XGBoost, LightGBM, CatBoost ή τροποποιήσεις αυτών.

Ο ίδιος ο αλγόριθμος δεν είναι κακός, αλλά έχει αρκετά σοβαρά μειονεκτήματα όταν πρόκειται για την πρόβλεψη της ανατροπής.

  • Δεν έχει τη λεγόμενη «μνήμη». Η είσοδος του μοντέλου είναι ένας καθορισμένος αριθμός χαρακτηριστικών που αντιστοιχούν στο τρέχον χρονικό σημείο. Για να αποθηκεύσετε πληροφορίες σχετικά με το ιστορικό αλλαγών στις παραμέτρους, είναι απαραίτητο να υπολογιστούν ειδικά χαρακτηριστικά που χαρακτηρίζουν τις αλλαγές στις παραμέτρους με την πάροδο του χρόνου, για παράδειγμα, τον αριθμό ή το ποσό των τραπεζικών συναλλαγών τους τελευταίους 1,2,3, XNUMX, XNUMX μήνες. Αυτή η προσέγγιση μπορεί να αντικατοπτρίζει μόνο εν μέρει τη φύση των προσωρινών αλλαγών.
  • Σταθερός ορίζοντας πρόβλεψης. Το μοντέλο μπορεί να προβλέψει την απόκλιση πελατών μόνο για μια προκαθορισμένη χρονική περίοδο, για παράδειγμα, μια πρόβλεψη ένα μήνα νωρίτερα. Εάν απαιτείται πρόβλεψη για διαφορετική χρονική περίοδο, για παράδειγμα, τρεις μήνες, τότε πρέπει να δημιουργήσετε ξανά το σετ εκπαίδευσης και να επανεκπαιδεύσετε ένα νέο μοντέλο.

Η προσέγγιση μας

Αποφασίσαμε αμέσως ότι δεν θα χρησιμοποιούσαμε τυπικές προσεγγίσεις. Εκτός από εμάς, 497 ακόμη άτομα εγγράφηκαν στο πρωτάθλημα, καθένας από τους οποίους είχε σημαντική εμπειρία πίσω τους. Επομένως, το να προσπαθείς να κάνεις κάτι σύμφωνα με ένα τυπικό σχήμα σε τέτοιες συνθήκες δεν είναι καλή ιδέα.

Και αρχίσαμε να λύνουμε τα προβλήματα που αντιμετωπίζει το μοντέλο δυαδικής ταξινόμησης προβλέποντας την κατανομή πιθανοτήτων των χρόνων απόσυρσης πελατών. Μια παρόμοια προσέγγιση μπορεί να φανεί εδώ, σας επιτρέπει να προβλέψετε την ανατροπή πιο ευέλικτα και να δοκιμάσετε πιο σύνθετες υποθέσεις από ό,τι στην κλασική προσέγγιση. Ως οικογένεια διανομών που μοντελοποιούν τον χρόνο εκροής, επιλέξαμε τη διανομή Weibull για την ευρεία χρήση του στην ανάλυση επιβίωσης. Η συμπεριφορά του πελάτη μπορεί να θεωρηθεί ως ένα είδος επιβίωσης.

Ακολουθούν παραδείγματα κατανομών πυκνότητας πιθανότητας Weibull ανάλογα με τις παραμέτρους Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή и Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή:

Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή

Αυτή είναι η συνάρτηση πυκνότητας πιθανότητας τριών διαφορετικών πελατών που ανατρέπονται με την πάροδο του χρόνου. Ο χρόνος παρουσιάζεται σε μήνες. Με άλλα λόγια, αυτό το γράφημα δείχνει πότε είναι πιο πιθανό ένας πελάτης να αναρριχηθεί τους επόμενους δύο μήνες. Όπως μπορείτε να δείτε, ένας πελάτης με διανομή έχει περισσότερες δυνατότητες να φύγει νωρίτερα από πελάτες με το Weibull(2, 0.5) και το Weibull (3,1) διανομές.

Το αποτέλεσμα είναι ένα μοντέλο που, για κάθε πελάτη, για κάθε
μήνας προβλέπει τις παραμέτρους της κατανομής Weibull, η οποία αντικατοπτρίζει καλύτερα την εμφάνιση της πιθανότητας εκροής με την πάροδο του χρόνου. Με περισσότερες λεπτομέρειες:

  • Τα χαρακτηριστικά-στόχοι στο σετ εκπαίδευσης είναι ο χρόνος που απομένει μέχρι την ανατροπή σε έναν συγκεκριμένο μήνα για έναν συγκεκριμένο πελάτη.
  • Εάν δεν υπάρχει ρυθμός απόσυρσης για έναν πελάτη, υποθέτουμε ότι ο χρόνος απόσυρσης είναι μεγαλύτερος από τον αριθμό των μηνών από τον τρέχοντα μήνα έως το τέλος του ιστορικού που έχουμε.
  • Μοντέλο που χρησιμοποιείται: επαναλαμβανόμενο νευρωνικό δίκτυο με στρώμα LSTM.
  • Ως συνάρτηση απώλειας, χρησιμοποιούμε τη συνάρτηση αρνητικής πιθανότητας καταγραφής για την κατανομή Weibull.

Εδώ είναι τα πλεονεκτήματα αυτής της μεθόδου:

  • Η κατανομή πιθανοτήτων, εκτός από την προφανή δυνατότητα δυαδικής ταξινόμησης, επιτρέπει την ευέλικτη πρόβλεψη διαφόρων γεγονότων, για παράδειγμα, εάν ένας πελάτης θα σταματήσει να χρησιμοποιεί τις υπηρεσίες της τράπεζας εντός 3 μηνών. Επίσης, εάν είναι απαραίτητο, μπορούν να υπολογιστούν κατά μέσο όρο διάφορες μετρήσεις σε αυτήν την κατανομή.
  • Το επαναλαμβανόμενο νευρωνικό δίκτυο LSTM έχει μνήμη και χρησιμοποιεί αποτελεσματικά ολόκληρο το διαθέσιμο ιστορικό. Καθώς η ιστορία επεκτείνεται ή βελτιώνεται, η ακρίβεια αυξάνεται.
  • Η προσέγγιση μπορεί εύκολα να κλιμακωθεί κατά τη διαίρεση των χρονικών περιόδων σε μικρότερες (για παράδειγμα, κατά τη διαίρεση των μηνών σε εβδομάδες).

Αλλά δεν αρκεί να δημιουργήσετε ένα καλό μοντέλο· πρέπει επίσης να αξιολογήσετε σωστά την ποιότητά του.

Πώς αξιολογήθηκε η ποιότητα;

Επιλέξαμε την καμπύλη ανύψωσης ως μέτρηση. Χρησιμοποιείται στις επιχειρήσεις για τέτοιες περιπτώσεις λόγω της σαφούς ερμηνείας του, περιγράφεται καλά εδώ и εδώ. Εάν περιγράψετε το νόημα αυτής της μέτρησης με μία πρόταση, θα ήταν "Πόσες φορές ο αλγόριθμος κάνει την καλύτερη πρόβλεψη στην πρώτη Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή% παρά τυχαία."

Μοντέλα εκπαίδευσης

Οι συνθήκες ανταγωνισμού δεν καθόρισαν μια συγκεκριμένη μέτρηση ποιότητας βάσει της οποίας μπορούν να συγκριθούν διαφορετικά μοντέλα και προσεγγίσεις. Επιπλέον, ο ορισμός του churn μπορεί να είναι διαφορετικός και μπορεί να εξαρτάται από τη δήλωση του προβλήματος, η οποία, με τη σειρά της, καθορίζεται από τους επιχειρηματικούς στόχους. Επομένως, για να καταλάβουμε ποια μέθοδος είναι καλύτερη, εκπαιδεύσαμε δύο μοντέλα:

  1. Μια ευρέως χρησιμοποιούμενη προσέγγιση δυαδικής ταξινόμησης χρησιμοποιώντας έναν αλγόριθμο μηχανικής μάθησης δέντρων αποφάσεων συνόλου (LightGBM);
  2. Μοντέλο Weibull-LSTM

Το δοκιμαστικό σετ αποτελούνταν από 500 προεπιλεγμένους πελάτες που δεν ήταν στο σετ εκπαίδευσης. Οι υπερπαράμετροι επιλέχθηκαν για το μοντέλο χρησιμοποιώντας διασταυρούμενη επικύρωση, κατανεμημένες ανά πελάτη. Τα ίδια σύνολα χαρακτηριστικών χρησιμοποιήθηκαν για την εκπαίδευση κάθε μοντέλου.

Λόγω του γεγονότος ότι το μοντέλο δεν διαθέτει μνήμη, ελήφθησαν ειδικά χαρακτηριστικά για αυτό, που δείχνουν την αναλογία των αλλαγών στις παραμέτρους για ένα μήνα προς τη μέση τιμή για τις παραμέτρους τους τελευταίους τρεις μήνες. Τι χαρακτήρισε το ρυθμό μεταβολής των τιμών κατά την τελευταία περίοδο των τριών μηνών. Χωρίς αυτό, το μοντέλο που βασίζεται στο Random Forest θα βρισκόταν σε μειονεκτική θέση σε σχέση με το Weibull-LSTM.

Γιατί το LSTM με διανομή Weibull είναι καλύτερο από μια προσέγγιση δέντρου αποφάσεων συνόλου

Όλα είναι ξεκάθαρα εδώ σε μερικές μόνο φωτογραφίες.

Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή
Σύγκριση καμπύλης ανύψωσης για τον κλασικό αλγόριθμο και Weibull-LSTM

Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή
Σύγκριση της μέτρησης της καμπύλης ανύψωσης ανά μήνα για τον κλασικό αλγόριθμο και το Weibull-LSTM

Γενικά, ο LSTM υπερτερεί του κλασικού αλγόριθμου σχεδόν σε όλες τις περιπτώσεις.

Πρόβλεψη ανατροπής

Ένα μοντέλο που βασίζεται σε ένα επαναλαμβανόμενο νευρωνικό δίκτυο με κύτταρα LSTM με κατανομή Weibull μπορεί να προβλέψει εκ των προτέρων την ανατροπή, για παράδειγμα, να προβλέψει την ανατροπή πελατών εντός των επόμενων n μηνών. Εξετάστε την περίπτωση για n = 3. Σε αυτήν την περίπτωση, για κάθε μήνα, το νευρωνικό δίκτυο πρέπει να καθορίσει σωστά εάν ο πελάτης θα φύγει, ξεκινώντας από τον επόμενο μήνα και μέχρι τον ένατο μήνα. Με άλλα λόγια, πρέπει να καθορίσει σωστά αν ο πελάτης θα παραμείνει μετά από n μήνες. Αυτό μπορεί να θεωρηθεί μια πρόβλεψη εκ των προτέρων: η πρόβλεψη της στιγμής που ο πελάτης μόλις άρχιζε να σκέφτεται να φύγει.

Ας συγκρίνουμε την καμπύλη ανύψωσης για το Weibull-LSTM 1, 2 και 3 μήνες πριν από την εκροή:

Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή

Έχουμε ήδη γράψει παραπάνω ότι σημαντικές είναι και οι προβλέψεις που γίνονται για πελάτες που δεν είναι πλέον ενεργοί για κάποιο χρονικό διάστημα. Επομένως, εδώ θα προσθέσουμε στο δείγμα τέτοιες περιπτώσεις όταν ο πελάτης που αναχώρησε είναι ήδη ανενεργός για έναν ή δύο μήνες και θα ελέγξουμε ότι η Weibull-LSTM ταξινομεί σωστά τέτοιες περιπτώσεις ως ανατροπή. Δεδομένου ότι τέτοιες περιπτώσεις υπήρχαν στο δείγμα, αναμένουμε ότι το δίκτυο θα τις χειριστεί καλά:

Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή

Διατήρηση των πελατών

Στην πραγματικότητα, αυτό είναι το κύριο πράγμα που μπορεί να γίνει, έχοντας στα χέρια σας πληροφορίες ότι οι τάδε πελάτες ετοιμάζονται να σταματήσουν να χρησιμοποιούν το προϊόν. Μιλώντας για την κατασκευή ενός μοντέλου που θα μπορούσε να προσφέρει κάτι χρήσιμο στους πελάτες προκειμένου να τους διατηρήσουν, αυτό δεν μπορεί να γίνει εάν δεν έχετε ιστορικό παρόμοιων προσπαθειών που θα είχαν καλό τέλος.

Δεν είχαμε τέτοια ιστορία, οπότε το αποφασίσαμε με αυτόν τον τρόπο.

  1. Κατασκευάζουμε ένα μοντέλο που προσδιορίζει ενδιαφέροντα προϊόντα για κάθε πελάτη.
  2. Κάθε μήνα εκτελούμε τον ταξινομητή και εντοπίζουμε πελάτες που ενδέχεται να αποχωρήσουν.
  3. Προσφέρουμε σε ορισμένους πελάτες το προϊόν, σύμφωνα με το μοντέλο από το σημείο 1, και θυμόμαστε τις ενέργειές μας.
  4. Μετά από μερικούς μήνες, εξετάζουμε ποιοι από αυτούς τους πιθανώς αποχωρούντες πελάτες έφυγαν και ποιοι παρέμειναν. Έτσι, σχηματίζουμε ένα δείγμα προπόνησης.
  5. Εκπαιδεύουμε το μοντέλο χρησιμοποιώντας το ιστορικό που λήφθηκε στο βήμα 4.
  6. Προαιρετικά, επαναλαμβάνουμε τη διαδικασία, αντικαθιστώντας το μοντέλο από το βήμα 1 με το μοντέλο που ελήφθη στο βήμα 5.

Ένας έλεγχος της ποιότητας μιας τέτοιας διατήρησης μπορεί να γίνει με τακτικές δοκιμές A/B - χωρίζουμε τους πελάτες που δυνητικά φεύγουν σε δύο ομάδες. Προσφέρουμε προϊόντα στον ένα με βάση το μοντέλο διατήρησης που διαθέτουμε και στον άλλο δεν προσφέρουμε τίποτα. Αποφασίσαμε να εκπαιδεύσουμε ένα μοντέλο που θα μπορούσε να είναι χρήσιμο ήδη στο σημείο 1 του παραδείγματός μας.

Θέλαμε να κάνουμε την τμηματοποίηση όσο το δυνατόν πιο ερμηνεύσιμη. Για να γίνει αυτό, επιλέξαμε πολλά χαρακτηριστικά που θα μπορούσαν να ερμηνευθούν εύκολα: ο συνολικός αριθμός συναλλαγών, οι μισθοί, ο συνολικός κύκλος εργασιών του λογαριασμού, η ηλικία, το φύλο. Τα χαρακτηριστικά από τον πίνακα "Χάρτες" δεν λήφθηκαν υπόψη ως μη ενημερωτικά και τα χαρακτηριστικά από τον πίνακα 3 "Συμβάσεις" δεν ελήφθησαν υπόψη λόγω της πολυπλοκότητας της επεξεργασίας, προκειμένου να αποφευχθεί η διαρροή δεδομένων μεταξύ του συνόλου επικύρωσης και του συνόλου εκπαίδευσης.

Η ομαδοποίηση πραγματοποιήθηκε με τη χρήση μοντέλων μιγμάτων Gauss. Το κριτήριο πληροφοριών Akaike μας επέτρεψε να προσδιορίσουμε 2 βέλτιστα. Το πρώτο βέλτιστο αντιστοιχεί σε 1 σύμπλεγμα. Το δεύτερο βέλτιστο, λιγότερο έντονο, αντιστοιχεί σε 80 συστάδες. Με βάση αυτό το αποτέλεσμα, μπορούμε να καταλήξουμε στο εξής συμπέρασμα: είναι εξαιρετικά δύσκολο να διαιρεθούν τα δεδομένα σε συστάδες χωρίς εκ των προτέρων δεδομένες πληροφορίες. Για καλύτερη ομαδοποίηση, χρειάζεστε δεδομένα που περιγράφουν λεπτομερώς κάθε πελάτη.

Ως εκ τούτου, εξετάστηκε το πρόβλημα της εποπτευόμενης μάθησης προκειμένου να προσφερθεί σε κάθε πελάτη ένα διαφορετικό προϊόν. Εξετάστηκαν τα ακόλουθα προϊόντα: «Προθεσμιακή κατάθεση», «Πιστωτική κάρτα», «Υπερανάληψη», «Καταναλωτικό δάνειο», «Δάνειο αυτοκινήτου», «Υποθήκη».

Τα δεδομένα περιελάμβαναν έναν ακόμη τύπο προϊόντος: "Τρέχον λογαριασμό". Αλλά δεν το λάβαμε υπόψη μας λόγω του χαμηλού περιεχομένου πληροφοριών. Για χρήστες που είναι πελάτες τραπεζών, π.χ. δεν σταμάτησε να χρησιμοποιεί τα προϊόντα της, κατασκευάστηκε ένα μοντέλο για να προβλέψει ποιο προϊόν μπορεί να τους ενδιαφέρει. Ως μοντέλο επιλέχθηκε η λογιστική παλινδρόμηση και η τιμή ανύψωσης για τα πρώτα 10 εκατοστημόρια χρησιμοποιήθηκε ως μέτρηση αξιολόγησης ποιότητας.

Η ποιότητα του μοντέλου μπορεί να εκτιμηθεί στο σχήμα.

Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή
Αποτελέσματα μοντέλου προτάσεων προϊόντων για πελάτες

Σύνολο

Αυτή η προσέγγιση μας έφερε την πρώτη θέση στην κατηγορία «AI in Banks» στο Πρωτάθλημα AI RAIF-Challenge 2017.

Πώς προβλέψαμε την ανατροπή προσεγγίζοντάς την σαν φυσική καταστροφή

Προφανώς, το κύριο πράγμα ήταν να προσεγγίσουμε το πρόβλημα από μια αντισυμβατική οπτική γωνία και να χρησιμοποιήσουμε μια μέθοδο που χρησιμοποιείται συνήθως για άλλες καταστάσεις.

Αν και μια μαζική εκροή χρηστών μπορεί κάλλιστα να είναι μια φυσική καταστροφή για τις υπηρεσίες.

Αυτή η μέθοδος μπορεί να ληφθεί υπόψη για οποιονδήποτε άλλο τομέα όπου είναι σημαντικό να ληφθούν υπόψη οι εκροές, όχι μόνο οι τράπεζες. Για παράδειγμα, το χρησιμοποιήσαμε για να υπολογίσουμε τη δική μας εκροή - στα υποκαταστήματα της Rostelecom στη Σιβηρία και την Αγία Πετρούπολη.

"Εργαστήριο εξόρυξης δεδομένων" εταιρεία "Αναζήτηση πύλης "Sputnik"

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο