Заримдаа аливаа асуудлыг шийдэхийн тулд өөр өнцгөөс харах хэрэгтэй болдог. Сүүлийн 10 жилийн хугацаанд ижил төстэй асуудлуудыг өөр өөр үр дагавартай ижил аргаар шийдэж байсан ч энэ арга нь цорын ганц арга байсан нь үнэн биш юм.
Үйлчлүүлэгчийн эргэлзэл гэх мэт сэдэв байдаг. Аливаа компанийн үйлчлүүлэгчид олон шалтгааны улмаас бүтээгдэхүүн, үйлчилгээгээ ашиглахаа больдог тул энэ нь зайлшгүй юм. Мэдээжийн хэрэг, компанийн хувьд гацах нь байгалийн үзэгдэл боловч хамгийн хүсээгүй үйлдэл биш тул хүн бүр энэ алдагдлыг багасгахыг хичээдэг. Хэрэглэгчдийн тодорхой ангилал эсвэл тодорхой хэрэглэгчийн хувьд гацах магадлалыг урьдчилан таамаглаж, тэдгээрийг хадгалах зарим алхмуудыг санал болго.
Боломжтой бол дор хаяж дараах шалтгааны улмаас үйлчлүүлэгчээ авч үлдэхийн тулд дүн шинжилгээ хийж, оролдох шаардлагатай.
- шинэ үйлчлүүлэгчдийг татах нь хадгалах журамаас илүү үнэтэй байдаг. Шинэ үйлчлүүлэгчдийг татахын тулд дүрмээр бол та бага зэрэг мөнгө (зар сурталчилгаа) зарцуулах хэрэгтэй бөгөөд одоо байгаа үйлчлүүлэгчдийг тусгай нөхцөл бүхий тусгай саналаар идэвхжүүлж болно;
- Үйлчлүүлэгчид яагаад явах болсон шалтгааныг ойлгох нь бүтээгдэхүүн, үйлчилгээг сайжруулах түлхүүр юм.
Хагаралтыг урьдчилан таамаглах стандарт аргууд байдаг. Гэхдээ хиймэл оюун ухааны аварга шалгаруулах тэмцээнд бид Weibull түгээлтийг туршиж үзэхээр шийдсэн. Энэ нь ихэвчлэн амьд үлдэх чадварын шинжилгээ, цаг агаарын урьдчилсан мэдээ, байгалийн гамшгийн шинжилгээ, үйлдвэрлэлийн инженерчлэл гэх мэт ажилд ашиглагддаг. Weibull тархалт нь хоёр параметрээр тодорхойлогдсон хуваарилалтын тусгай функц юм
и
.
Википедиа
Ерөнхийдөө энэ нь сонирхолтой зүйл боловч гадагшлах урсгалыг урьдчилан таамаглах, ерөнхийдөө финтекийн хувьд үүнийг тийм ч их ашигладаггүй. Хиймэл оюун ухааны аварга шалгаруулах тэмцээнд "Банкны хиймэл оюун ухаан" төрөлд нэгэн зэрэг алтан медаль хүртсэн бид (Өгөгдөл олборлолтын лаборатори) үүнийг хэрхэн хийснийхээ доор бид танд хэлэх болно.
Ерөнхийдөө гацах тухай
Хэрэглэгчийн алдагдал гэж юу болох, яагаад ийм чухал болохыг бага зэрэг ойлгоцгооё. Бизнесийн хувьд хэрэглэгчийн бааз чухал. Энэ баазад шинэ үйлчлүүлэгчид ирдэг, жишээлбэл, зар сурталчилгаанаас бүтээгдэхүүн, үйлчилгээний талаар олж мэдээд хэсэг хугацаанд амьдардаг (бүтээгдэхүүнийг идэвхтэй ашиглах), хэсэг хугацааны дараа үүнийг ашиглахаа больсон. Энэ үеийг "Хэрэглэгчийн амьдралын мөчлөг" гэж нэрлэдэг бөгөөд энэ нь хэрэглэгч тухайн бүтээгдэхүүний талаар мэдэж авах, худалдан авах шийдвэр гаргах, төлбөр төлөх, ашиглах, үнэнч хэрэглэгч болох, эцсийн эцэст тухайн бүтээгдэхүүнийг хэрэглэхээ больсон үе шатуудыг тодорхойлдог нэр томъёо юм. нэг шалтгааны улмаас. Иймээс гацах нь үйлчлүүлэгч үйлчилгээгээ ашиглахаа больсон үйлчлүүлэгчийн амьдралын мөчлөгийн эцсийн шат бөгөөд бизнесийн хувьд энэ нь үйлчлүүлэгч ашиг эсвэл ямар нэгэн ашиг авчрахаа больсон гэсэн үг юм.
Банкны үйлчлүүлэгч бүр өөрийн хэрэгцээнд зориулан нэг буюу өөр банкны картыг сонгосон тодорхой хүн юм. Хэрэв та байнга аялдаг бол миль бүхий карт хэрэг болно. Маш их худалдаж авдаг - сайн уу, cashback карт. Тэр тодорхой дэлгүүрүүдэд маш их зүйл худалдаж авдаг бөгөөд үүнд зориулж тусгай түнш хуванцар байдаг. Мэдээжийн хэрэг, заримдаа картыг "Хамгийн хямд үйлчилгээ" гэсэн шалгуураар сонгодог. Ерөнхийдөө энд хангалттай хувьсагч байдаг.
Мөн хүн банкаа өөрөө сонгодог - Хабаровскоос ирсэн үед салбар нь зөвхөн Москва болон бүс нутагт байдаг банкны картыг сонгох нь ямар учиртай вэ? Ийм банкны карт дор хаяж 2 дахин ашигтай байсан ч ойролцоох банкны салбар байх нь чухал шалгуур хэвээр байна. Тийм ээ, 2019 он аль хэдийн ирлээ, дижитал бол бидний бүх зүйл, гэхдээ зарим банкуудтай холбоотой хэд хэдэн асуудлыг зөвхөн салбараар шийдэх боломжтой. Түүнчлэн, хүн амын зарим хэсэг нь ухаалаг гар утасны програмаас илүү бодит банкинд итгэдэг тул үүнийг бас анхаарч үзэх хэрэгтэй.
Үүний үр дүнд хүн банкны бүтээгдэхүүнээс (эсвэл банк өөрөө) татгалзах олон шалтгаантай байж болно. Би ажлын байраа сольж, картын тариф нь цалингаас “Эмхэг хүмүүст зориулсан” болж өөрчлөгдсөн нь ашиг багатай. Би банкны салбар байхгүй өөр хот руу нүүсэн. Салбарын мэргэжлийн бус оператортой харилцах нь надад таалагдаагүй. Өөрөөр хэлбэл, бүтээгдэхүүнийг ашиглахаас илүүтэйгээр данс хаах шалтгаан байж болно.
Үйлчлүүлэгч нь зөвхөн өөрийн хүсэл зоригийг тодорхой илэрхийлж чадахгүй - банкинд ирээд мэдэгдэл бичихээс гадна гэрээг цуцлахгүйгээр бүтээгдэхүүнээ ашиглахаа боль. Иймэрхүү асуудлыг ойлгохын тулд машин сургалт, AI ашиглахаар шийдсэн.
Түүгээр ч зогсохгүй аль ч салбарт (цахилгаан холбоо, интернет үйлчилгээ үзүүлэгч, даатгалын компаниуд, ерөнхийдөө харилцагчийн бааз, үе үе гүйлгээ хийдэг газар) үйлчлүүлэгчийн хомсдол үүсч болно.
Бид юу хийсэн бэ
Юуны өмнө тодорхой хил хязгаарыг тодорхойлох шаардлагатай байсан - бид хэдэн цагаас хойш үйлчлүүлэгчийг орхисон гэж үзэж эхэлдэг. Бидний ажлын талаархи мэдээллийг бидэнд өгсөн банкны үүднээс авч үзвэл үйлчлүүлэгчийн үйл ажиллагааны төлөв хоёртын шинж чанартай байсан - тэр идэвхтэй эсвэл идэвхгүй байна. "Үйл ажиллагаа" хүснэгтэд ACTIVE_FLAG туг байсан бөгөөд түүний утга нь "0" эсвэл "1" байж болно ("Идэвхгүй" ба "Идэвхтэй"). Бүх зүйл сайхан байх болно, гэхдээ хүн үүнийг хэсэг хугацаанд идэвхтэй ашиглаж, дараа нь нэг сарын турш идэвхтэй жагсаалтаас унасан - тэр өвдөж, амралтаараа өөр улс руу явсан, эсвэл бүр туршилт хийхээр явсан. өөр банкны карт. Эсвэл удаан хугацаанд идэвхгүй байсны дараа банкны үйлчилгээг дахин ашиглаж эхлээрэй
Тиймээс бид идэвхгүй байх үеийг тодорхой тасралтгүй хугацаа гэж нэрлэхээр шийдсэн бөгөөд энэ хугацаанд туг нь "0" байна.

Үйлчлүүлэгчид янз бүрийн урттай идэвхгүй хугацааны дараа идэвхгүй байдлаас идэвхтэй рүү шилждэг. "Идэвхгүй байх үеийн найдвартай байдал" -ын эмпирик үнэ цэнийг, өөрөөр хэлбэл тухайн хүн түр зуур идэвхгүй болсны дараа дахин банкны бүтээгдэхүүнийг ашиглаж эхлэх магадлалыг тооцоолох боломж бидэнд бий.
Жишээлбэл, энэ график нь хэдэн сар идэвхгүй байсны дараа (ACTIVE_FLAG=1) үйлчлүүлэгчдийн үйл ажиллагаа сэргэж байгааг (ACTIVE_FLAG=0) харуулж байна.

Энд бид ажиллаж эхэлсэн мэдээллийн багцаа бага зэрэг тодруулах болно. Тиймээс банк 19 сарын нэгдсэн мэдээллийг дараах хүснэгтэд үзүүлэв.
- "Үйл ажиллагаа" - хэрэглэгчийн сарын гүйлгээ (картаар, интернет банк, мобайл банкинд), цалингийн жагсаалт, эргэлтийн талаархи мэдээлэл.
- "Карт" - тарифын нарийвчилсан хуваарь бүхий үйлчлүүлэгчийн бүх картуудын талаархи мэдээлэл.
- "Гэрээ" - үйлчлүүлэгчийн гэрээний талаархи мэдээлэл (нээлттэй ба хаалттай): зээл, хадгаламж гэх мэт, тус бүрийн параметрүүдийг харуулсан.
- "Хэрэглэгчид" - хүн ам зүйн мэдээлэл (хүйс, нас), холбоо барих мэдээлэл авах боломжтой.
Ажлын хувьд бидэнд "Газрын зураг" -аас бусад бүх хүснэгт хэрэгтэй байсан.
Энд бас нэг бэрхшээл байсан - энэ өгөгдөлд банк картууд дээр ямар төрлийн үйл ажиллагаа явагдсаныг заагаагүй болно. Өөрөөр хэлбэл, бид гүйлгээ байгаа эсэхийг ойлгох боломжтой байсан ч тэдгээрийн төрлийг тодорхойлох боломжгүй болсон. Тиймээс үйлчлүүлэгч бэлэн мөнгө авч байна уу, цалин авч байна уу, худалдан авалтад зарцуулж байна уу гэдэг нь тодорхойгүй байсан. Бидэнд дансны үлдэгдэлтэй холбоотой мэдээлэл байхгүй байсан бөгөөд энэ нь ашигтай байсан.
Түүвэр нь өөрөө шударга бус байсан - энэ түүврийн дагуу 19 сарын хугацаанд банк харилцагчдыг хадгалах, гадагшлах урсгалыг багасгах оролдлого хийгээгүй.
Тиймээс, идэвхгүй байх үеийн тухай.
Хагарлын тодорхойлолтыг боловсруулахын тулд идэвхгүй байх хугацааг сонгох шаардлагатай. Хэзээ нэгэн цагт гацах прогнозыг бий болгох
, та интервалаар дор хаяж 3 сарын хэрэглэгчийн түүхтэй байх ёстой
. Бидний түүх 19 сараар хязгаарлагдаж байсан тул хэрэв боломжтой бол 6 сар идэвхгүй байх хугацааг авахаар шийдсэн. Өндөр чанартай урьдчилсан мэдээ гаргахын тулд бид 3 сар зарцуулсан. Бид хэрэглэгчийн өгөгдлийн зан үйлийн дүн шинжилгээнд үндэслэн 3 ба 6 сарын тоо баримтыг эмпирик байдлаар авсан.
Бид алдагдлыг тодорхойлох тодорхойлолтыг дараах байдлаар томъёолсон: хэрэглэгчийн алдагдсан сар
энэ нь ИДЭВХИЙН_ТУГ=0-тэй эхний сар бөгөөд энэ сараас эхлэн ИДЭВХИЙН_ТУГ талбарт дор хаяж 6 дараалсан тэг байна, өөрөөр хэлбэл үйлчлүүлэгч XNUMX сарын турш идэвхгүй байсан сар.

Гарсан үйлчлүүлэгчдийн тоо

Үлдсэн үйлчлүүлэгчдийн тоо
Хагарлыг хэрхэн тооцдог вэ?
Ийм тэмцээнд, ерөнхийдөө практикт гадагшлах урсгалыг ийм байдлаар урьдчилан таамаглаж байна. Үйлчлүүлэгч нь бүтээгдэхүүн, үйлчилгээг өөр өөр хугацаанд ашигладаг бөгөөд түүнтэй харилцах мэдээллийг тогтмол урттай n-ийн шинж чанарын вектор хэлбэрээр илэрхийлдэг. Ихэнхдээ энэ мэдээлэлд дараахь зүйлс орно.
- Хэрэглэгчийг тодорхойлсон өгөгдөл (хүн ам зүйн мэдээлэл, маркетингийн сегмент).
- Банкны бүтээгдэхүүн, үйлчилгээг ашигласан түүх (эдгээр нь бидэнд хэрэгтэй интервалын тодорхой цаг хугацаа эсвэл үетэй үргэлж холбоотой байдаг үйлчлүүлэгчийн үйлдэл юм).
- Гадны мэдээлэл, хэрэв үүнийг олж авах боломжтой бол - жишээлбэл, нийгмийн сүлжээн дэх тоймууд.
Үүний дараа тэд ажил бүрийн хувьд өөр өөр churn гэсэн тодорхойлолтыг гаргаж авдаг. Дараа нь тэд үйлчлүүлэгчийг орхих магадлалыг урьдчилан таамаглах машин сургалтын алгоритмыг ашигладаг
хүчин зүйлийн вектор дээр үндэслэсэн
. Алгоритмыг сургахын тулд шийдвэрийн модны чуулга бий болгох алдартай хүрээний нэгийг ашигладаг. , , эсвэл тэдгээрийн өөрчлөлт.
Алгоритм нь өөрөө муу биш боловч алдагдлыг урьдчилан таамаглахад хэд хэдэн ноцтой сул талуудтай байдаг.
- Түүнд "санах ой" гэж байдаггүй.. Загварын оролт нь тухайн цаг хугацааны хувьд тохирох тодорхой тооны шинж чанарууд юм. Параметрүүдийн өөрчлөлтийн түүхийн талаархи мэдээллийг хадгалахын тулд параметрүүдийн цаг хугацааны өөрчлөлтийг тодорхойлдог тусгай шинж чанаруудыг тооцоолох шаардлагатай, жишээлбэл, сүүлийн 1,2,3, XNUMX, XNUMX сарын хугацаанд хийсэн банкны гүйлгээний тоо, хэмжээ. Энэ хандлага нь түр зуурын өөрчлөлтийн шинж чанарыг зөвхөн хэсэгчлэн тусгаж чадна.
- Тогтмол урьдчилан таамаглах давхрага. Загвар нь зөвхөн урьдчилан тодорхойлсон хугацаанд, тухайлбал, нэг сарын өмнө үйлчлүүлэгчийн алдагдлыг урьдчилан таамаглах боломжтой. Хэрэв урьдчилсан мэдээг өөр хугацаанд, жишээлбэл, гурван сарын хугацаанд хийх шаардлагатай бол сургалтын багцыг сэргээж, шинэ загварыг дахин сургах хэрэгтэй.
Бидний хандлага
Бид стандарт аргыг ашиглахгүй гэж тэр даруй шийдсэн. Манайхаас гадна 497 хүн аваргын төлөө бүртгүүлсэн бөгөөд тус бүр ардаа багагүй туршлагатай байсан. Тиймээс ийм нөхцөлд стандарт схемийн дагуу ямар нэгэн зүйл хийхийг оролдох нь тийм ч сайн санаа биш юм.
Мөн бид хоёртын ангиллын загварт тулгарч буй асуудлуудыг хэрэглэгчийн гацах хугацааны магадлалын тархалтыг урьдчилан таамаглах замаар шийдэж эхэлсэн. Үүнтэй төстэй арга барилыг харж болно , энэ нь сонгодог аргаас илүү уян хатан таамаглаж, илүү төвөгтэй таамаглалыг шалгах боломжийг танд олгоно. Гарах хугацааг загварчилсан түгээлтийн гэр бүлийн хувьд бид хуваарилалтыг сонгосон эсэн мэнд үлдэх шинжилгээнд өргөнөөр ашиглахын тулд. Үйлчлүүлэгчийн зан авирыг нэг төрлийн амьд үлдэх гэж үзэж болно.
Параметрээс хамааран Weibull магадлалын нягтын тархалтын жишээг энд үзүүлэв
и
:

Энэ нь гурван өөр хэрэглэгчийн цаг хугацааны явцад гацах магадлалын нягтын функц юм. Цагийг сараар харуулав. Өөрөөр хэлбэл, энэ график нь үйлчлүүлэгч ойрын хоёр сард ямар үед гацах магадлал өндөр байгааг харуулж байна.Таны харж байгаагаар түгээлттэй үйлчлүүлэгч нь Weibull(2, 0.5) болон Weibull-тай үйлчлүүлэгчдээс илүү эрт явах боломжтой байдаг. (3,1) хуваарилалт.
Үр дүн нь үйлчлүүлэгч бүрт тохирсон загвар юм
сар нь Вейбуллийн тархалтын параметрүүдийг урьдчилан таамаглаж байгаа бөгөөд энэ нь цаг хугацааны явцад гадагшлах магадлалыг хамгийн сайн илэрхийлдэг. Илүү дэлгэрэнгүй:
- Сургалтын багцын зорилтот шинж чанарууд нь тодорхой үйлчлүүлэгчийн хувьд тодорхой сард дуусах хүртэл үлдсэн хугацаа юм.
- Үйлчлүүлэгчийн гацалтын хувь байхгүй бол бид гацаах хугацаа нь тухайн сараас бидэнд байгаа түүхийн төгсгөл хүртэлх сарын тооноос их байна гэж бид үздэг.
- Ашигласан загвар: LSTM давхаргатай давтагдах мэдрэлийн сүлжээ.
- Алдагдлын функцийн хувьд бид Weibull тархалтын сөрөг лог-магадлалын функцийг ашигладаг.
Энэ аргын давуу талууд энд байна:
- Магадлалын хуваарилалт нь хоёртын ангиллын тодорхой боломжоос гадна янз бүрийн үйл явдлыг уян хатан таамаглах боломжийг олгодог, тухайлбал, үйлчлүүлэгч 3 сарын дотор банкны үйлчилгээг ашиглахаа болих эсэх. Мөн шаардлагатай бол янз бүрийн хэмжигдэхүүнийг энэ хуваарилалтаар дундажлаж болно.
- LSTM давтагдах мэдрэлийн сүлжээ нь санах ойтой бөгөөд боломжтой бүх түүхийг үр дүнтэй ашигладаг. Түүхийг өргөжүүлэх эсвэл боловсронгуй болгох тусам нарийвчлал нэмэгддэг.
- Хугацаа багасч (жишээлбэл, сарыг долоо хоног болгон хуваах үед) энэ аргыг хялбархан томруулж болно.
Гэхдээ сайн загвар гаргахад хангалттай биш, мөн чанарыг нь зөв үнэлэх хэрэгтэй.
Чанарыг хэрхэн үнэлэв?
Бид өргөлтийн муруйг хэмжигдэхүүн болгон сонгосон. Үүнийг тодорхой тайлбарласны улмаас бизнест ийм тохиолдолд ашигладаг, үүнийг маш сайн тайлбарласан байдаг и . Хэрэв та энэ хэмжүүрийн утгыг нэг өгүүлбэрээр тайлбарлавал "Алгоритм эхний үед хэдэн удаа хамгийн сайн таамаглал дэвшүүлдэг вэ?
санамсаргүй байдлаар%."
Сургалтын загварууд
Тэмцээний нөхцөл нь янз бүрийн загвар, арга барилыг харьцуулах чанарын тодорхой хэмжүүрийг тогтоогоогүй байна. Түүгээр ч зогсохгүй, алдагдлыг тодорхойлох нь өөр байж болох бөгөөд энэ нь эргээд бизнесийн зорилгоос тодорхойлогддог асуудлын мэдэгдлээс хамаарна. Тиймээс аль аргыг илүү сайн ойлгохын тулд бид хоёр загварыг сургасан.
- Шийдвэрлэх модны машин сургалтын алгоритмыг ашиглан түгээмэл хэрэглэгддэг хоёртын ангиллын арга ();
- Weibull-LSTM загвар
Туршилтын багц нь сургалтын багцад байхгүй, урьдчилан сонгогдсон 500 үйлчлүүлэгчээс бүрдсэн. Загварын хувьд хөндлөн баталгаажуулалтыг ашиглан гипер-параметрүүдийг сонгосон бөгөөд үйлчлүүлэгчээр задалсан. Загвар бүрийг сургахдаа ижил шинж чанаруудыг ашигласан.
Загвар нь санах ойгүй тул нэг сарын параметрийн өөрчлөлтийн сүүлийн гурван сарын үзүүлэлтүүдийн дундаж утгатай харьцуулсан харьцааг харуулсан тусгай функцуудыг авсан. Сүүлийн гурван сарын хугацаанд үнэ цэнийн өөрчлөлтийн хурдыг юу тодорхойлсон бэ. Үүнгүйгээр санамсаргүй ойд суурилсан загвар нь Weibull-LSTM-тэй харьцуулахад сул тал байх болно.
Weibull түгээлттэй LSTM яагаад чуулга шийдвэрийн модны арга барилаас илүү дээр вэ?
Энд хэдхэн зургаар бүх зүйл тодорхой харагдаж байна.

Сонгодог алгоритм ба Weibull-LSTM-ийн өргөлтийн муруйг харьцуулах

Сонгодог алгоритм ба Weibull-LSTM-ийн Өргөх муруй хэмжигдэхүүнийг сараар харьцуулах
Ерөнхийдөө LSTM нь бараг бүх тохиолдолд сонгодог алгоритмаас давуу юм.
Хагарлын таамаглал
Weibull тархалттай LSTM эсүүдтэй давтагдах мэдрэлийн сүлжээнд суурилсан загвар нь жишээлбэл, дараагийн n сарын дотор хэрэглэгчийн алдагдлыг урьдчилан таамаглах боломжтой. n = 3-ын тохиолдлыг авч үзье. Энэ тохиолдолд сар бүрийн хувьд мэдрэлийн сүлжээ нь дараагийн сараас эхлэн n-р сар хүртэл үйлчлүүлэгч явах эсэхийг зөв тодорхойлох ёстой. Өөрөөр хэлбэл, n сарын дараа үйлчлүүлэгч үлдэх эсэхийг зөв тодорхойлох ёстой. Үүнийг урьдчилан таамагласан гэж үзэж болно: үйлчлүүлэгч явах талаар дөнгөж бодож эхэлсэн мөчийг урьдчилан таамаглах.
Weibull-LSTM 1, 2, 3 сарын урсац гарахаас өмнөх Өргөх муруйг харьцуулж үзье:

Хэсэг хугацаанд идэвхгүй болсон үйлчлүүлэгчдэд зориулсан урьдчилсан мэдээ бас чухал гэдгийг бид дээр бичсэн. Тиймээс бид эндээс явсан үйлчлүүлэгч нэг эсвэл хоёр сарын турш идэвхгүй байсан тохиолдлуудыг жишээ болгон нэмж, Weibull-LSTM ийм тохиолдлыг гацсан гэж зөв ангилсан эсэхийг шалгах болно. Түүвэрт ийм тохиолдлууд байсан тул бид сүлжээг сайн зохицуулна гэж найдаж байна:

Хэрэглэгчийг хадгалах
Үнэндээ ийм үйлчлүүлэгчид бүтээгдэхүүнээ хэрэглэхээ болихоор бэлдэж байна гэсэн мэдээллийг гартаа авснаар хийж болох гол зүйл бол энэ юм. Үйлчлүүлэгчдийг хадгалахын тулд тэдэнд хэрэгтэй зүйлийг санал болгож чадах загвар бүтээх тухай ярихад, хэрэв танд сайнаар дуусах үүнтэй төстэй оролдлогуудын түүх байхгүй бол үүнийг хийх боломжгүй юм.
Бидэнд ийм түүх байгаагүй, тиймээс бид үүнийг ингэж шийдсэн.
- Үйлчлүүлэгч бүрт сонирхолтой бүтээгдэхүүнийг тодорхойлсон загвар бүтээж байна.
- Бид сар бүр ангилагч ажиллуулж, орхиж болзошгүй үйлчлүүлэгчдийг тодорхойлдог.
- Бид зарим үйлчлүүлэгчдэд 1-р цэгийн загварт нийцүүлэн бүтээгдэхүүнийг санал болгож, бидний үйлдлийг санаж байна.
- Хэдэн сарын дараа бид эдгээр орхиж болзошгүй үйлчлүүлэгчдийн аль нь орхиж, аль нь үлдсэнийг харна. Тиймээс бид сургалтын дээжийг бүрдүүлдэг.
- Бид 4-р алхам дээр олж авсан түүхийг ашиглан загварыг сургадаг.
- Сонголтоор бид процедурыг давтаж, 1-р алхамаас авсан загварыг 5-р алхам дээр авсан загвараар солино.
Ийм хадгалалтын чанарын шалгалтыг тогтмол A/B тестээр хийж болно - бид орхиж болзошгүй үйлчлүүлэгчдийг хоёр бүлэгт хуваадаг. Бид нэгд нь хадгалах загвартаа үндэслэн бүтээгдэхүүн санал болгодог бол нөгөөд нь юу ч санал болгодоггүй. Бид жишээнийхээ 1-р цэг дээр хэрэг болохуйц загварыг сургахаар шийдсэн.
Бид сегментчиллийг аль болох тайлбарлах боломжтой болгохыг хүссэн. Үүнийг хийхийн тулд бид хялбархан тайлбарлаж болох хэд хэдэн шинж чанарыг сонгосон: нийт гүйлгээний тоо, цалин, дансны нийт эргэлт, нас, хүйс. Баталгаажуулалтын багц болон сургалтын багц хооронд өгөгдөл алдагдахаас зайлсхийхийн тулд "Газрын зураг" хүснэгтийн шинж чанаруудыг мэдээлэлгүй гэж үзээгүй бөгөөд "Гэрээ" 3-р хүснэгтийн онцлогуудыг боловсруулалтын нарийн төвөгтэй байдлаас шалтгаалан тооцсонгүй.
Кластерийг Гауссын хольцын загварыг ашиглан гүйцэтгэсэн. Akaike мэдээллийн шалгуур нь 2 оновчтойг тодорхойлох боломжийг бидэнд олгосон. Эхний оновчтой нь 1 кластертай тохирч байна. Хоёрдахь оновчтой, бага тод томруун нь 80 кластертай тохирч байна. Энэ үр дүнд үндэслэн бид дараах дүгнэлтийг хийж болно: урьдчилсан мэдээлэлгүйгээр өгөгдлийг кластер болгон хуваах нь маш хэцүү байдаг. Илүү сайн кластер хийхийн тулд үйлчлүүлэгч бүрийг нарийвчлан тодорхойлсон өгөгдөл хэрэгтэй.
Тиймээс үйлчлүүлэгч бүрт өөр өөр бүтээгдэхүүн санал болгохын тулд хяналттай сургалтын асуудлыг авч үзсэн. “Хугацаатай барьцаа”, “Зээлийн карт”, “Овердрафт”, “Хэрэглээний зээл”, “Автомашины зээл”, “Ипотекийн зээл” гэсэн бүтээгдэхүүнүүдийг авч үзсэн.
Мэдээлэлд өөр нэг төрлийн бүтээгдэхүүн багтсан: "Харилцаа данс". Гэхдээ мэдээлэл багатай учраас бид авч үзээгүй. Банкны үйлчлүүлэгч болох хэрэглэгчдийн хувьд, i.e. бүтээгдэхүүнээ ашиглахаа больсонгүй, ямар бүтээгдэхүүн тэдний сонирхлыг татахыг урьдчилан таамаглах загвар бүтээжээ. Логистик регрессийг загвар болгон сонгосон бөгөөд чанарын үнэлгээний хэмжигдэхүүн болгон эхний 10 хувийн өргөлтийн утгыг ашигласан.
Загварын чанарыг зураг дээр үнэлж болно.

Хэрэглэгчдэд зориулсан бүтээгдэхүүний зөвлөмжийн загварын үр дүн
Үр дүн
Энэхүү арга барил нь RAIF-Challenge 2017 AI аварга шалгаруулах тэмцээний "Банк дахь AI" төрөлд нэгдүгээр байрыг авчирсан.

Хамгийн гол нь асуудалд уламжлалт бус өнцгөөс хандаж, бусад нөхцөл байдалд ихэвчлэн ашигладаг аргыг ашиглах явдал байсан бололтой.
Хэдийгээр хэрэглэгчдийн асар их урсгал нь үйлчилгээний хувьд байгалийн гамшиг болж магадгүй юм.
Энэ аргыг зөвхөн банкнаас гадна гадагшлах урсгалыг харгалзан үзэх шаардлагатай бусад аль ч хэсэгт авч үзэх боломжтой. Жишээлбэл, бид үүнийг өөрийн гадагш урсгалыг тооцоолоход ашигласан - Ростелекомын Сибирь, Санкт-Петербург дахь салбаруудад.
"Data Mining Laboratory" компани "Sputnik хайлтын портал"
Эх сурвалж: www.habr.com
