Big data big billing: telekomda BigData haqida

2008 yilda BigData yangi atama va moda tendentsiyasi edi. 2019 yilda BigData savdo ob'ekti, foyda manbai va yangi veksellar uchun sababdir.

O'tgan yilning kuzida Rossiya hukumati katta ma'lumotlarni tartibga solish bo'yicha qonun loyihasini ishlab chiqdi. Ma'lumotlardan odamlarni aniqlash taqiqlanadi, ammo buni federal organlarning iltimosiga binoan qilishga ruxsat beriladi. BigData-ni uchinchi shaxslar uchun qayta ishlash - faqat Roskomnadzorni xabardor qilgandan keyin. 100 mingdan ortiq tarmoq manziliga ega kompaniyalar qonun ostida. Va, albatta, registrlarsiz - ma'lumotlar bazasi operatorlari ro'yxatini yaratish kerak. Va agar bundan oldin BigData hamma tomonidan jiddiy qabul qilinmagan bo'lsa, endi u bilan hisoblashish kerak bo'ladi.

Men, ushbu BigData-ni qayta ishlaydigan billing ishlab chiqaruvchi kompaniya direktori sifatida, ma'lumotlar bazasini e'tiborsiz qoldira olmayman. Billing tizimlari orqali har kuni minglab abonentlar to'g'risidagi ma'lumotlar oqimi bo'lgan aloqa operatorlari prizmasi orqali katta ma'lumotlar haqida o'ylayman.

Teorema

Keling, matematik masalada bo'lgani kabi boshlaylik: birinchidan, biz aloqa operatorlarining ma'lumotlarini BigDat deb atash mumkinligini isbotlaymiz. Standart katta ma'lumotlar uchta VVV xususiyati bilan tavsiflanadi, garchi bepul talqinlarda "V" soni ettitaga etgan.

hajmi. Faqatgina Rostelekom MVNO bir milliondan ortiq abonentlarga xizmat ko'rsatadi. Asosiy xost operatorlari 44 milliondan 78 million kishigacha bo'lgan ma'lumotlarni qayta ishlaydilar. Trafik har soniyada oβ€˜sib bormoqda: 2019-yilning birinchi choragida abonentlar mobil telefonlardan 3,3 milliard Gb dan foydalanishga muvaffaq boβ€˜lishdi.

Tezlik. Statistikaga ko'ra yaxshiroq hech kim dinamika haqida gapirmaydi, shuning uchun men Cisco prognozlarini ko'rib chiqaman. 2021 yilga kelib, IP-trafikning 20 foizi mobil trafikga tushadi - besh yil ichida u deyarli uch barobar ortadi. Mobil ulanishlarning uchdan bir qismi M2M tarmogβ€˜ida boβ€˜ladi – IoT ning rivojlanishi ulanishlarning olti barobar oshishiga olib keladi. Narsalar Interneti nafaqat foydali, balki resurs talab qiladigan bo'lib qoladi, shuning uchun ba'zi operatorlar faqat unga e'tibor berishadi. IoTni alohida xizmat sifatida ishlab chiqqanlar esa ikki barobar trafik oladi.

Turli xillik. Xilma-xillik sub'ektiv tushunchadir, lekin aloqa operatorlari haqiqatan ham o'z abonentlari haqida deyarli hamma narsani bilishadi. Ism va pasport ma'lumotlaridan telefon modeli, xaridlar, tashrif buyurilgan joylar va qiziqishlargacha. Yarovaya qonuniga ko'ra, media fayllar olti oy davomida saqlanadi. Shunday qilib, to'plangan ma'lumotlarning xilma-xilligini aksioma sifatida olaylik.

Dasturiy ta'minot va metodologiya

Provayderlar BigData-ning asosiy iste'molchilaridan biri hisoblanadi, shuning uchun katta ma'lumotlarni tahlil qilish usullarining aksariyati telekommunikatsiya sanoati uchun qo'llaniladi. Yana bir savol - kim ML, AI, Deep Learning rivojlanishiga sarmoya kiritishga, ma'lumotlar markazlari va ma'lumotlarni qazib olishga sarmoya kiritishga tayyor. Ma'lumotlar bazasi bilan to'liq ishlash infratuzilma va jamoadan iborat bo'lib, ularning xarajatlarini hamma ham ko'tara olmaydi. Allaqachon korporativ xotiraga ega yoki ma'lumotlarni boshqarish metodologiyasini ishlab chiqqan korxonalar uchun BigData-ga pul tikish arziydi. Uzoq muddatli investitsiyalarga hali tayyor bo'lmaganlar uchun men sizga dasturiy ta'minot arxitekturasini bosqichma-bosqich qurishni va komponentlarni birma-bir o'rnatishni maslahat beraman. Og'ir modullar va Hadoop oxirgi uchun qoldirilishi mumkin. Ma'lumotlar sifati va ma'lumotlarni qazib olish kabi vazifalar uchun tayyor echimni kam odam sotib oladi, asosan kompaniyalar tizimni o'zlarining xususiyatlari va ehtiyojlariga mos ravishda moslashtiradilar - mustaqil ravishda yoki ishlab chiquvchilar yordamida.

Lekin BigData bilan ishlash uchun hech qanday hisob-kitobni o'zgartirib bo'lmaydi. Aksincha, nafaqat hamma o'zgartirishi mumkin. Buni kam odam qila oladi.

Billing tizimi ma'lumotlar bazasini qayta ishlash vositasiga aylanish imkoniyatiga ega ekanligining uchta belgisi:

  • Gorizontal miqyoslilik. Dasturiy ta'minot moslashuvchan bo'lishi kerak - biz katta ma'lumotlar haqida gapiramiz. Axborot hajmining ko'payishi klasterdagi apparatning proportsional o'sishi bilan muomala qilinishi kerak.
  • Xatolarga chidamlilik. Jiddiy oldindan to'langan tizimlar odatda sukut bo'yicha nosozliklarga chidamli: hisob-kitoblar bir nechta geolokatsiyalarda klasterda joylashtiriladi, shunda ular avtomatik ravishda bir-birini sug'urta qiladi. Bir yoki bir nechta ishlamay qolsa, Hadoop klasterida yetarlicha kompyuterlar bo'lishi kerak.
  • Hudud. Ma'lumotlar bir xil serverda saqlanishi va qayta ishlanishi kerak, aks holda siz ma'lumotlarni uzatishda buzilib qolishingiz mumkin. Mashhur Map-Reduce yondashuv sxemalaridan biri: HDFS do'konlari, Spark jarayonlari. Ideal holda, dasturiy ta'minot ma'lumotlar markazi infratuzilmasi bilan uzluksiz integratsiyalashishi va uchta ishni bir vaqtning o'zida bajarishi kerak: ma'lumot to'plash, tartibga solish va tahlil qilish.

komanda

Dastur katta ma'lumotlarni nima, qanday va qanday maqsadda qayta ishlashni jamoa tomonidan hal qiladi. Ko'pincha u bir kishidan iborat - ma'lumot olimi. Garchi, mening fikrimcha, BigData uchun xodimlarning minimal to'plami mahsulot menejeri, ma'lumotlar muhandisi va menejerni ham o'z ichiga oladi. Birinchisi xizmatlarni tushunadi, texnik tilni inson tiliga va aksincha tarjima qiladi. Ma'lumotlar muhandisi Java/Scala bilan modellarni jonlantiradi va Machine Learning bilan tajribalar o'tkazadi. Rahbar muvofiqlashtiradi, maqsadlar qo'yadi, bosqichlarni nazorat qiladi.

Muammolar

Odatda BigData jamoasi tomonidan ma'lumotlarni yig'ish va qayta ishlashda muammolar paydo bo'ladi. Dasturga nimani to'plash va qanday ishlov berish kerakligi tushuntirilishi kerak - buni tushuntirish uchun avvalo o'zingiz tushunishingiz kerak. Ammo provayderlar unchalik oddiy emas. Men abonentlar oqimini qisqartirish vazifasi misolida muammolar haqida gapiryapman - bu vazifani aloqa operatorlari birinchi navbatda BigData yordamida hal qilishga harakat qilmoqdalar.

Maqsadlarni belgilash. To'g'ri tuzilgan TOR va atamalarni turlicha tushunish nafaqat frilanserlar uchun ko'p asrlik og'riqdir. Hatto "yo'qolgan" abonentlar ham turli yo'llar bilan talqin qilinishi mumkin - bir oy, olti oy yoki bir yil davomida operator xizmatlaridan foydalanmaslik. Tarixiy ma'lumotlarga asoslangan MVP yaratish uchun siz abonentlarning chiqish oqimidan qaytish chastotasini tushunishingiz kerak - boshqa operatorlar ulanishini sinab ko'rgan yoki shaharni tark etgan va boshqa raqamdan foydalanganlar. Yana bir muhim savol: abonentning kutilayotgan ketishidan qancha vaqt oldin provayder buni aniqlab, chora ko'rishi kerak? Yarim yil juda erta, bir hafta allaqachon kech.

Tushunchalarni almashtirish. Odatda, operatorlar mijozni telefon raqami orqali aniqlaydilar, shuning uchun belgilar u tomonidan yuklanishi mantiqan to'g'ri keladi. Shaxsiy hisob yoki xizmatga ariza raqami haqida nima deyish mumkin? Operator tizimidagi ma'lumotlar bir-biridan farq qilmasligi uchun mijoz sifatida qaysi blokni olish kerakligini hal qilish kerak. Mijozning qiymatini baholash ham savol ostida - qaysi abonent kompaniya uchun qimmatroq, qaysi foydalanuvchi saqlab qolish uchun ko'proq harakat qilishi kerak va qaysi biri har qanday holatda ham "yiqilib tushadi" va ularga resurslarni sarflashning ma'nosi yo'q.

Axborot etishmasligi. Provayderlarning hammasi ham BigData jamoasiga abonentlar oqimiga aniq nima ta'sir qilishini va hisob-kitoblarda qanday omillar hisobga olinishini tushuntira olmaydi. Ulardan biri - ARPU deb nomlangan bo'lsa ham, uni turli yo'llar bilan hisoblash mumkin: davriy mijozlar to'lovlari yoki avtomatik to'lovlar bilan. Va bu jarayonda millionlab boshqa savollar tug'iladi. Model barcha mijozlarni qamrab oladimi, mijozni saqlab qolish qancha turadi, muqobil modellar orqali o'ylab ko'rish mantiqiymi va noto'g'ri sun'iy ravishda ushlab qolingan mijozlar bilan nima qilish kerak.

Maqsadni belgilash. Operatorlarning ma'lumotlar bazasidan hafsalasi pir bo'lishiga olib keladigan natijalar bilan bog'liq uchta turdagi xatolarni bilaman.

  1. Provayder BigData-ga sarmoya kiritadi, gigabayt ma'lumotlarni qayta ishlaydi, ammo arzonroq bo'lishi mumkin bo'lgan natijani oladi. Oddiy sxema va modellar, ibtidoiy analitika qo'llaniladi. Xarajat bir necha baravar yuqori, ammo natijasi bir xil.
  2. Operator chiqishda ko'p qirrali ma'lumotlarni oladi, lekin ulardan qanday foydalanishni tushunmaydi. Analitika bor - bu tushunarli va hajmli, ammo undan nol ma'no yo'q. Yakuniy natija o'ylab topilmagan, bu "ma'lumotlarni qayta ishlash" maqsadidan iborat bo'lishi mumkin emas. Qayta ishlash etarli emas - tahlillar biznes jarayonlarini yangilash uchun asos bo'lishi kerak.
  3. BigData analitikasidan foydalanishga to'siq bo'lishi mumkin bo'lgan eskirgan biznes jarayonlari va yangi maqsadlar uchun mos bo'lmagan dasturiy ta'minot. Bu shuni anglatadiki, ular tayyorgarlik bosqichida xato qilishgan - ular harakatlar algoritmi va BigData-ni ishga kiritish bosqichlari haqida o'ylamaganlar.

Nima uchun

Natijalar haqida gapirganda. Men aloqa operatorlari allaqachon foydalanayotgan BigData-dan foydalanish va monetizatsiya qilish usullarini ko'rib chiqaman.
Provayderlar nafaqat abonentlar oqimini, balki tayanch stansiyalardagi yukni ham bashorat qilmoqdalar.

  1. Abonentlar harakati, faollik va chastota xizmatlari haqidagi ma'lumotlar tahlil qilinadi. Natija: infratuzilmaning muammoli hududlarini optimallashtirish va modernizatsiya qilish hisobiga ortiqcha yuklanishlar sonini kamaytirish.
  2. Aloqa operatorlari savdo nuqtalarini ochishda abonentlarning geolokatsiyasi va trafik zichligi haqidagi ma'lumotlardan foydalanadilar. Shunday qilib, BigData analytics allaqachon MTS va Vimpelcom tomonidan yangi ofislarning joylashishini rejalashtirish uchun ishlatiladi.
  3. Provayderlar o'zlarining katta ma'lumotlarini uchinchi tomon firmalariga taklif qilish orqali monetizatsiya qiladilar. BigData operatorlarining asosiy mijozlari tijorat banklaridir. Ma'lumotlar bazasi yordamida ular kartalar bog'langan abonent SIM-kartasining shubhali faoliyatini kuzatib boradi, xavfni baholash, tekshirish va monitoring xizmatlaridan foydalanadi. Va 2017 yilda Moskva hukumati texnik va transport infratuzilmasini rejalashtirish uchun Tele2-dan BigData ma'lumotlariga ko'ra harakat dinamikasini talab qildi.
  4. BigData analitikasi, agar xohlasa, minglab obunachilar guruhlari uchun shaxsiylashtirilgan reklama kampaniyalarini yaratishi mumkin bo'lgan sotuvchilar uchun oltin kondir. Telekom kompaniyalari ijtimoiy profillarni, iste'molchilarning qiziqishlarini va obunachilarning xatti-harakatlarini jamlaydi, so'ngra yangi mijozlarni jalb qilish uchun yig'ilgan BigData'dan foydalanadi. Ammo reklama va PRni keng miqyosda rejalashtirish uchun billing har doim ham etarli funktsiyaga ega emas: dastur bir vaqtning o'zida mijozlar haqida batafsil ma'lumot bilan parallel ravishda ko'plab omillarni hisobga olishi kerak.

Kimdir BigData-ni hali ham bo'sh ibora deb hisoblasa-da, Katta to'rtlik allaqachon undan pul ishlashmoqda. MTS olti oy ichida katta ma'lumotlarni qayta ishlashdan 14 milliard rubl oladi va Tele2 loyihalardan tushgan daromadni uch yarim baravarga oshirdi. BigData trenddan bo'lishi kerak bo'lgan tendentsiyaga aylanmoqda, uning ostida aloqa operatorlarining butun tuzilmasi qayta quriladi.

Manba: www.habr.com

a Izoh qo'shish