Big data big billing: o BigData v telekomunikáciách

V roku 2008 bola BigData novým pojmom a módnym trendom. V roku 2019 je BigData predmetom predaja, zdrojom zisku a dôvodom na nové účty.

Vlani na jeseň iniciovala ruská vláda návrh zákona na reguláciu veľkých dát. Jednotlivci nemôžu byť identifikovaní z informácií, ale môžu tak urobiť na žiadosť federálnych orgánov. Spracovanie BigData pre tretie strany je len po oznámení Roskomnadzoru. Spoločnosti, ktoré majú viac ako 100 tisíc sieťových adries, spadajú pod zákon. A samozrejme, kde by sme boli bez registrov, má sa vytvoriť jeden so zoznamom prevádzkovateľov databáz. A ak predtým túto BigData nebrali všetci vážne, teraz to bude musieť vziať do úvahy.

Ja ako riaditeľ fakturačnej developerskej spoločnosti, ktorá spracováva práve tieto Big Data, nemôžem ignorovať databázu. O veľkých dátach budem uvažovať cez prizmu telekomunikačných operátorov, cez ktorých fakturačné systémy denne prechádzajú toky informácií o tisíckach účastníkov.

Veta

Začnime ako v matematickej úlohe: najprv dokážeme, že údaje telekomunikačných operátorov možno nazvať BigDat. Typicky sú veľké dáta charakterizované tromi charakteristikami VVV, hoci vo voľných interpretáciách počet „V“ dosiahol sedem.

Objem. Len samotné MVNO spoločnosti Rostelecom obsluhuje viac ako milión predplatiteľov. Kľúčoví hostitelskí operátori spracúvajú údaje pre 44 až 78 miliónov ľudí. Návštevnosť rastie každú sekundu: v prvom štvrťroku 2019 už predplatitelia využili 3,3 miliardy GB z mobilných telefónov.

Rýchlosť. Nikto vám nepovie o dynamike lepšie ako štatistika, preto si prejdem prognózy spoločnosti Cisco. Do roku 2021 pôjde 20 % IP prevádzky na mobilnú prevádzku – za päť rokov sa takmer strojnásobí. Tretina mobilných pripojení bude M2M – rozvoj internetu vecí povedie k šesťnásobnému nárastu pripojení. Internet vecí sa stane nielen ziskovým, ale aj náročným na zdroje, takže niektorí operátori sa zamerajú len naň. A tí, ktorí vyvíjajú IoT ako samostatnú službu, získajú dvojnásobnú návštevnosť.

Rozmanitosť. Rozmanitosť je subjektívny pojem, no telekomunikační operátori vedia o svojich predplatiteľoch naozaj takmer všetko. Od mena a podrobností o pase po model telefónu, nákupy, navštívené miesta a záujmy. Podľa zákona Yarovaya sa mediálne súbory uchovávajú šesť mesiacov. Berme to teda ako axiómu, že zozbierané údaje sú rôzne.

Softvér a metodika

Poskytovatelia sú jedným z hlavných spotrebiteľov BigData, takže väčšina techník analýzy veľkých dát je použiteľná v telekomunikačnom priemysle. Ďalšou otázkou je, kto je pripravený investovať do rozvoja ML, AI, Deep Learning, investovať do dátových centier a data miningu. Plnohodnotná práca s databázou pozostáva z infraštruktúry a tímu, ktorých náklady si nemôže dovoliť každý. Podniky, ktoré už majú firemný sklad alebo vyvíjajú metodiku Data Governance, by mali staviť na BigData. Pre tých, ktorí ešte nie sú pripravení na dlhodobé investície, odporúčam postupne budovať softvérovú architektúru a inštalovať komponenty jeden po druhom. Ťažké moduly a Hadoop môžete nechať ako posledné. Málokto si kupuje hotové riešenie pre problémy ako Data Quality a Data Mining, firmy si vo všeobecnosti prispôsobujú systém svojim špecifickým špecifikáciám a potrebám – samy alebo s pomocou vývojárov.

Nie každú fakturáciu je však možné upraviť tak, aby fungovala s BigData. Alebo lepšie povedané, nielen všetko sa dá upraviť. Toto dokáže málokto.

Tri znaky toho, že fakturačný systém má šancu stať sa nástrojom na spracovanie databázy:

  • Horizontálna škálovateľnosť. Softvér musí byť flexibilný – hovoríme o veľkých dátach. Zvýšenie množstva informácií by malo byť ošetrené proporcionálnym zvýšením hardvéru v klastri.
  • Odolnosť proti chybám. Seriózne predplatené systémy sú zvyčajne štandardne odolné voči chybám: fakturácia je nasadená v klastri v niekoľkých geolokáciách, takže sa navzájom automaticky poistia. V klastri Hadoop by mal byť dostatok počítačov pre prípad, že by jeden alebo viacero zlyhalo.
  • Lokalita. Dáta musia byť uložené a spracované na jednom serveri, inak môžete skrachovať pri prenose dát. Jedna z populárnych schém prístupu Map-Reduce: obchody HDFS, procesy Spark. V ideálnom prípade by sa softvér mal bez problémov integrovať do infraštruktúry dátového centra a mal by byť schopný robiť tri veci v jednom: zhromažďovať, organizovať a analyzovať informácie.

Tím

O tom, čo, ako a za akým účelom bude program spracovávať veľké dáta, rozhoduje tím. Často ho tvorí jedna osoba – dátový vedec. Aj keď podľa mňa do minimálneho balíka zamestnancov pre Big Data patrí aj produktový manažér, dátový inžinier a manažér. Prvý rozumie službám, prekladá technický jazyk do ľudskej a naopak. Data Engineer oživuje modely pomocou Java/Scala a experimentuje so strojovým učením. Manažér koordinuje, stanovuje ciele a riadi etapy.

Problémy

Práve na strane tímu BigData zvyčajne vznikajú problémy pri zbere a spracovaní údajov. Program musí vysvetliť, čo zbierať a ako to spracovať - ​​aby ste to vysvetlili, musíte tomu najskôr porozumieť sami. Ale pre poskytovateľov to nie je také jednoduché. Hovorím o problémoch na príklade úlohy zníženia odchodu predplatiteľov - to sa telekomunikační operátori snažia vyriešiť predovšetkým pomocou Big Data.

Stanovovanie si cieľov. Dobre napísané technické špecifikácie a rôzne chápanie pojmov boli stáročia starou bolesťou nielen pre freelancerov. Dokonca aj „odpadnutí“ predplatitelia môžu byť interpretovaní rôznymi spôsobmi - ako tí, ktorí nevyužívali služby operátora mesiac, šesť mesiacov alebo rok. A ak chcete vytvoriť MVP na základe historických údajov, musíte pochopiť frekvenciu návratov predplatiteľov z churn - tých, ktorí vyskúšali iných operátorov alebo odišli z mesta a použili iné číslo. Ďalšia dôležitá otázka: ako dlho pred očakávaným odchodom účastníka by to mal poskytovateľ určiť a prijať opatrenia? Šesť mesiacov je príliš skoro, týždeň príliš neskoro.

Substitúcia pojmov. Operátori zvyčajne identifikujú klienta podľa telefónneho čísla, takže je logické, že značky by sa mali nahrávať pomocou neho. A čo váš osobný účet alebo číslo žiadosti o službu? Je potrebné rozhodnúť, ktorú jednotku brať ako klienta, aby sa údaje v systéme operátora nelíšili. Otázne je aj posúdenie hodnoty klienta – ktorý predplatiteľ je pre firmu cennejší, ktorý používateľ si vyžaduje viac úsilia na udržanie a ktorí v každom prípade „odpadnú“ a nemá zmysel na nich míňať prostriedky.

Nedostatok informácií. Nie všetci zamestnanci poskytovateľa sú schopní vysvetliť tímu BigData, čo konkrétne ovplyvňuje odchod predplatiteľov a ako sa vypočítavajú možné faktory fakturácie. Aj keď pomenovali jednu z nich - ARPU - ukázalo sa, že sa dá vypočítať rôznymi spôsobmi: buď pravidelnými platbami klienta, alebo automatickými poplatkami. A v procese práce vyvstáva milión ďalších otázok. Pokrýva model všetkých klientov, aká je cena za udržanie klienta, má zmysel rozmýšľať nad alternatívnymi modelmi a čo robiť s klientmi, ktorí boli omylom umelo zadržaní.

Stanovenie cieľov. Poznám tri typy výsledkových chýb, ktoré spôsobujú, že operátori sú z databázy frustrovaní.

  1. Poskytovateľ investuje do BigData, spracuje gigabajty informácií, no dostane výsledok, ktorý sa dal získať lacnejšie. Používajú sa jednoduché diagramy a modely, primitívna analytika. Náklady sú mnohonásobne vyššie, ale výsledok je rovnaký.
  2. Operátor dostáva ako výstup mnohostranné dáta, ale nerozumie, ako ich použiť. Existuje analytika - tu je, zrozumiteľná a objemná, ale je zbytočná. Konečný výsledok, ktorý nemôže pozostávať z cieľa „spracovania údajov“, nebol premyslený. Nestačí spracovať – analytika by sa mala stať základom aktualizácie obchodných procesov.
  3. Prekážkami pri používaní analýzy BigData môžu byť zastarané obchodné procesy a softvér nevhodný na nové účely. To znamená, že urobili chybu vo fáze prípravy - nepremysleli algoritmus akcií a fázy zavádzania veľkých dát do práce.

Čo pre

Keď už hovoríme o výsledkoch. Prejdem si spôsoby využívania a speňažovania veľkých dát, ktoré už telekomunikační operátori používajú.
Poskytovatelia predpovedajú nielen odliv predplatiteľov, ale aj zaťaženie základňových staníc.

  1. Analyzujú sa informácie o pohybe účastníkov, aktivite a frekvencii služieb. Výsledok: zníženie počtu preťažení vďaka optimalizácii a modernizácii problémových oblastí infraštruktúry.
  2. Telekomunikační operátori pri otváraní predajných miest využívajú informácie o geolokácii účastníkov a hustote prevádzky. Analytiku BigData už teda používajú MTS a VimpelCom na plánovanie umiestnenia nových kancelárií.
  3. Poskytovatelia monetizujú svoje vlastné veľké dáta tým, že ich ponúkajú tretím stranám. Hlavnými zákazníkmi operátorov BigData sú komerčné banky. Pomocou databázy monitorujú podozrivé aktivity SIM karty účastníka, ku ktorej sú karty prepojené, a využívajú služby rizikového bodovania, overovania a monitorovania. A v roku 2017 moskovská vláda požiadala o dynamiku pohybu na základe údajov BigData od Tele2 na plánovanie technickej a dopravnej infraštruktúry.
  4. Analýzy BigData sú zlatou baňou pre obchodníkov, ktorí môžu vytvárať personalizované reklamné kampane až pre tisíce skupín predplatiteľov, ak sa tak rozhodnú. Telekomunikačné spoločnosti zhromažďujú sociálne profily, záujmy spotrebiteľov a vzorce správania predplatiteľov a potom zhromaždené údaje BigData používajú na prilákanie nových zákazníkov. Ale pre rozsiahlu propagáciu a plánovanie PR nemá fakturácia vždy dostatočnú funkčnosť: program musí súčasne brať do úvahy mnoho faktorov súbežne s podrobnými informáciami o klientoch.

Zatiaľ čo niektorí stále považujú BigData za prázdnu frázu, veľká štvorka už na tom zarába. MTS zarobí 14 miliárd rubľov zo spracovania veľkých dát za šesť mesiacov a Tele2 zvýšilo príjmy z projektov triapolnásobne. BigData sa mení z trendu na must have, pod ktorým sa prebuduje celá štruktúra telekomunikačných operátorov.

Zdroj: hab.com

Pridať komentár