Big data big billing: o BigData v telekomunikacích

V roce 2008 byla BigData novým pojmem a módním trendem. BigData je v roce 2019 předmětem prodeje, zdrojem zisku a důvodem pro nové účty.

Loni na podzim iniciovala ruská vláda návrh zákona o regulaci velkých dat. Jednotlivci nemohou být identifikováni z informací, ale mohou tak učinit na žádost federálních úřadů. Zpracování BigData pro třetí strany je pouze po oznámení Roskomnadzoru. Společnosti, které mají více než 100 tisíc síťových adres, spadají pod zákon. A samozřejmě tam, kde bez registrů - má se vytvořit jeden se seznamem databázových operátorů. A pokud dříve tato velká data nebrali všichni vážně, nyní se s nimi bude muset počítat.

Já jako ředitel společnosti zabývající se vývojem faktur, která zpracovává právě tato Big Data, nemohu databázi ignorovat. O velkých datech budu uvažovat prizmatem telekomunikačních operátorů, jejichž fakturačními systémy procházejí denně toky informací o tisících předplatitelů.

Teorém

Začněme jako v matematické úloze: nejprve dokážeme, že data telekomunikačních operátorů lze nazvat BigDat. Typicky se velká data vyznačují třemi charakteristikami VVV, ačkoli ve volné interpretaci počet „V“ dosáhl sedmi.

Hlasitost. Samotné MVNO společnosti Rostelecom obsluhuje více než milion předplatitelů. Klíčoví hostitelští operátoři zpracovávají data pro 44 až 78 milionů lidí. Provoz roste každou sekundu: v prvním čtvrtletí roku 2019 již předplatitelé z mobilních telefonů získali 3,3 miliardy GB.

Rychlost. Nikdo vám neřekne o dynamice lépe než statistiky, takže projdu prognózy společnosti Cisco. Do roku 2021 půjde 20 % IP provozu na mobilní provoz – za pět let se téměř ztrojnásobí. Třetina mobilních připojení bude M2M – rozvoj IoT povede k šestinásobnému nárůstu připojení. Internet věcí se stane nejen ziskovým, ale i náročným na zdroje, takže se někteří provozovatelé zaměří pouze na něj. A ti, kteří vyvinou IoT jako samostatnou službu, získají dvojnásobný provoz.

Odrůda. Rozmanitost je subjektivní pojem, ale telekomunikační operátoři vědí o svých předplatitelích opravdu téměř vše. Od jména a údajů o pasu po model telefonu, nákupy, navštívená místa a zájmy. Podle zákona Yarovaya jsou mediální soubory uchovávány po dobu šesti měsíců. Berme to tedy jako axiom, že shromážděná data jsou různorodá.

Software a metodika

Poskytovatelé jsou jedním z hlavních spotřebitelů BigData, takže většinu technik analýzy velkých dat lze použít v telekomunikačním průmyslu. Další otázkou je, kdo je připraven investovat do rozvoje ML, AI, Deep Learning, investovat do datových center a data miningu. Plnohodnotnou práci s databází tvoří infrastruktura a tým, jehož náklady si nemůže dovolit každý. Podniky, které již mají firemní sklad nebo vyvíjejí metodiku Data Governance, by měly vsadit na BigData. Pro ty, kteří ještě nejsou připraveni na dlouhodobé investice, doporučuji postupně budovat softwarovou architekturu a instalovat komponenty jednu po druhé. Těžké moduly a Hadoop můžete nechat jako poslední. Málokdo si kupuje hotové řešení problémů, jako je Data Quality a Data Mining, firmy si většinou přizpůsobují systém podle svých specifických specifikací a potřeb – samy nebo s pomocí vývojářů.

Ale ne každé vyúčtování lze upravit tak, aby fungovalo s BigData. Nebo lépe řečeno, nejen vše lze upravit. Tohle umí málokdo.

Tři známky toho, že fakturační systém má šanci stát se nástrojem pro zpracování databáze:

  • Horizontální škálovatelnost. Software musí být flexibilní – mluvíme o velkých datech. Zvýšení množství informací by mělo být ošetřeno proporcionálním zvýšením hardwaru v clusteru.
  • Odolnost proti chybám. Vážné předplacené systémy jsou obvykle ve výchozím nastavení odolné proti chybám: fakturace je nasazena v clusteru v několika geografických lokalitách, takže se navzájem automaticky pojišťují. V clusteru Hadoop by měl být také dostatek počítačů pro případ, že by jeden nebo více selhalo.
  • Lokalita. Data musí být uložena a zpracována na jednom serveru, jinak můžete při přenosu dat zkrachovat. Jeden z populárních schémat přístupu Map-Reduce: obchody HDFS, procesy Spark. V ideálním případě by se software měl bez problémů integrovat do infrastruktury datového centra a měl by být schopen dělat tři věci v jednom: shromažďovat, organizovat a analyzovat informace.

Tým

O tom, co, jak a za jakým účelem bude program zpracovávat velká data, rozhoduje tým. Často se skládá z jedné osoby – datového vědce. I když podle mého názoru minimální balík zaměstnanců pro Big Data zahrnuje také produktového manažera, datového inženýra a manažera. První rozumí službám, překládá technickou řeč do lidské a naopak. Data Engineer oživuje modely pomocí Java/Scala a experimentuje se strojovým učením. Manažer koordinuje, stanovuje cíle a řídí fáze.

Problémy

Právě na straně týmu BigData obvykle vznikají problémy při sběru a zpracování dat. Program potřebuje vysvětlit, co sbírat a jak to zpracovat – abyste to vysvětlili, musíte tomu nejprve sami porozumět. Ale pro poskytovatele to není tak jednoduché. Mluvím o problémech na příkladu úkolu snížit odchod předplatitelů – to se telekomunikační operátoři snaží vyřešit především pomocí Big Data.

Stanovení cílů. Dobře napsané technické specifikace a různé chápání pojmů byly staletí starou bolestí nejen pro freelancery. I „vypadlí“ předplatitelé mohou být interpretováni různými způsoby - jako ti, kteří nevyužívali služby operátora měsíc, šest měsíců nebo rok. A abyste vytvořili MVP na základě historických dat, musíte pochopit frekvenci návratů předplatitelů z churn - těch, kteří zkusili jiné operátory nebo opustili město a použili jiné číslo. Další důležitá otázka: jak dlouho předtím, než se očekává, že účastník odejde, by to měl poskytovatel určit a přijmout opatření? Šest měsíců je příliš brzy, týden příliš pozdě.

Substituce pojmů. Operátoři obvykle identifikují klienta podle telefonního čísla, takže je logické, že značky by měly být nahrány pomocí něj. A co váš osobní účet nebo číslo žádosti o službu? Je nutné rozhodnout, která jednotka bude brána jako klient, aby se údaje v systému operátora nelišily. Posouzení hodnoty klienta je rovněž sporné – který předplatitel je pro firmu cennější, který uživatel vyžaduje větší úsilí k udržení a kteří v každém případě „spadnou“ a nemá smysl na ně utrácet prostředky.

Nedostatek informací. Ne všichni zaměstnanci poskytovatele jsou schopni týmu BigData vysvětlit, co konkrétně ovlivňuje odchod předplatitelů a jak se vypočítávají možné faktory účtování. I když jmenovali jeden z nich - ARPU - ukázalo se, že jej lze vypočítat různými způsoby: buď pravidelnými klientskými platbami, nebo automatickými fakturačními poplatky. A v procesu práce vyvstává milion dalších otázek. Pokrývá model všechny klienty, jaká je cena za udržení klienta, má smysl přemýšlet o alternativních modelech a co dělat s klienty, kteří byli omylem uměle zadrženi.

Stanovení cílů. Znám tři typy chyb ve výsledku, které způsobují, že operátoři jsou z databáze frustrovaní.

  1. Poskytovatel investuje do BigData, zpracovává gigabajty informací, ale získá výsledek, který se dal získat levněji. Používají se jednoduché diagramy a modely, primitivní analytika. Náklady jsou mnohonásobně vyšší, ale výsledek je stejný.
  2. Operátor dostává jako výstup mnohostranná data, ale nerozumí tomu, jak je použít. Existuje analytika - tady je, srozumitelná a objemná, ale není k ničemu. Konečný výsledek, který nemůže spočívat v cíli „zpracování dat“, nebyl promyšlen. Nestačí zpracovat – analytika by se měla stát základem pro aktualizaci obchodních procesů.
  3. Překážkou používání analýzy BigData mohou být zastaralé obchodní procesy a software nevhodný pro nové účely. To znamená, že udělali chybu ve fázi přípravy – nepromysleli algoritmus akcí a fáze zavádění Big Data do práce.

Proč

Když už jsme u výsledků. Projdu způsoby využití a zpeněžení velkých dat, které již telekomunikační operátoři používají.
Poskytovatelé předpovídají nejen odliv předplatitelů, ale také zatížení základnových stanic.

  1. Analyzovány jsou informace o pohybu účastníků, aktivitě a frekvenčních službách. Výsledek: snížení počtu přetížení díky optimalizaci a modernizaci problémových oblastí infrastruktury.
  2. Telekomunikační operátoři využívají informace o geolokaci účastníků a hustotě provozu při otevírání prodejních míst. Analýzy BigData tedy již používají MTS a VimpelCom k plánování umístění nových kanceláří.
  3. Poskytovatelé monetizují svá vlastní velká data tím, že je nabízejí třetím stranám. Hlavními zákazníky operátorů BigData jsou komerční banky. Pomocí databáze monitorují podezřelé aktivity na SIM kartě účastníka, ke které jsou karty propojeny, a využívají služeb rizikového bodování, ověřování a monitorování. A v roce 2017 moskevská vláda požádala o dynamiku pohybu na základě dat BigData od Tele2 pro plánování technické a dopravní infrastruktury.
  4. Analýzy BigData jsou zlatým dolem pro obchodníky, kteří mohou vytvářet personalizované reklamní kampaně pro tisíce skupin předplatitelů, pokud chtějí. Telekomunikační společnosti shromažďují sociální profily, zájmy spotřebitelů a vzorce chování předplatitelů a poté shromážděná BigData využívají k přilákání nových zákazníků. Ale pro rozsáhlou propagaci a plánování PR nemá fakturace vždy dostatek funkcí: program musí současně zohledňovat mnoho faktorů souběžně s podrobnými informacemi o klientech.

Zatímco někteří stále považují BigData za prázdnou frázi, Velká čtyřka už na tom vydělává. MTS vydělá za šest měsíců zpracováním velkých dat 14 miliard rublů a Tele2 zvýšil příjmy z projektů třiapůlkrát. BigData se mění z trendu v must have, pod kterým bude přestavěna celá struktura telekomunikačních operátorů.

Zdroj: www.habr.com

Přidat komentář