Lielo datu lielie norēķini: par BigData telekomunikācijās

2008. gadā BigData bija jauns termins un moderna tendence. 2019. gadā BigData ir pārdoÅ”anas objekts, peļņas avots un iemesls jauniem rēķiniem.

PagājuŔā gada rudenÄ« Krievijas valdÄ«ba ierosināja likumprojektu par lielo datu regulÄ“Å”anu. Personas var nebÅ«t identificētas pēc informācijas, bet var to darÄ«t pēc federālo iestāžu pieprasÄ«juma. BigData apstrāde treÅ”ajām pusēm tiek veikta tikai pēc Roskomnadzor paziņojuma. Likums attiecas uz uzņēmumiem, kuriem ir vairāk nekā 100 tÅ«kstoÅ”i tÄ«kla adreÅ”u. Un, protams, kur bez reÄ£istriem - paredzēts izveidot tādu ar datu bāzes operatoru sarakstu. Un, ja iepriekÅ” Å”os Big Data ne visi uztvēra nopietni, tad tagad ar to bÅ«s jārēķinās.

Es kā norēķinu izstrādātāja uzņēmuma direktors, kas apstrādā Å”os lielos datus, nevaru ignorēt datubāzi. Par lielajiem datiem domāŔu caur telekomunikāciju operatoru prizmu, caur kuru norēķinu sistēmām ik dienas iziet informācijas plÅ«smas par tÅ«kstoÅ”iem abonentu.

Teorēma

Sāksim kā matemātikas uzdevumā: vispirms pierādÄ«sim, ka telekomunikāciju operatoru datus var saukt par BigDat. Parasti lielos datus raksturo trÄ«s VVV raksturlielumi, lai gan brÄ«vajās interpretācijās ā€œVā€ skaits sasniedza septiņus.

Apjoms. Rostelecom MVNO vien apkalpo vairāk nekā miljonu abonentu. Galvenie resursdatora operatori apstrādā datus par 44 lÄ«dz 78 miljoniem cilvēku. DatplÅ«sma pieaug katru sekundi: 2019. gada pirmajā ceturksnÄ« abonenti jau ir piekļuvuÅ”i 3,3 miljardiem GB no mobilajiem tālruņiem.

Ātrums. Neviens nevar jums pastāstÄ«t par dinamiku labāk nekā statistika, tāpēc es apskatÄ«Å”u Cisco prognozes. LÄ«dz 2021. gadam 20% IP trafika tiks novirzÄ«ti mobilajai trafikai ā€“ piecu gadu laikā tas gandrÄ«z trÄ«skārÅ”osies. TreÅ”daļa mobilo sakaru bÅ«s M2M ā€“ IoT attÄ«stÄ«ba radÄ«s seÅ”kārtÄ«gu savienojumu pieaugumu. Lietu internets kļūs ne tikai ienesÄ«gs, bet arÄ« resursietilpÄ«gs, tāpēc daļa operatoru koncentrēsies tikai uz to. Un tie, kas izstrādā IoT kā atseviŔķu pakalpojumu, saņems dubultu trafiku.

DaudzveidÄ«ba. DaudzveidÄ«ba ir subjektÄ«vs jēdziens, taču telekomunikāciju operatori patieŔām zina gandrÄ«z visu par saviem abonentiem. No vārda un pases datiem lÄ«dz tālruņa modelim, pirkumiem, apmeklētajām vietām un interesēm. Saskaņā ar Yarovaya likumu multivides faili tiek glabāti seÅ”us mēneÅ”us. Tāpēc pieņemsim to kā aksiomu, ka savāktie dati ir dažādi.

Programmatūra un metodika

Pakalpojumu sniedzēji ir vieni no galvenajiem BigData patērētājiem, tāpēc lielākā daļa lielo datu analÄ«zes metožu ir piemērojami telekomunikāciju nozarei. Cits jautājums ir, kurÅ” ir gatavs investēt ML, AI, Deep Learning attÄ«stÄ«bā, ieguldÄ«t datu centros un datu ieguvē. PilnvērtÄ«gs darbs ar datu bāzi sastāv no infrastruktÅ«ras un komandas, kuras izmaksas ne katrs var atļauties. Uzņēmumiem, kuriem jau ir korporatÄ«vā noliktava vai kuri izstrādā datu pārvaldÄ«bas metodoloÄ£iju, vajadzētu likt likmes uz BigData. Tiem, kuri vēl nav gatavi ilgtermiņa investÄ«cijām, iesaku pakāpeniski veidot programmatÅ«ras arhitektÅ«ru un instalēt komponentus pa vienam. Smagos moduļus un Hadoop varat atstāt pēdējam. Tikai daži cilvēki iegādājas gatavu risinājumu tādām problēmām kā datu kvalitāte un datu ieguve; uzņēmumi parasti pielāgo sistēmu savām specifikācijām un vajadzÄ«bām - paÅ”i vai ar izstrādātāju palÄ«dzÄ«bu.

Taču ne visus norēķinus var mainīt, lai tie darbotos ar BigData. Pareizāk sakot, ne tikai visu var modificēt. Tikai daži cilvēki to var izdarīt.

Trīs pazīmes, kas liecina, ka norēķinu sistēmai ir iespēja kļūt par datu bāzes apstrādes rīku:

  • Horizontālā mērogojamÄ«ba. ProgrammatÅ«rai jābÅ«t elastÄ«gai ā€“ mēs runājam par lielajiem datiem. Informācijas apjoma palielināŔanās jāaplÅ«ko ar proporcionālu aparatÅ«ras pieaugumu klasterÄ«.
  • Kļūdu tolerance. Nopietnas priekÅ”apmaksas sistēmas parasti pēc noklusējuma ir izturÄ«gas pret kļūmēm: norēķini tiek izvietoti klasterÄ« vairākās Ä£eogrāfiskajās vietās, lai tās automātiski apdroÅ”inātu viena otru. Hadoop klasterÄ« vajadzētu bÅ«t arÄ« pietiekami daudz datoru, ja viens vai vairāki neizdodas.
  • Vieta. Dati ir jāuzglabā un jāapstrādā vienā serverÄ«, pretējā gadÄ«jumā jÅ«s varat sabojāt datu pārsÅ«tÄ«Å”anu. Viena no populārajām Map-Reduce pieejas shēmām: HDFS veikali, Spark procesi. Ideālā gadÄ«jumā programmatÅ«rai vajadzētu nemanāmi integrēties datu centra infrastruktÅ«rā un vienā reizē veikt trÄ«s lietas: apkopot, kārtot un analizēt informāciju.

Komanda

Ko, kā un kādam nolÅ«kam programma apstrādās lielos datus, lemj komanda. Bieži vien tajā ir viena persona ā€“ datu zinātnieks. Lai gan, manuprāt, minimālajā Big Data darbinieku komplektā ietilpst arÄ« produktu vadÄ«tājs, datu inženieris un vadÄ«tājs. Pirmais saprot pakalpojumus, tulko tehnisko valodu cilvēku valodā un otrādi. Datu inženieris atdzÄ«vina modeļus, izmantojot Java/Scala, un eksperimentē ar maŔīnmācÄ«Å”anos. VadÄ«tājs koordinē, izvirza mērÄ·us un kontrolē posmus.

Problēmas

Problēmas parasti rodas, vācot un apstrādājot datus no BigData komandas puses. Programmai ir jāpaskaidro, ko vākt un kā to apstrādāt ā€“ lai to izskaidrotu, vispirms tas ir jāsaprot paÅ”am. Bet pakalpojumu sniedzējiem lietas nav tik vienkārÅ”i. Es runāju par problēmām, izmantojot piemēru par abonentu skaita samazināŔanas uzdevumu - tas ir tas, ko telekomunikāciju operatori mēģina atrisināt, pirmkārt, ar lielo datu palÄ«dzÄ«bu.

MērÄ·u izvirzÄ«Å”ana. Labi uzrakstÄ«tas tehniskās specifikācijas un atŔķirÄ«ga terminu izpratne ir bijusi gadsimtiem sena sāpe ne tikai ārÅ”tata darbiniekiem. Pat ā€œatkrituÅ”osā€ abonentus var interpretēt dažādi - kā tos, kuri nav izmantojuÅ”i operatora pakalpojumus mēnesi, seÅ”us mēneÅ”us vai gadu. Un, lai izveidotu MVP, pamatojoties uz vēsturiskiem datiem, jums ir jāsaprot to abonentu atgrieÅ”anās biežums, kuri izmēģināja citus operatorus vai atstāja pilsētu un izmantoja citu numuru. Vēl viens svarÄ«gs jautājums: cik ilgi pirms abonenta aizieÅ”anas pakalpojumu sniedzējam tas ir jānosaka un jārÄ«kojas? SeÅ”i mēneÅ”i ir par agru, nedēļa ir par vēlu.

Jēdzienu aizstāŔana. Parasti operatori identificē klientu pēc tālruņa numura, tāpēc ir loÄ£iski, ka zÄ«mes ir augÅ”upielādējamas, izmantojot to. Kā ir ar jÅ«su personÄ«gā konta vai pakalpojuma pieteikuma numuru? Ir jāizlemj, kuru vienÄ«bu uzskatÄ«t par klientu, lai operatora sistēmā esoÅ”ie dati neatŔķirtos. ApÅ”aubāms ir arÄ« klienta vērtÄ«bas novērtējums - kurÅ” abonents uzņēmumam ir vērtÄ«gāks, kura lietotāja noturÄ“Å”ana prasa lielāku piepÅ«li un kuri jebkurā gadÄ«jumā ā€œnokritÄ«sā€ un nav jēgas tiem tērēt resursus.

Informācijas trÅ«kums. Ne visi pakalpojumu sniedzēja darbinieki spēj BigData komandai izskaidrot, kas tieÅ”i ietekmē abonentu atteikÅ”anos un kā tiek aprēķināti iespējamie rēķina faktori. Pat ja viņi vienu no tiem nosauca par ARPU, izrādās, ka to var aprēķināt dažādos veidos: vai nu ar periodiskiem klientu maksājumiem, vai ar automātisku norēķinu maksu. Un darba procesā rodas vēl miljons jautājumu. Vai modelis aptver visus klientus, kāda ir klienta noturÄ“Å”anas cena, vai ir jēga pārdomāt alternatÄ«vus modeļus un ko darÄ«t ar maldÄ«gi mākslÄ«gi noturētiem klientiem.

MērÄ·u izvirzÄ«Å”ana. Es zinu trÄ«s veidu iznākuma kļūdas, kuru dēļ operatori kļūst neapmierināti ar datubāzi.

  1. Pakalpojumu sniedzējs iegulda BigData, apstrādā gigabaitus informācijas, bet iegÅ«st rezultātu, ko varēja iegÅ«t lētāk. Tiek izmantotas vienkārÅ”as diagrammas un modeļi, primitÄ«va analÄ«tika. Izmaksas ir daudzkārt lielākas, bet rezultāts ir tāds pats.
  2. Operators saņem daudzpusÄ«gus datus kā izvadi, bet nesaprot, kā tos izmantot. Ir analÄ«tika ā€“ lÅ«k, tā ir saprotama un apjomÄ«ga, bet neder. Nav pārdomāts gala rezultāts, kas nevar sastāvēt no ā€œdatu apstrādesā€ mērÄ·a. Nepietiek ar apstrādi ā€“ analÄ«tikai jākļūst par pamatu biznesa procesu atjaunināŔanai.
  3. ŠķērŔļi BigData analytics lietoÅ”anai var bÅ«t novecojuÅ”i biznesa procesi un programmatÅ«ra, kas nav piemērota jauniem mērÄ·iem. Tas nozÄ«mē, ka viņi kļūdÄ«jās sagatavoÅ”anās posmā - viņi nepārdomāja darbÄ«bu algoritmu un lielo datu ievieÅ”anas posmus darbā.

Kāpēc

Par rezultātiem runājot. Es apskatīŔu lielo datu izmantoŔanas un monetizācijas veidus, ko jau izmanto telekomunikāciju operatori.
Pakalpojumu sniedzēji prognozē ne tikai abonentu aizplÅ«Å”anu, bet arÄ« bāzes staciju slodzi.

  1. Tiek analizēta informācija par abonentu kustÄ«bu, aktivitāti un frekvenču pakalpojumiem. Rezultāts: pārslodžu skaita samazināŔanās, optimizējot un modernizējot infrastruktÅ«ras problēmzonas.
  2. Telekomunikāciju operatori, atverot tirdzniecÄ«bas vietas, izmanto informāciju par abonentu Ä£eogrāfisko atraÅ”anās vietu un satiksmes blÄ«vumu. Tādējādi BigData analytics jau izmanto MTS un VimpelCom, lai plānotu jaunu biroju atraÅ”anās vietu.
  3. Pakalpojumu sniedzēji monetizē savus lielos datus, piedāvājot tos treÅ”ajām pusēm. BigData operatoru galvenie klienti ir komercbankas. Izmantojot datu bāzi, viņi uzrauga aizdomÄ«gas darbÄ«bas abonenta SIM kartē, kurai kartes ir piesaistÄ«tas, un izmanto riska vērtÄ“Å”anas, pārbaudes un uzraudzÄ«bas pakalpojumus. Un 2017. gadā Maskavas valdÄ«ba pieprasÄ«ja kustÄ«bu dinamiku, pamatojoties uz BigData datiem no Tele2, lai plānotu tehnisko un transporta infrastruktÅ«ru.
  4. BigData analytics ir zelta raktuves mārketinga speciālistiem, kuri, ja vēlas, var izveidot personalizētas reklāmas kampaņas pat tÅ«kstoÅ”iem abonentu grupu. Telekomunikāciju uzņēmumi apkopo sociālos profilus, patērētāju intereses un abonentu uzvedÄ«bas modeļus un pēc tam izmanto savāktos BigData, lai piesaistÄ«tu jaunus klientus. Bet liela mēroga veicināŔanai un PR plānoÅ”anai norēķiniem ne vienmēr ir pietiekami daudz funkcionalitātes: programmai vienlaikus ar detalizētu informāciju par klientiem ir jāņem vērā daudzi faktori.

Lai gan daži joprojām uzskata, ka BigData ir tukÅ”a frāze, lielais četrinieks ar to jau pelna naudu. MTS no lielo datu apstrādes seÅ”os mēneÅ”os nopelna 14 miljardus rubļu, un Tele2 ieņēmumus no projektiem palielināja trÄ«sarpus reizes. BigData no tendences pārvērÅ”as par must have, saskaņā ar kuru tiks pārbÅ«vēta visa telekomunikāciju operatoru struktÅ«ra.

Avots: www.habr.com

Pievieno komentāru