Big data big billing: o BigData v telekomu

Leta 2008 je bil BigData nov izraz in moden trend. V letu 2019 je BigData predmet prodaje, vir zaslužka in priložnost za nove račune.

Lansko jesen je ruska vlada sprožila predlog zakona za urejanje velikih podatkov. Prepovedano je identificirati ljudi iz informacij, vendar je to dovoljeno na zahtevo zveznih oblasti. Obdelava BigData za tretje osebe - samo po obvestilu Roskomnadzorja. Pod zakon sodijo podjetja z več kot 100 tisoč omrežnimi naslovi. In seveda kam brez registrov - ustvaril naj bi enega s seznamom operaterjev baz podatkov. In če pred tem BigData niso vsi jemali resno, bo zdaj z njim treba računati.

Kot direktor podjetja za razvoj obračunavanja, ki obdeluje te BigData, ne morem prezreti baze podatkov. O velikih podatkih bom razmišljal skozi prizmo telekomunikacijskih operaterjev, skozi katerih obračunske sisteme se vsak dan pretakajo informacije o tisočih naročnikih.

Izrek

Začnimo kot pri matematičnem problemu: najprej dokažemo, da podatke telekomunikacijskih operaterjev lahko imenujemo BigDat. Za standardne velike podatke so značilne tri značilnosti VVV, čeprav je v prostih interpretacijah število "V" segalo do sedem.

glasnost. Samo MVNO Rostelecoma služi več kot milijon naročnikom. Ključni operaterji gostiteljev obdelujejo podatke od 44 do 78 milijonov ljudi. Promet raste vsako sekundo: v prvem četrtletju 2019 so naročniki z mobilnih telefonov brskali že po 3,3 milijarde GB.

Hitrost. O dinamiki ne bo povedal nihče bolje od statistike, zato bom šel skozi Ciscove napovedi. Do leta 2021 bo 20 % IP prometa namenjenega mobilnemu prometu – v petih letih se bo skoraj potrojil. Tretjina mobilnih povezav bo na M2M – razvoj interneta stvari bo povzročil šestkratno povečanje povezav. Internet stvari bo postal ne le dobičkonosen, temveč tudi virsko intenziven, zato se bodo nekateri operaterji osredotočali le nanj. In tisti, ki razvijajo IoT kot ločeno storitev, bodo prejeli dvojni promet.

Raznolikost. Raznolikost je subjektiven pojem, a telekomunikacijski operaterji o svojih naročnikih res vedo skoraj vse. Od podatkov o imenu in potnem listu do modela telefona, nakupov, obiskanih krajev in zanimanj. V skladu z zakonom Yarovaya se medijske datoteke hranijo šest mesecev. Zato vzemimo kot aksiom, da so zbrani podatki raznoliki.

Programska oprema in metodologija

Ponudniki so eni glavnih porabnikov BigData, zato je večina tehnik analize velikih podatkov uporabnih v telekomunikacijski industriji. Drugo vprašanje je, kdo je pripravljen vlagati v razvoj ML, AI, Deep Learning, vlagati v podatkovne centre in podatkovno rudarjenje. Polnopravno delo z bazo podatkov je sestavljeno iz infrastrukture in ekipe, katerih stroški si ne morejo privoščiti vsi. Na BigData je vredno staviti za podjetja, ki že imajo korporativno shranjevanje ali razvijajo metodologijo upravljanja podatkov. Tistim, ki še niste pripravljeni na dolgoročna vlaganja, svetujem postopno gradnjo programske arhitekture in nameščanje komponent eno za drugo. Težke module in Hadoop lahko pustite za konec. Malokdo kupi že pripravljeno rešitev za naloge, kot sta Data Quality in Data Mining, večinoma podjetja prilagodijo sistem svojim specifikam in potrebam – sama ali s pomočjo razvijalcev.

Vendar nobenega zaračunavanja ni mogoče spremeniti za delo z BigData. Namesto tega ne more spreminjati le vsak. Malokdo to zmore.

Trije znaki, da ima sistem obračunavanja možnost, da postane orodje za obdelavo baze podatkov:

  • Horizontalna razširljivost. Programska oprema mora biti prilagodljiva – govorimo o velikih podatkih. Povečanje količine informacij je treba obravnavati s sorazmernim povečanjem strojne opreme v gruči.
  • Toleranca napak. Resni predplačniški sistemi so običajno privzeto tolerantni na napake: zaračunavanje je razporejeno v gruči na več geolokacijah, tako da samodejno zavarujejo drug drugega. V gruči Hadoop mora biti tudi dovolj računalnikov, če eden ali več odpove.
  • Kraj. Podatki morajo biti shranjeni in obdelani na istem strežniku, sicer lahko pri prenosu podatkov propadete. Ena izmed priljubljenih shem pristopa Map-Reduce: shranjevanja HDFS, procesi Spark. Idealno bi bilo, če bi se programska oprema brezhibno integrirala v infrastrukturo podatkovnega centra in bila sposobna narediti tri stvari v enem: zbirati, organizirati in analizirati informacije.

Ekipa

Kaj, kako in za kakšen namen bo program obdeloval velike podatke, odloča ekipa. Pogosto ga sestavlja ena oseba – podatkovni znanstvenik. Čeprav po mojem minimalni paket zaposlenih za BigData vključuje še Product managerja, Data Engineerja in managerja. Prvi razume storitve, prevaja tehnični jezik v človeški in obratno. Podatkovni inženir oživlja modele z Javo/Scala in eksperimentira s strojnim učenjem. Vodja usklajuje, postavlja cilje, nadzoruje etape.

Težave

Prav na strani ekipe BigData se največkrat pojavijo težave pri zbiranju in obdelavi podatkov. Programu je treba razložiti, kaj zbirati in kako obdelovati - da bi to razložili, ga morate najprej razumeti sami. A ponudniki niso tako enostavni. O težavah govorim na primeru naloge zmanjševanja odliva naročnikov - to nalogo skušajo predvsem rešiti telekomunikacijski operaterji s pomočjo BigData.

Postavljanje ciljev. Kompetentno sestavljen TOR in različno razumevanje izrazov je stoletja stara bolečina ne samo za svobodnjake. Tudi »izgubljene« naročnike si lahko razlagamo na različne načine – kot neuporabo storitev operaterja mesec, šest mesecev ali leto. Če želite ustvariti MVP na podlagi zgodovinskih podatkov, morate razumeti pogostost vračanja naročnikov iz odtoka - tistih, ki so poskusili povezavo drugih operaterjev ali zapustili mesto in uporabili drugo številko. Še eno pomembno vprašanje: koliko časa pred predvidenim odhodom naročnika naj ponudnik to ugotovi in ​​ukrepa? Pol leta je prezgodaj, en teden je že prepozno.

Zamenjava pojmov. Običajno operaterji stranko identificirajo po telefonski številki, zato je logično, da znake nalagajo oni. Kaj pa osebni račun ali številka vloge za storitev? Odločiti se je treba, katero enoto vzeti za stranko, da se podatki v sistemu operaterja ne bodo razlikovali. Pod vprašajem je tudi ocena vrednosti naročnika - kateri naročnik je za podjetje bolj vreden, katerega uporabnika se je treba bolj potruditi, da ga obdrži, kateri pa bo v vsakem primeru "odpadel" in zanje nima smisla trošiti sredstev.

Pomanjkanje informacij. Vsi zaposleni pri ponudniku ne znajo ekipi BigData pojasniti, kaj točno vpliva na odliv naročnikov in kako se možni dejavniki upoštevajo pri obračunavanju. Tudi če je bil eden od njih poimenovan - ARPU - se je izkazalo, da ga je mogoče izračunati na različne načine: bodisi z občasnimi plačili strank ali s samodejnimi zaračunavanjem. In ob tem se pojavi milijon drugih vprašanj. Ali model zajema vse kupce, kolikšen je strošek obdržanja kupca, ali je smiselno razmišljati o alternativnih modelih in kaj storiti s kupci, ki smo jih pomotoma umetno obdržali.

Postavljanje ciljev. Poznam tri vrste napak, povezanih z rezultati, zaradi katerih operaterji postanejo razočarani nad bazo podatkov.

  1. Ponudnik investira v BigData, obdela gigabajte informacij, a prejme rezultat, ki bi ga lahko dobili ceneje. Uporabljajo se preproste sheme in modeli, primitivna analitika. Stroški so večkrat višji, rezultat pa enak.
  2. Operater na izhodu prejme večplastne podatke, vendar ne razume, kako jih uporabiti. Obstaja analitika - tukaj je, razumljiva in obsežna, vendar v njej ni nobenega smisla. Končni rezultat ni premišljen, kar ne more biti sestavljeno iz cilja »obdelave podatkov«. Procesiranje ni dovolj – analitika naj postane osnova za posodabljanje poslovnih procesov.
  3. Ovira pri uporabi analitike BigData so lahko zastareli poslovni procesi in programska oprema, ki ni primerna za nove namene. To pomeni, da so se zmotili v pripravljalni fazi - niso razmišljali o algoritmu dejanj in fazah uvedbe BigData v delo.

Za kaj

Ko smo že pri rezultatih. Predstavil bom načine uporabe in monetizacije BigData, ki jih telekomunikacijski operaterji že uporabljajo.
Ponudniki ne napovedujejo le odliva naročnikov, ampak tudi obremenitev baznih postaj.

  1. Analizirani so podatki o gibanju naročnikov, dejavnosti in frekvenci storitev. Rezultat: zmanjšanje števila preobremenitev zaradi optimizacije in posodobitve problematičnih področij infrastrukture.
  2. Telekomunikacijski operaterji pri odpiranju prodajnih mest uporabljajo podatke o geolokaciji naročnikov in gostoti prometa. Tako analitiko BigData že uporabljata MTS in Vimpelcom za načrtovanje lokacije novih pisarn.
  3. Ponudniki monetizirajo lastne velike podatke tako, da jih ponudijo tretjim podjetjem. Glavne stranke operaterjev BigData so poslovne banke. S pomočjo podatkovne baze sledijo sumljivim aktivnostim naročniške SIM kartice, na katero so kartice povezane, uporabljajo storitve točkovanja tveganja, verifikacije in spremljanja. In leta 2017 je moskovska vlada od Tele2 zahtevala dinamiko gibanja po podatkih BigData za načrtovanje tehnične in prometne infrastrukture.
  4. Analitika BigData je zlata jama za tržnike, ki lahko ustvarijo prilagojene oglaševalske akcije za kar na tisoče skupin naročnikov, če to želijo. Telekomunikacijska podjetja združijo socialne profile, interese potrošnikov in vedenjske vzorce naročnikov ter nato uporabijo zbrane BigData za privabljanje novih strank. Toda za obsežno načrtovanje promocije in PR zaračunavanje nima vedno dovolj funkcionalnosti: program mora hkrati upoštevati številne dejavnike vzporedno s podrobnimi informacijami o strankah.

Medtem ko se nekomu BigData še vedno zdi prazna fraza, velika četverica na tem že služi denar. MTS je z obdelavo velikih podatkov v šestih mesecih zaslužil 14 milijard rubljev, Tele2 pa je prihodke od projektov povečal za triinpolkrat. BigData se iz trenda spreminja v must have, pod katerim se bo na novo zgradila celotna struktura telekomunikacijskih operaterjev.

Vir: www.habr.com

Dodaj komentar