2008. gadÄ BigData bija jauns termins un moderna tendence. 2019. gadÄ BigData ir pÄrdoÅ”anas objekts, peļÅas avots un iemesls jauniem rÄÄ·iniem.
PagÄjuÅ”Ä gada rudenÄ« Krievijas valdÄ«ba ierosinÄja likumprojektu par lielo datu regulÄÅ”anu. Personas var nebÅ«t identificÄtas pÄc informÄcijas, bet var to darÄ«t pÄc federÄlo iestÄžu pieprasÄ«juma. BigData apstrÄde treÅ”ajÄm pusÄm tiek veikta tikai pÄc Roskomnadzor paziÅojuma. Likums attiecas uz uzÅÄmumiem, kuriem ir vairÄk nekÄ 100 tÅ«kstoÅ”i tÄ«kla adreÅ”u. Un, protams, kur bez reÄ£istriem - paredzÄts izveidot tÄdu ar datu bÄzes operatoru sarakstu. Un, ja iepriekÅ” Å”os Big Data ne visi uztvÄra nopietni, tad tagad ar to bÅ«s jÄrÄÄ·inÄs.
Es kÄ norÄÄ·inu izstrÄdÄtÄja uzÅÄmuma direktors, kas apstrÄdÄ Å”os lielos datus, nevaru ignorÄt datubÄzi. Par lielajiem datiem domÄÅ”u caur telekomunikÄciju operatoru prizmu, caur kuru norÄÄ·inu sistÄmÄm ik dienas iziet informÄcijas plÅ«smas par tÅ«kstoÅ”iem abonentu.
TeorÄma
SÄksim kÄ matemÄtikas uzdevumÄ: vispirms pierÄdÄ«sim, ka telekomunikÄciju operatoru datus var saukt par BigDat. Parasti lielos datus raksturo trÄ«s VVV raksturlielumi, lai gan brÄ«vajÄs interpretÄcijÄs āVā skaits sasniedza septiÅus.
Apjoms. Rostelecom MVNO vien apkalpo vairÄk nekÄ miljonu abonentu. Galvenie resursdatora operatori apstrÄdÄ datus par 44 lÄ«dz 78 miljoniem cilvÄku. DatplÅ«sma pieaug katru sekundi: 2019. gada pirmajÄ ceturksnÄ« abonenti jau ir piekļuvuÅ”i 3,3 miljardiem GB no mobilajiem tÄlruÅiem.
Ätrums. Neviens nevar jums pastÄstÄ«t par dinamiku labÄk nekÄ statistika, tÄpÄc es apskatÄ«Å”u Cisco prognozes. LÄ«dz 2021. gadam 20% IP trafika tiks novirzÄ«ti mobilajai trafikai ā piecu gadu laikÄ tas gandrÄ«z trÄ«skÄrÅ”osies. TreÅ”daļa mobilo sakaru bÅ«s M2M ā IoT attÄ«stÄ«ba radÄ«s seÅ”kÄrtÄ«gu savienojumu pieaugumu. Lietu internets kļūs ne tikai ienesÄ«gs, bet arÄ« resursietilpÄ«gs, tÄpÄc daļa operatoru koncentrÄsies tikai uz to. Un tie, kas izstrÄdÄ IoT kÄ atseviŔķu pakalpojumu, saÅems dubultu trafiku.
DaudzveidÄ«ba. DaudzveidÄ«ba ir subjektÄ«vs jÄdziens, taÄu telekomunikÄciju operatori patieÅ”Äm zina gandrÄ«z visu par saviem abonentiem. No vÄrda un pases datiem lÄ«dz tÄlruÅa modelim, pirkumiem, apmeklÄtajÄm vietÄm un interesÄm. SaskaÅÄ ar Yarovaya likumu multivides faili tiek glabÄti seÅ”us mÄneÅ”us. TÄpÄc pieÅemsim to kÄ aksiomu, ka savÄktie dati ir dažÄdi.
Programmatūra un metodika
Pakalpojumu sniedzÄji ir vieni no galvenajiem BigData patÄrÄtÄjiem, tÄpÄc lielÄkÄ daļa lielo datu analÄ«zes metožu ir piemÄrojami telekomunikÄciju nozarei. Cits jautÄjums ir, kurÅ” ir gatavs investÄt ML, AI, Deep Learning attÄ«stÄ«bÄ, ieguldÄ«t datu centros un datu ieguvÄ. PilnvÄrtÄ«gs darbs ar datu bÄzi sastÄv no infrastruktÅ«ras un komandas, kuras izmaksas ne katrs var atļauties. UzÅÄmumiem, kuriem jau ir korporatÄ«vÄ noliktava vai kuri izstrÄdÄ datu pÄrvaldÄ«bas metodoloÄ£iju, vajadzÄtu likt likmes uz BigData. Tiem, kuri vÄl nav gatavi ilgtermiÅa investÄ«cijÄm, iesaku pakÄpeniski veidot programmatÅ«ras arhitektÅ«ru un instalÄt komponentus pa vienam. Smagos moduļus un Hadoop varat atstÄt pÄdÄjam. Tikai daži cilvÄki iegÄdÄjas gatavu risinÄjumu tÄdÄm problÄmÄm kÄ datu kvalitÄte un datu ieguve; uzÅÄmumi parasti pielÄgo sistÄmu savÄm specifikÄcijÄm un vajadzÄ«bÄm - paÅ”i vai ar izstrÄdÄtÄju palÄ«dzÄ«bu.
TaÄu ne visus norÄÄ·inus var mainÄ«t, lai tie darbotos ar BigData. PareizÄk sakot, ne tikai visu var modificÄt. Tikai daži cilvÄki to var izdarÄ«t.
TrÄ«s pazÄ«mes, kas liecina, ka norÄÄ·inu sistÄmai ir iespÄja kļūt par datu bÄzes apstrÄdes rÄ«ku:
- HorizontÄlÄ mÄrogojamÄ«ba. ProgrammatÅ«rai jÄbÅ«t elastÄ«gai ā mÄs runÄjam par lielajiem datiem. InformÄcijas apjoma palielinÄÅ”anÄs jÄaplÅ«ko ar proporcionÄlu aparatÅ«ras pieaugumu klasterÄ«.
- Kļūdu tolerance. Nopietnas priekÅ”apmaksas sistÄmas parasti pÄc noklusÄjuma ir izturÄ«gas pret kļūmÄm: norÄÄ·ini tiek izvietoti klasterÄ« vairÄkÄs Ä£eogrÄfiskajÄs vietÄs, lai tÄs automÄtiski apdroÅ”inÄtu viena otru. Hadoop klasterÄ« vajadzÄtu bÅ«t arÄ« pietiekami daudz datoru, ja viens vai vairÄki neizdodas.
- Vieta. Dati ir jÄuzglabÄ un jÄapstrÄdÄ vienÄ serverÄ«, pretÄjÄ gadÄ«jumÄ jÅ«s varat sabojÄt datu pÄrsÅ«tÄ«Å”anu. Viena no populÄrajÄm Map-Reduce pieejas shÄmÄm: HDFS veikali, Spark procesi. IdeÄlÄ gadÄ«jumÄ programmatÅ«rai vajadzÄtu nemanÄmi integrÄties datu centra infrastruktÅ«rÄ un vienÄ reizÄ veikt trÄ«s lietas: apkopot, kÄrtot un analizÄt informÄciju.
Komanda
Ko, kÄ un kÄdam nolÅ«kam programma apstrÄdÄs lielos datus, lemj komanda. Bieži vien tajÄ ir viena persona ā datu zinÄtnieks. Lai gan, manuprÄt, minimÄlajÄ Big Data darbinieku komplektÄ ietilpst arÄ« produktu vadÄ«tÄjs, datu inženieris un vadÄ«tÄjs. Pirmais saprot pakalpojumus, tulko tehnisko valodu cilvÄku valodÄ un otrÄdi. Datu inženieris atdzÄ«vina modeļus, izmantojot Java/Scala, un eksperimentÄ ar maŔīnmÄcÄ«Å”anos. VadÄ«tÄjs koordinÄ, izvirza mÄrÄ·us un kontrolÄ posmus.
ProblÄmas
ProblÄmas parasti rodas, vÄcot un apstrÄdÄjot datus no BigData komandas puses. Programmai ir jÄpaskaidro, ko vÄkt un kÄ to apstrÄdÄt ā lai to izskaidrotu, vispirms tas ir jÄsaprot paÅ”am. Bet pakalpojumu sniedzÄjiem lietas nav tik vienkÄrÅ”i. Es runÄju par problÄmÄm, izmantojot piemÄru par abonentu skaita samazinÄÅ”anas uzdevumu - tas ir tas, ko telekomunikÄciju operatori mÄÄ£ina atrisinÄt, pirmkÄrt, ar lielo datu palÄ«dzÄ«bu.
MÄrÄ·u izvirzÄ«Å”ana. Labi uzrakstÄ«tas tehniskÄs specifikÄcijas un atŔķirÄ«ga terminu izpratne ir bijusi gadsimtiem sena sÄpe ne tikai ÄrÅ”tata darbiniekiem. Pat āatkrituÅ”osā abonentus var interpretÄt dažÄdi - kÄ tos, kuri nav izmantojuÅ”i operatora pakalpojumus mÄnesi, seÅ”us mÄneÅ”us vai gadu. Un, lai izveidotu MVP, pamatojoties uz vÄsturiskiem datiem, jums ir jÄsaprot to abonentu atgrieÅ”anÄs biežums, kuri izmÄÄ£inÄja citus operatorus vai atstÄja pilsÄtu un izmantoja citu numuru. VÄl viens svarÄ«gs jautÄjums: cik ilgi pirms abonenta aizieÅ”anas pakalpojumu sniedzÄjam tas ir jÄnosaka un jÄrÄ«kojas? SeÅ”i mÄneÅ”i ir par agru, nedÄļa ir par vÄlu.
JÄdzienu aizstÄÅ”ana. Parasti operatori identificÄ klientu pÄc tÄlruÅa numura, tÄpÄc ir loÄ£iski, ka zÄ«mes ir augÅ”upielÄdÄjamas, izmantojot to. KÄ ir ar jÅ«su personÄ«gÄ konta vai pakalpojuma pieteikuma numuru? Ir jÄizlemj, kuru vienÄ«bu uzskatÄ«t par klientu, lai operatora sistÄmÄ esoÅ”ie dati neatŔķirtos. ApÅ”aubÄms ir arÄ« klienta vÄrtÄ«bas novÄrtÄjums - kurÅ” abonents uzÅÄmumam ir vÄrtÄ«gÄks, kura lietotÄja noturÄÅ”ana prasa lielÄku piepÅ«li un kuri jebkurÄ gadÄ«jumÄ ānokritÄ«sā un nav jÄgas tiem tÄrÄt resursus.
InformÄcijas trÅ«kums. Ne visi pakalpojumu sniedzÄja darbinieki spÄj BigData komandai izskaidrot, kas tieÅ”i ietekmÄ abonentu atteikÅ”anos un kÄ tiek aprÄÄ·inÄti iespÄjamie rÄÄ·ina faktori. Pat ja viÅi vienu no tiem nosauca par ARPU, izrÄdÄs, ka to var aprÄÄ·inÄt dažÄdos veidos: vai nu ar periodiskiem klientu maksÄjumiem, vai ar automÄtisku norÄÄ·inu maksu. Un darba procesÄ rodas vÄl miljons jautÄjumu. Vai modelis aptver visus klientus, kÄda ir klienta noturÄÅ”anas cena, vai ir jÄga pÄrdomÄt alternatÄ«vus modeļus un ko darÄ«t ar maldÄ«gi mÄkslÄ«gi noturÄtiem klientiem.
MÄrÄ·u izvirzÄ«Å”ana. Es zinu trÄ«s veidu iznÄkuma kļūdas, kuru dÄļ operatori kļūst neapmierinÄti ar datubÄzi.
- Pakalpojumu sniedzÄjs iegulda BigData, apstrÄdÄ gigabaitus informÄcijas, bet iegÅ«st rezultÄtu, ko varÄja iegÅ«t lÄtÄk. Tiek izmantotas vienkÄrÅ”as diagrammas un modeļi, primitÄ«va analÄ«tika. Izmaksas ir daudzkÄrt lielÄkas, bet rezultÄts ir tÄds pats.
- Operators saÅem daudzpusÄ«gus datus kÄ izvadi, bet nesaprot, kÄ tos izmantot. Ir analÄ«tika ā lÅ«k, tÄ ir saprotama un apjomÄ«ga, bet neder. Nav pÄrdomÄts gala rezultÄts, kas nevar sastÄvÄt no ādatu apstrÄdesā mÄrÄ·a. Nepietiek ar apstrÄdi ā analÄ«tikai jÄkļūst par pamatu biznesa procesu atjauninÄÅ”anai.
- Å Ä·ÄrŔļi BigData analytics lietoÅ”anai var bÅ«t novecojuÅ”i biznesa procesi un programmatÅ«ra, kas nav piemÄrota jauniem mÄrÄ·iem. Tas nozÄ«mÄ, ka viÅi kļūdÄ«jÄs sagatavoÅ”anÄs posmÄ - viÅi nepÄrdomÄja darbÄ«bu algoritmu un lielo datu ievieÅ”anas posmus darbÄ.
KÄpÄc
Par rezultÄtiem runÄjot. Es apskatÄ«Å”u lielo datu izmantoÅ”anas un monetizÄcijas veidus, ko jau izmanto telekomunikÄciju operatori.
Pakalpojumu sniedzÄji prognozÄ ne tikai abonentu aizplÅ«Å”anu, bet arÄ« bÄzes staciju slodzi.
- Tiek analizÄta informÄcija par abonentu kustÄ«bu, aktivitÄti un frekvenÄu pakalpojumiem. RezultÄts: pÄrslodžu skaita samazinÄÅ”anÄs, optimizÄjot un modernizÄjot infrastruktÅ«ras problÄmzonas.
- TelekomunikÄciju operatori, atverot tirdzniecÄ«bas vietas, izmanto informÄciju par abonentu Ä£eogrÄfisko atraÅ”anÄs vietu un satiksmes blÄ«vumu. TÄdÄjÄdi BigData analytics jau izmanto MTS un VimpelCom, lai plÄnotu jaunu biroju atraÅ”anÄs vietu.
- Pakalpojumu sniedzÄji monetizÄ savus lielos datus, piedÄvÄjot tos treÅ”ajÄm pusÄm. BigData operatoru galvenie klienti ir komercbankas. Izmantojot datu bÄzi, viÅi uzrauga aizdomÄ«gas darbÄ«bas abonenta SIM kartÄ, kurai kartes ir piesaistÄ«tas, un izmanto riska vÄrtÄÅ”anas, pÄrbaudes un uzraudzÄ«bas pakalpojumus. Un 2017. gadÄ Maskavas valdÄ«ba pieprasÄ«ja kustÄ«bu dinamiku, pamatojoties uz BigData datiem no Tele2, lai plÄnotu tehnisko un transporta infrastruktÅ«ru.
- BigData analytics ir zelta raktuves mÄrketinga speciÄlistiem, kuri, ja vÄlas, var izveidot personalizÄtas reklÄmas kampaÅas pat tÅ«kstoÅ”iem abonentu grupu. TelekomunikÄciju uzÅÄmumi apkopo sociÄlos profilus, patÄrÄtÄju intereses un abonentu uzvedÄ«bas modeļus un pÄc tam izmanto savÄktos BigData, lai piesaistÄ«tu jaunus klientus. Bet liela mÄroga veicinÄÅ”anai un PR plÄnoÅ”anai norÄÄ·iniem ne vienmÄr ir pietiekami daudz funkcionalitÄtes: programmai vienlaikus ar detalizÄtu informÄciju par klientiem ir jÄÅem vÄrÄ daudzi faktori.
Lai gan daži joprojÄm uzskata, ka BigData ir tukÅ”a frÄze, lielais Äetrinieks ar to jau pelna naudu. MTS no lielo datu apstrÄdes seÅ”os mÄneÅ”os nopelna 14 miljardus rubļu, un Tele2 ieÅÄmumus no projektiem palielinÄja trÄ«sarpus reizes. BigData no tendences pÄrvÄrÅ”as par must have, saskaÅÄ ar kuru tiks pÄrbÅ«vÄta visa telekomunikÄciju operatoru struktÅ«ra.
Avots: www.habr.com