Suurte andmete suur arveldamine: BigData kohta telekommunikatsioonis

2008. aastal oli BigData uus termin ja moodne trend. 2019. aastal on BigData müügiobjekt, kasumiallikas ja uute arvete põhjus.

Eelmisel sügisel algatas Venemaa valitsus suurandmete reguleerimise eelnõu. Teabe põhjal ei pruugita isikuid tuvastada, kuid nad võivad seda teha föderaalvõimude taotlusel. BigData töötlemine kolmandate isikute jaoks toimub alles pärast Roskomnadzori teavitamist. Seaduse alla kuuluvad ettevõtted, millel on üle 100 tuhande võrguaadressi. Ja muidugi, kus ilma registriteta - see peaks looma andmebaasioperaatorite loendiga. Ja kui enne seda Big Datat kõik tõsiselt ei võtnud, siis nüüd tuleb sellega arvestada.

Mina kui arveldusarendusettevõtte direktor, kes töötleb just neid suurandmeid, ei saa andmebaasi ignoreerida. Mõtlen suurandmetele läbi sideoperaatorite prisma, kelle arveldussüsteemide kaudu liiguvad iga päev tuhandete tellijate kohta infovood.

Teoreem

Alustame nagu matemaatikaülesandes: kõigepealt tõestame, et sideoperaatorite andmeid võib nimetada BigDatiks. Tavaliselt iseloomustavad suurandmeid kolm VVV tunnust, kuigi vabas tõlgenduses ulatus V-de arv seitsmeni.

Helitugevus. Ainuüksi Rostelecomi MVNO teenindab rohkem kui miljonit abonenti. Peamised hostioperaatorid töötlevad andmeid 44–78 miljoni inimese kohta. Liiklus kasvab iga sekundiga: 2019. aasta esimeses kvartalis on abonendid mobiiltelefonidest ligi pääsenud juba 3,3 miljardile GB-le.

Kiirus. Keegi ei saa teile dünaamikast paremini rääkida kui statistika, seega vaatan läbi Cisco prognoosid. Aastaks 2021 läheb 20% IP-liiklusest mobiililiiklusesse – viie aastaga see peaaegu kolmekordistub. Kolmandik mobiiliühendustest saab olema M2M – asjade interneti areng toob kaasa ühenduste kuuekordse kasvu. Asjade internet ei muutu mitte ainult kasumlikuks, vaid ka ressursimahukaks, nii et mõned operaatorid keskenduvad ainult sellele. Ja need, kes arendavad asjade internetti eraldi teenusena, saavad topeltliiklust.

Mitmekesisus. Mitmekesisus on subjektiivne mõiste, kuid sideoperaatorid teavad oma abonentidest peaaegu kõike. Alates nimest ja passiandmetest kuni telefonimudeli, ostude, külastatud kohtade ja huvideni. Yarovaya seaduse kohaselt säilitatakse meediumifaile kuus kuud. Seega võtame aksioomina, et kogutud andmed on mitmekesised.

Tarkvara ja metoodika

Pakkujad on BigData üks peamisi tarbijaid, seega on enamik suurandmete analüüsi tehnikaid rakendatavad telekommunikatsioonitööstuses. Teine küsimus on, kes on valmis investeerima ML, AI, Deep Learning arendusse, investeerima andmekeskustesse ja andmekaevandusse. Täisväärtuslik töö andmebaasiga koosneb infrastruktuurist ja meeskonnast, mille kulusid igaüks endale lubada ei saa. Ettevõtted, millel on juba ettevõtte ladu või kes arendavad andmehaldusmetoodikat, peaksid panustama BigDatale. Neile, kes pole veel pikaajalisteks investeeringuteks valmis, soovitan tarkvaraarhitektuuri järk-järgult üles ehitada ja komponente ükshaaval paigaldada. Rasked moodulid ja Hadoopi võite jätta viimaseks. Vähesed inimesed ostavad valmislahendust selliste probleemide jaoks nagu andmekvaliteet ja andmekaevandamine; ettevõtted kohandavad süsteemi üldiselt oma spetsiifiliste spetsifikatsioonide ja vajadustega – ise või arendajate abiga.

Kuid mitte iga arveldust ei saa BigDataga töötamiseks muuta. Õigemini, mitte ainult kõike ei saa muuta. Vähesed inimesed saavad seda teha.

Kolm märki, mis näitavad, et arveldussüsteemil on võimalus saada andmebaasi töötlemise tööriist:

  • Horisontaalne skaleeritavus. Tarkvara peab olema paindlik – me räägime suurandmetest. Teabe hulga suurenemist tuleks käsitleda klastri riistvara proportsionaalse suurenemisega.
  • Veataluvus. Tõsised ettemakstud süsteemid on tavaliselt vaikimisi tõrketaluvusega: arveldamine rakendatakse klastris mitmes geograafilises asukohas, nii et need kindlustavad üksteist automaatselt. Samuti peaks Hadoopi klastris olema piisavalt arvuteid juhuks, kui üks või mitu ebaõnnestub.
  • Paikkond. Andmeid tuleb hoida ja töödelda ühes serveris, vastasel juhul võite andmeedastuses katki minna. Üks populaarsemaid Map-Reduce lähenemisskeeme: HDFS-poed, Spark-protsessid. Ideaalis peaks tarkvara sujuvalt integreeruma andmekeskuse infrastruktuuri ja suutma üheskoos teha kolme asja: koguda, korraldada ja analüüsida teavet.

Meeskond

Mida, kuidas ja mis eesmärgil programm suurandmeid töötleb, otsustab meeskond. Sageli koosneb see ühest inimesest – andmeteadlasest. Kuigi minu arvates on Big Data töötajate miinimumpaketis ka tootejuht, andmeinsener ja juht. Esimene saab teenustest aru, tõlgib tehnilise keele inimkeelde ja vastupidi. Data Engineer äratab mudelid ellu Java/Scala abil ja katsetab masinõppega. Juht koordineerib, seab eesmärgid ja kontrollib etappe.

Probleemid

Andmete kogumisel ja töötlemisel tekivad tavaliselt probleemid just BigData meeskonna poolt. Programm peab selgitama, mida koguda ja kuidas seda töödelda - selle selgitamiseks peate kõigepealt ise sellest aru saama. Kuid pakkujate jaoks pole asjad nii lihtsad. Räägin probleemidest abonentide katkemise vähendamise ülesande näitel - seda üritavad sideoperaatorid kõigepealt Big Data abil lahendada.

Eesmärkide seadmine. Hästi kirjutatud tehnilised kirjeldused ja erinevad arusaamad terminitest on olnud sajandeid vana valu mitte ainult vabakutseliste jaoks. Isegi "langenud" abonente saab tõlgendada erinevalt - kui neid, kes pole operaatori teenuseid kuu, kuus kuud või aasta kasutanud. Ja ajalooliste andmete põhjal MVP loomiseks peate mõistma abonentide tagasituleku sagedust churn'ist - need, kes proovisid teisi operaatoreid või lahkusid linnast ja kasutasid teist numbrit. Teine oluline küsimus: kui kaua enne abonendi lahkumist peaks teenusepakkuja selle kindlaks tegema ja tegutsema? Kuus kuud on liiga vara, nädal on liiga hilja.

Mõistete asendamine. Tavaliselt tuvastavad operaatorid kliendi telefoninumbri järgi, seega on loogiline, et sildid tuleks seda kasutades üles laadida. Kuidas on lood teie isikliku konto või teenusetaotluse numbriga? Tuleb otsustada, millist üksust kliendiks võtta, et operaatori süsteemis olevad andmed ei muutuks. Küsitav on ka kliendi väärtuse hindamine - kumb tellija on ettevõtte jaoks väärtuslikum, millise kasutaja hoidmine nõuab rohkem pingutust ja millised “kukkuvad” igal juhul ära ning nende peale pole mõtet ressurssi kulutada.

Info puudus. Mitte kõik teenusepakkuja töötajad ei suuda BigData meeskonnale selgitada, mis konkreetselt mõjutab abonentide vähenemist ja kuidas arvutatakse võimalikke arveldusfaktoreid. Isegi kui nad nimetasid ühe neist - ARPU -, selgub, et seda saab arvutada erineval viisil: kas perioodiliste kliendimaksete või automaatsete arveldustasude abil. Ja töö käigus tekib miljon muud küsimust. Kas mudel hõlmab kõiki kliente, mis on kliendi hoidmise hind, kas on mõtet mõelda alternatiivsete mudelite läbi ja mida teha klientidega, kes on ekslikult kunstlikult kinni peetud.

Eesmärkide seadmine. Tean kolme tüüpi tulemusvigu, mis põhjustavad operaatoritel andmebaasis pettumust.

  1. Pakkuja investeerib BigDatasse, töötleb gigabaite teavet, kuid saab tulemuse, mille oleks saanud odavamalt. Kasutatakse lihtsaid diagramme ja mudeleid, primitiivset analüütikat. Maksumus on mitu korda suurem, kuid tulemus on sama.
  2. Operaator saab väljundina mitmekülgseid andmeid, kuid ei mõista, kuidas neid kasutada. Analüütika on olemas – siin see on, arusaadav ja mahukas, aga sellest pole kasu. Lõpptulemus, mis ei saa koosneda eesmärgist "andmete töötlemine", pole läbi mõeldud. Töötlemisest ei piisa – analüütika peaks saama äriprotsesside uuendamise aluseks.
  3. BigData analüütika kasutamise takistuseks võivad olla vananenud äriprotsessid ja uueks otstarbeks sobimatu tarkvara. See tähendab, et nad tegid ettevalmistusetapis vea – ei mõelnud läbi tegevuste algoritmi ja Big Data töösse juurutamise etappe.

Mida

Rääkides tulemustest. Ma käsitlen suurandmete kasutamise ja raha teenimise viise, mida telekommunikatsioonioperaatorid juba kasutavad.
Pakkujad ennustavad mitte ainult abonentide väljavoolu, vaid ka tugijaamade koormust.

  1. Analüüsitakse teavet abonentide liikumise, aktiivsuse ja sagedusteenuste kohta. Tulemus: ülekoormuste arvu vähenemine infrastruktuuri probleemsete piirkondade optimeerimise ja kaasajastamise tõttu.
  2. Telekommunikatsioonioperaatorid kasutavad müügikohtade avamisel teavet abonentide geograafilise asukoha ja liiklustiheduse kohta. Seega kasutavad BigData analüütikat juba MTS ja VimpelCom uute kontorite asukoha planeerimisel.
  3. Pakkujad teenivad oma suurandmeid rahaks, pakkudes neid kolmandatele osapooltele. BigData operaatorite peamised kliendid on kommertspangad. Andmebaasi abil jälgivad nad abonendi SIM-kaardi kahtlast tegevust, millega kaardid on seotud, ning kasutavad riskiskoorimise, kontrollimise ja jälgimise teenuseid. Ja 2017. aastal nõudis Moskva valitsus Tele2-lt BigData andmetel põhinevat liikumisdünaamikat tehnilise ja transpordi infrastruktuuri planeerimiseks.
  4. BigData analüütika on turundajate kullakaevandus, kes saavad soovi korral luua isikupärastatud reklaamikampaaniaid tuhandetele tellijarühmadele. Telekommunikatsiooniettevõtted koondavad sotsiaalsed profiilid, tarbijate huvid ja abonentide käitumismustrid ning kasutavad seejärel kogutud BigDatat uute klientide meelitamiseks. Kuid suuremahuliste reklaamide ja PR-planeerimise jaoks ei ole arveldamisel alati piisavalt funktsionaalsust: programm peab paralleelselt klientide üksikasjaliku teabega arvestama paljusid tegureid.

Kuigi mõned peavad BigDatat endiselt tühjaks fraasiks, teenivad Suur Nelik sellega juba raha. MTS teenib kuue kuuga suurandmete töötlemiselt 14 miljardit rubla ning Tele2 suurendas projektitulu kolm ja pool korda. BigData on muutumas trendist must have, mille alla ehitatakse ümber kogu sideoperaatorite struktuur.

Allikas: www.habr.com

Lisa kommentaar