Stór gögn stór innheimta: um BigData í fjarskiptum

Árið 2008 var BigData nýtt hugtak og smart stefna. Árið 2019 er BigData söluhlutur, hagnaðaruppspretta og ástæða fyrir nýjum víxlum.

Síðasta haust lagði rússnesk stjórnvöld fram frumvarp til að setja reglur um stór gögn. Ekki er hægt að bera kennsl á einstaklinga út frá upplýsingum, en geta gert það að beiðni alríkisyfirvalda. Vinnsla BigData fyrir þriðja aðila er aðeins eftir tilkynningu frá Roskomnadzor. Fyrirtæki sem hafa meira en 100 þúsund netföng falla undir lögin. Og, auðvitað, þar sem án skrár - það er ætlað að búa til einn með lista yfir rekstraraðila gagnagrunns. Og ef áður en þessi stóru gögn voru ekki tekin alvarlega af öllum, nú verður að taka tillit til þeirra.

Ég, sem forstjóri reikningsþróunarfyrirtækis sem vinnur þessi stóru gögn, get ekki hunsað gagnagrunninn. Ég mun hugsa um stór gögn í gegnum prisma fjarskiptafyrirtækja, þar sem innheimtukerfi þeirra streyma upplýsinga um þúsundir áskrifenda á hverjum degi.

Setning

Við skulum byrja, eins og í stærðfræðivandamáli: fyrst sönnum við að hægt er að kalla gögn fjarskiptafyrirtækja BigDat. Venjulega einkennast stór gögn af þremur VVV eiginleikum, þó að í frjálsum túlkunum hafi fjöldi „Vs“ náð sjö.

Bindi. MVNO Rostelecom einn þjónar meira en milljón áskrifendum. Lykilhýsingaraðilar sjá um gögn fyrir 44 til 78 milljónir manna. Umferð eykst á hverri sekúndu: á fyrsta ársfjórðungi 2019 hafa áskrifendur þegar fengið aðgang að 3,3 milljörðum GB úr farsímum.

Hraði. Enginn getur sagt þér frá gangverkinu betur en tölfræði, svo ég mun fara í gegnum spár Cisco. Árið 2021 munu 20% af IP-umferð fara í farsímaumferð - hún mun næstum þrefaldast á fimm árum. Þriðjungur farsímatenginga verður M2M – þróun IoT mun leiða til sexföldunar á tengingum. Internet of Things verður ekki aðeins arðbært, heldur einnig auðlindafrekt, svo sumir rekstraraðilar munu einbeita sér aðeins að því. Og þeir sem þróa IoT sem sérstaka þjónustu munu fá tvöfalda umferð.

Fjölbreytni. Fjölbreytni er huglægt hugtak, en fjarskiptafyrirtæki vita í raun nánast allt um áskrifendur sína. Allt frá nafni og vegabréfaupplýsingum til símagerð, kaupum, stöðum heimsóttum og áhugamálum. Samkvæmt Yarovaya-lögum eru fjölmiðlaskrár geymdar í sex mánuði. Svo við skulum taka því sem grundvallaratriði að gögnin sem safnað er eru fjölbreytt.

Hugbúnaður og aðferðafræði

Veitendur eru einn af helstu neytendum BigData, svo flestar stórgagnagreiningaraðferðir eiga við um fjarskiptaiðnaðinn. Önnur spurning er hver er tilbúinn til að fjárfesta í þróun ML, AI, Deep Learning, fjárfesta í gagnaverum og gagnavinnslu. Fullgild vinna með gagnagrunn samanstendur af innviðum og teymi, sem ekki allir hafa efni á. Fyrirtæki sem þegar eru með vöruhús fyrirtækja eða eru að þróa aðferðafræði gagnastjórnunar ættu að veðja á BigData. Fyrir þá sem eru ekki enn tilbúnir í langtímafjárfestingar ráðlegg ég þér að byggja smám saman upp hugbúnaðararkitektúrinn og setja upp íhluti einn af öðrum. Þú getur skilið þungu einingarnar og Hadoop eftir til síðasta. Fáir kaupa tilbúna lausn fyrir vandamál eins og Gagnagæði og Gagnanám; fyrirtæki sérsníða kerfið almennt að sínum sérstökum þörfum og þörfum – sjálf eða með hjálp þróunaraðila.

En ekki er hægt að breyta öllum reikningum til að vinna með BigData. Eða réttara sagt, ekki aðeins er hægt að breyta öllu. Fáir geta þetta.

Þrjú merki um að innheimtukerfi eigi möguleika á að verða gagnagrunnsvinnslutæki:

  • Lárétt sveigjanleiki. Hugbúnaður verður að vera sveigjanlegur - við erum að tala um stór gögn. Aukið magn upplýsinga ætti að meðhöndla með hlutfallslegri aukningu á vélbúnaði í klasanum.
  • Bilunarþol. Alvarleg fyrirframgreidd kerfi eru venjulega bilunarþolin sjálfgefið: innheimtu er beitt í þyrping á nokkrum landsvæðum þannig að þau tryggja sjálfkrafa hvert annað. Það ætti líka að vera nóg af tölvum í Hadoop klasanum ef ske kynni að ein eða fleiri bila.
  • Staðsetning. Gögn verða að vera geymd og unnin á einum netþjóni, annars geturðu farið á hausinn í gagnaflutningi. Eitt af vinsælustu Map-Reduce nálgunarkerfunum: HDFS verslanir, Spark ferli. Helst ætti hugbúnaðurinn að fella óaðfinnanlega inn í innviði gagnaversins og geta gert þrennt í einu: safna, skipuleggja og greina upplýsingar.

Team

Hvað, hvernig og í hvaða tilgangi forritið mun vinna stór gögn er ákveðið af teyminu. Oft samanstendur það af einum einstaklingi - gagnafræðingi. Þó að mínu mati inniheldur lágmarkspakki starfsmanna fyrir Big Data einnig vörustjóra, gagnaverkfræðing og framkvæmdastjóri. Sá fyrsti skilur þjónustuna, þýðir tæknimál á mannamál og öfugt. Data Engineer vekur módel til lífsins með því að nota Java/Scala og gerir tilraunir með vélanám. Stjórnandinn samhæfir, setur markmið og stjórnar stigunum.

Vandamál

Það er af hálfu BigData teymisins sem venjulega koma upp vandamál við söfnun og vinnslu gagna. Forritið þarf að útskýra hverju á að safna og hvernig á að vinna úr því - til að útskýra þetta þarftu fyrst að skilja það sjálfur. En fyrir veitendur eru hlutirnir ekki svo einfaldir. Ég er að tala um vandamálin með því að nota dæmið um verkefnið að draga úr áskrifendum - þetta er það sem fjarskiptafyrirtæki eru að reyna að leysa með hjálp Big Data í fyrsta lagi.

Að setja sér markmið. Vel skrifaðar tækniforskriftir og mismunandi skilningur á hugtökum hafa verið aldagamall sársauki, ekki aðeins fyrir sjálfstæðismenn. Jafnvel „hættir“ áskrifendur geta verið túlkaðir á mismunandi vegu - sem þá sem hafa ekki notað þjónustu símafyrirtækisins í mánuð, sex mánuði eða ár. Og til að búa til MVP byggt á sögulegum gögnum þarftu að skilja tíðni skila áskrifenda frá churn - þeirra sem reyndu aðra rekstraraðila eða fóru úr borginni og notuðu annað númer. Önnur mikilvæg spurning: hversu langan tíma áður en búist er við að áskrifandinn fari ætti veitandinn að ákveða þetta og grípa til aðgerða? Sex mánuðir er of snemmt, vika er of seint.

Skipting hugtaka. Venjulega auðkenna rekstraraðilar viðskiptavin með símanúmeri, svo það er rökrétt að skiltunum sé hlaðið upp með því að nota það. Hvað með persónulega reikninginn þinn eða þjónustuumsóknarnúmer? Nauðsynlegt er að ákveða hvaða einingu skuli taka sem viðskiptavin svo gögnin í kerfi símafyrirtækisins séu ekki breytileg. Mat á virði viðskiptavinar er líka vafasamt - hvor áskrifandinn er verðmætari fyrir fyrirtækið, hvaða notandi þarf meiri fyrirhöfn til að halda og hverjir munu „falla af“ í öllum tilvikum og það þýðir ekkert að eyða fjármagni í þá.

Skortur á upplýsingum. Ekki eru allir starfsmenn þjónustuveitunnar færir um að útskýra fyrir BigData teyminu hvað hefur sérstaklega áhrif á áskrifendur og hvernig hugsanlegir þættir í innheimtu eru reiknaðir. Jafnvel þótt þeir hafi nefnt einn þeirra - ARPU - kemur í ljós að það er hægt að reikna það á mismunandi vegu: annað hvort með reglubundnum greiðslum viðskiptavina eða með sjálfvirkum innheimtugjöldum. Og í vinnuferlinu vakna milljón aðrar spurningar. Nær módelið til allra viðskiptavina, hvað er verðið fyrir að halda viðskiptavinum, er einhver tilgangur í að hugsa í gegnum aðrar gerðir og hvað á að gera við viðskiptavini sem fyrir mistök hefur verið haldið tilbúnum.

Markmiðasetning. Ég veit um þrenns konar útkomuvillur sem valda því að rekstraraðilar verða svekktir með gagnagrunninn.

  1. Þjónustuveitan fjárfestir í BigData, vinnur gígabæta af upplýsingum en fær niðurstöðu sem hefði mátt fá ódýrari. Einfaldar skýringarmyndir og líkön, frumstæðar greiningar eru notaðar. Kostnaðurinn er margfalt hærri en niðurstaðan er sú sama.
  2. Rekstraraðili fær margþætt gögn sem úttak, en skilur ekki hvernig á að nota þau. Það er til greiningar - hér er hún, skiljanleg og fyrirferðarmikil, en hún gagnast ekki. Lokaniðurstaðan, sem getur ekki falist í því markmiði að „vinnsla gagna“, hefur ekki verið hugsað til enda. Það er ekki nóg að vinna - greiningar ættu að verða grunnur að uppfærslu viðskiptaferla.
  3. Hindranir fyrir notkun BigData greiningar geta verið gamaldags viðskiptaferli og hugbúnaður sem hentar ekki nýjum tilgangi. Þetta þýðir að þeir gerðu mistök á undirbúningsstigi - þeir hugsuðu ekki í gegnum reiknirit aðgerða og stigin við að koma Big Data inn í vinnuna.

Hvað fyrir

Talandi um úrslit. Ég mun fara yfir leiðir til að nota og afla tekna af stórum gögnum sem fjarskiptafyrirtæki eru nú þegar að nota.
Veitendur spá ekki aðeins fyrir um útflæði áskrifenda heldur einnig álag á grunnstöðvar.

  1. Upplýsingar um hreyfingar áskrifenda, virkni og tíðniþjónustu eru greindar. Niðurstaða: fækkun á ofhleðslu vegna hagræðingar og nútímavæðingar á vandamálasvæðum innviða.
  2. Fjarskiptafyrirtæki nota upplýsingar um landfræðilega staðsetningu áskrifenda og umferðarþéttleika þegar þeir opna sölustaði. Þannig eru BigData greiningar nú þegar notaðar af MTS og VimpelCom til að skipuleggja staðsetningu nýrra skrifstofur.
  3. Veitendur afla tekna af eigin stóru gögnum með því að bjóða þeim þriðja aðila. Helstu viðskiptavinir BigData rekstraraðila eru viðskiptabankar. Með því að nota gagnagrunninn fylgjast þeir með grunsamlegri starfsemi SIM-korts áskrifandans sem kortin eru tengd við og nota áhættustig, sannprófun og eftirlitsþjónustu. Og árið 2017 bað stjórnvöld í Moskvu um hreyfigetu byggða á BigData gögnum frá Tele2 til að skipuleggja tækni- og flutningsinnviði.
  4. BigData greiningar eru gullnáma fyrir markaðsfólk sem getur búið til persónulegar auglýsingaherferðir fyrir allt að þúsundir áskrifendahópa ef þeir kjósa. Fjarskiptafyrirtæki safna saman félagslegum prófílum, neytendahagsmunum og hegðunarmynstri áskrifenda og nota síðan söfnuð BigData til að laða að nýja viðskiptavini. En fyrir stórfellda kynningar- og PR áætlanagerð hefur innheimta ekki alltaf næga virkni: forritið verður samtímis að taka tillit til margra þátta samhliða nákvæmum upplýsingum um viðskiptavini.

Þó að sumir telji BigData enn tóma setningu, eru stóru fjórir þegar að græða á því. MTS þénar 14 milljarða rúblur af stórgagnavinnslu á sex mánuðum og Tele2 jók tekjur af verkefnum um þrisvar og hálft. BigData er að breytast úr þróun í must have, þar sem allt skipulag fjarskiptafyrirtækja verður endurreist.

Heimild: www.habr.com

Bæta við athugasemd