Groot data groot faktuur: oor BigData in telekommunikasie

In 2008 was BigData 'n nuwe term en 'n modieuse neiging. In 2019 is BigData 'n voorwerp van verkoop, 'n bron van wins en 'n rede vir nuwe rekeninge.

Verlede herfs het die Russiese regering 'n wetsontwerp begin om groot data te reguleer. Dit is verbode om mense uit die inligting te identifiseer, maar dit word toegelaat om dit op versoek van die federale owerhede te doen. Verwerking van BigData vir derde partye - slegs na kennisgewing van Roskomnadzor. Maatskappye met meer as 100 duisend netwerkadresse val onder die wet. En, natuurlik, waar sonder registers - dit is veronderstel om een ​​te skep met 'n lys van databasis operateurs. En as BigData voorheen nie deur almal ernstig opgeneem is nie, sal nou daarmee rekening gehou moet word.

Ek, as die direkteur van die faktuurontwikkelingsmaatskappy wat hierdie BigData verwerk, kan nie die databasis ignoreer nie. Ek sal aan groot data dink deur die prisma van telekommunikasie-operateurs, deur wie se faktuurstelsels elke dag inligting oor duisende intekenare vloei.

Stelling

Kom ons begin, soos in 'n wiskundeprobleem: eerstens bewys ons dat die data van telekommunikasie-operateurs BigDat genoem kan word. Standaard groot data word gekenmerk deur drie VVV-kenmerke, hoewel die aantal "V" in vrye interpretasies tot sewe bereik het.

volume. Die MVNO van Rostelecom alleen bedien meer as 'n miljoen intekenare. Sleutelgasheeroperateurs verwerk data van 44 miljoen tot 78 miljoen mense. Verkeer groei elke sekonde: in die eerste kwartaal van 2019 het intekenare reeds 3,3 miljard GB van selfone af navigeer.

Snelheid. Niemand beter as statistieke sal vertel oor die dinamika nie, so ek sal deur Cisco se voorspellings gaan. Teen 2021 sal 20% van IP-verkeer na mobiele verkeer gaan – dit sal binne vyf jaar amper verdriedubbel. 'n Derde van mobiele verbindings sal op M2M wees - die ontwikkeling van IoT sal lei tot 'n sesvoudige toename in verbindings. Die internet van dinge sal nie net winsgewend word nie, maar ook hulpbron-intensief, so sommige operateurs sal net daarop fokus. En diegene wat IoT as 'n aparte diens ontwikkel, sal dubbele verkeer ontvang.

Verskeidenheid. Diversiteit is 'n subjektiewe konsep, maar telekommunikasie-operateurs weet eintlik byna alles van hul intekenare. Van naam en paspoortbesonderhede tot telefoonmodel, aankope, plekke wat besoek is en belangstellings. Volgens die Yarovaya-wet word medialêers vir ses maande gestoor. Kom ons neem dit dus as 'n aksioma dat die versamelde data divers is.

Sagteware en metodologie

Verskaffers is een van die hoofverbruikers van BigData, so die meeste grootdata-ontledingstegnieke is van toepassing op die telekommunikasiebedryf. Nog 'n vraag is wie gereed is om te belê in die ontwikkeling van ML, KI, Deep Learning, belê in datasentrums en data-ontginning. Volwaardige werk met die databasis bestaan ​​uit infrastruktuur en 'n span, waarvan nie almal die koste kan bekostig nie. Dit is die moeite werd om op BigData te wed vir ondernemings wat reeds korporatiewe berging het of die databestuurmetodologie ontwikkel. Vir diegene wat nog nie gereed is vir langtermynbeleggings nie, raai ek jou aan om die sagteware-argitektuur geleidelik op te bou en komponente een vir een te installeer. Swaar modules en Hadoop kan vir laaste gelaat word. Min mense koop 'n klaargemaakte oplossing vir take soos Data Quality en Data Mining, meestal pas maatskappye die stelsel aan om by hul besonderhede en behoeftes te pas - op hul eie of met die hulp van ontwikkelaars.

Maar geen fakturering kan gewysig word om met BigData te werk nie. Inteendeel, nie net almal kan wysig nie. Min mense kan dit doen.

Drie tekens dat die faktuurstelsel 'n kans het om 'n databasisverwerkingsinstrument te word:

  • Horisontale skaalbaarheid. Sagteware moet buigsaam wees – ons praat van groot data. 'n Toename in die hoeveelheid inligting moet hanteer word met 'n proporsionele toename in die hardeware in die groepering.
  • Fout verdraagsaamheid. Ernstige voorafbetaalde stelsels is gewoonlik by verstek foutverdraagsaam: fakturering word in 'n groepering in verskeie geo-liggings ontplooi sodat hulle mekaar outomaties verseker. Daar behoort ook genoeg rekenaars in die Hadoop-kluster te wees ingeval een of meer misluk.
  • Ligging. Data moet op dieselfde bediener gestoor en verwerk word, anders kan jy onklaar raak met data-oordrag. Een van die gewilde Map-Reduce-benaderingskemas: HDFS-winkels, Spark-prosesse. Ideaal gesproke moet die sagteware naatloos in die datasentrum-infrastruktuur integreer en drie dinge in een kan doen: versamel, organiseer en ontleed inligting.

Span

Wat, hoe en vir watter doel die program groot data gaan verwerk, word deur die span besluit. Dikwels bestaan ​​dit uit een persoon - 'n datawetenskaplike. Alhoewel, na my mening, die minimum pakket van werknemers vir BigData ook 'n produkbestuurder, 'n data-ingenieur en 'n bestuurder insluit. Die eerste verstaan ​​die dienste, vertaal die tegniese taal in mens en omgekeerd. Die Data Engineer bring modelle tot lewe met Java/Scala en eksperimenteer met Masjienleer. Die leier koördineer, stel doelwitte, beheer die stadiums.

probleme

Dit is aan die kant van die BigData-span dat probleme gewoonlik ontstaan ​​wanneer data ingesamel en verwerk word. Die program moet verduidelik word wat om te versamel en hoe om te verwerk - om dit te verduidelik moet jy dit eers self verstaan. Maar verskaffers is nie so eenvoudig nie. Ek praat oor die probleme met die voorbeeld van die taak om die uitvloei van intekenare te verminder - dit is hierdie taak wat telekommunikasie-operateurs in die eerste plek probeer oplos met behulp van BigData.

Die stel van doelwitte. Bevoeg saamgestelde TOR en verskillende begrip van terme is 'n eeue-oue pyn, nie net vir vryskutwerkers nie. Selfs "verlore" intekenare kan op verskillende maniere geïnterpreteer word - as dat hulle vir 'n maand, ses maande of 'n jaar nie die operateur se dienste gebruik nie. En om 'n MVP te skep gebaseer op historiese data, moet jy die frekwensie van terugkeer van intekenare van die uitvloei verstaan ​​- diegene wat die verbinding van ander operateurs probeer het of die stad verlaat het en 'n ander nommer gebruik het. Nog 'n belangrike vraag: hoe lank voor die verwagte vertrek van die intekenaar moet die verskaffer dit bepaal en optree? 'n Halfjaar is te vroeg, 'n week is reeds te laat.

Vervanging van konsepte. Gewoonlik identifiseer operateurs 'n kliënt volgens telefoonnommer, so dit is logies dat tekens daardeur opgelaai moet word. Wat van 'n persoonlike rekening- of diensaansoeknommer? Dit is nodig om te besluit watter eenheid as 'n kliënt geneem moet word sodat die data in die operateur se stelsel nie verskil nie. Die skatting van die waarde van 'n kliënt is ook ter sprake - watter intekenaar is meer waardevol vir die maatskappy, watter gebruiker het meer moeite nodig om te behou, en watter sal in elk geval "afval" en dit maak geen sin om hulpbronne daaraan te bestee nie.

Gebrek aan inligting. Nie alle verskafferswerknemers is in staat om aan die BigData-span te verduidelik wat presies die uitvloei van intekenare raak en hoe moontlike faktore in fakturering oorweeg word nie. Selfs al is een van hulle genoem - ARPU - blyk dit dat dit op verskillende maniere bereken kan word: óf deur periodieke klantbetalings óf deur outomatiese faktuurkoste. En in die proses duik 'n miljoen ander vrae op. Dek die model alle kliënte, wat is die koste om 'n kliënt te behou, maak dit sin om deur alternatiewe modelle te dink en wat om te doen met kliënte wat verkeerdelik kunsmatig behou is.

Doelwitstelling. Ek weet van drie soorte resultaatverwante foute wat veroorsaak dat operateurs gefrustreerd raak met die databasis.

  1. Die verskaffer belê in BigData, verwerk gigagrepe se inligting, maar kry 'n resultaat wat goedkoper verkry kon word. Eenvoudige skemas en modelle, primitiewe analise word gebruik. Die koste is baie keer hoër, maar die resultaat is dieselfde.
  2. Die operateur ontvang veelvlakkige data by die uitset, maar verstaan ​​nie hoe om dit te gebruik nie. Daar is analise - hier is dit, verstaanbaar en lywig, maar daar is geen sin daaruit nie. Die eindresultaat is nie deurdink nie, wat nie kan bestaan ​​uit die doel om die "data te verwerk" nie. Verwerking is nie genoeg nie - analise moet die basis word vir die opdatering van besigheidsprosesse.
  3. 'n Hindernis vir die gebruik van BigData-analise kan verouderde besigheidsprosesse en sagteware wees wat nie geskik is vir nuwe doeleindes nie. Dit beteken dat hulle tydens die voorbereidingsfase fouteer het - hulle het nie oor die algoritme van aksies en die stadiums van die bekendstelling van BigData in die werk gedink nie.

hoekom

Van resultate gepraat. Ek gaan oor die maniere om BigData te gebruik en te monetiseer, wat telekommunikasie-operateurs reeds gebruik.
Verskaffers voorspel nie net die uitvloei van intekenare nie, maar ook die las op basisstasies.

  1. Inligting oor die beweging van intekenare, aktiwiteit en frekwensiedienste word ontleed. Gevolg: vermindering in die aantal oorladings as gevolg van die optimalisering en modernisering van probleemareas van die infrastruktuur.
  2. Telekommunikasie-operateurs gebruik inligting oor die geoligging van intekenare en verkeersdigtheid wanneer verkoopspunte oopgemaak word. BigData-analise word dus reeds deur MTS en Vimpelcom gebruik om die ligging van nuwe kantore te beplan.
  3. Verskaffers monetiseer hul eie groot data deur dit aan derdeparty-firmas aan te bied. Die hoofkliënte van BigData-operateurs is kommersiële banke. Met behulp van die databasis spoor hulle verdagte aktiwiteite op van die intekenaar se SIM-kaart waaraan die kaarte gekoppel is, gebruik risikotelling, verifikasie en moniteringdienste. En in 2017 het die Moskou-regering die dinamika van beweging volgens BigData-data van Tele2 versoek om tegniese en vervoerinfrastruktuur te beplan.
  4. BigData analytics is 'n goudmyn vir bemarkers wat gepersonaliseerde advertensieveldtogte vir soveel as duisende intekenaargroepe kan skep as hulle wil. Telekommunikasiemaatskappye versamel sosiale profiele, verbruikersbelange en gedragspatrone van intekenare, en gebruik dan die versamelde BigData om nuwe kliënte te lok. Maar vir grootskaalse beplanning van promosie en PR, het faktuur nie altyd genoeg funksionaliteit nie: die program moet gelyktydig baie faktore in ag neem in parallel met gedetailleerde inligting oor kliënte.

Terwyl iemand BigData steeds as 'n leë frase beskou, maak die Groot Vier reeds geld daarop. MTS verdien 14 miljard roebels op die verwerking van groot data in ses maande, en Tele2 het inkomste uit projekte met drie en 'n half keer verhoog. BigData verander van 'n neiging in 'n moet-hê, waaronder die hele struktuur van telekommunikasie-operateurs herbou sal word.

Bron: will.com

Voeg 'n opmerking