Big data big billing: over BigData in telecom

In 2008 was BigData een nieuwe term en modetrend. Anno 2019 is BigData een verkoopobject, een bron van winst en aanleiding voor nieuwe rekeningen.

Afgelopen herfst heeft de Russische regering een wetsvoorstel ingediend om big data te reguleren. Individuen kunnen niet worden geïdentificeerd aan de hand van informatie, maar kunnen dit wel doen op verzoek van de federale autoriteiten. Verwerking van BigData voor derden vindt uitsluitend plaats na kennisgeving van Roskomnadzor. Bedrijven met meer dan 100 netwerkadressen vallen onder de wet. En natuurlijk, waar zonder registers, er een zou moeten worden gemaakt met een lijst met databaseoperators. En waar Big Data voorheen niet door iedereen serieus werd genomen, zal er nu rekening mee moeten worden gehouden.

Ik, als directeur van een factureringsontwikkelaar die deze Big Data verwerkt, kan de database niet negeren. Ik zal over big data nadenken door het prisma van telecomoperatoren, via wier factureringssystemen dagelijks informatiestromen over duizenden abonnees passeren.

Stelling

Laten we beginnen, zoals bij een wiskundig probleem: eerst bewijzen we dat de data van telecomoperatoren BigDat genoemd kunnen worden. Doorgaans worden big data gekenmerkt door drie VVV-kenmerken, hoewel bij vrije interpretaties het aantal ‘V’s’ zeven bedraagt.

Volume. Alleen al de MVNO van Rostelecom bedient meer dan een miljoen abonnees. Belangrijke hostoperatoren verwerken gegevens voor 44 tot 78 miljoen mensen. Het verkeer groeit elke seconde: in het eerste kwartaal van 2019 hadden abonnees al toegang tot 3,3 miljard GB vanaf mobiele telefoons.

Snelheid. Niemand kan je beter over de dynamiek vertellen dan statistieken, dus ik zal de voorspellingen van Cisco doornemen. In 2021 zal 20% van het IP-verkeer naar mobiel verkeer gaan; dit zal in vijf jaar tijd bijna verdrievoudigen. Een derde van de mobiele verbindingen zal M2M zijn – de ontwikkeling van IoT zal leiden tot een zesvoudige toename van het aantal verbindingen. Het internet der dingen zal niet alleen winstgevend worden, maar ook veel hulpbronnen verbruiken, zodat sommige exploitanten zich er alleen op zullen concentreren. En degenen die IoT als een aparte dienst ontwikkelen, zullen dubbel verkeer ontvangen.

Verscheidenheid. Diversiteit is een subjectief begrip, maar telecomoperatoren weten werkelijk vrijwel alles over hun abonnees. Van naam en paspoortgegevens tot telefoonmodel, aankopen, bezochte plaatsen en interesses. Volgens de Yarovaya-wet worden mediabestanden zes maanden bewaard. Laten we dus als axioma aannemen dat de verzamelde gegevens gevarieerd zijn.

Software en methodologie

Providers zijn een van de belangrijkste consumenten van BigData, dus de meeste big data-analysetechnieken zijn toepasbaar op de telecomsector. Een andere vraag is wie bereid is te investeren in de ontwikkeling van ML, AI, Deep Learning, te investeren in datacenters en datamining. Volwaardig werken met een database bestaat uit infrastructuur en een team, waarvan niet iedereen de kosten kan betalen. Bedrijven die al over een bedrijfsmagazijn beschikken of een Data Governance-methodologie aan het ontwikkelen zijn, moeten op BigData wedden. Voor degenen die nog niet klaar zijn voor langetermijninvesteringen, raad ik je aan om de softwarearchitectuur geleidelijk op te bouwen en de componenten één voor één te installeren. Je kunt de zware modules en Hadoop als laatste achterlaten. Weinig mensen kopen een kant-en-klare oplossing voor problemen als Data Quality en Data Mining; bedrijven passen het systeem over het algemeen aan hun specifieke specificaties en behoeften aan – zelf of met hulp van ontwikkelaars.

Maar niet elke facturering kan worden aangepast om met BigData te werken. Of beter gezegd, niet alleen alles kan worden aangepast. Er zijn maar weinig mensen die dit kunnen.

Drie tekenen dat een facturatiesysteem de kans heeft om een ​​databaseverwerkingstool te worden:

  • Horizontale schaalbaarheid. Software moet flexibel zijn – we hebben het over big data. Een toename van de hoeveelheid informatie moet worden gecompenseerd door een proportionele toename van de hardware in het cluster.
  • Fouttolerantie. Serieuze prepaidsystemen zijn meestal standaard fouttolerant: de facturering wordt in een cluster op verschillende geolocaties ingezet, zodat ze elkaar automatisch verzekeren. Er moeten ook voldoende computers in het Hadoop-cluster zijn voor het geval er een of meer uitvallen.
  • Plaats. Gegevens moeten op één server worden opgeslagen en verwerkt, anders kunt u failliet gaan in de gegevensoverdracht. Een van de populaire Map-Reduce-aanpakschema's: HDFS-winkels, Spark-processen. Idealiter zou de software naadloos moeten integreren in de datacenterinfrastructuur en drie dingen in één kunnen doen: informatie verzamelen, organiseren en analyseren.

Team

Wat, hoe en met welk doel het programma big data zal verwerken, wordt bepaald door het team. Vaak bestaat deze uit één persoon: een datawetenschapper. Al omvat het minimumpakket aan medewerkers voor Big Data naar mijn mening ook een Productmanager, Data Engineer en Manager. De eerste begrijpt de dienstverlening, vertaalt technische taal naar menselijke taal en omgekeerd. Data Engineer brengt modellen tot leven met behulp van Java/Scala en experimenteert met Machine Learning. De manager coördineert, stelt doelen en controleert de fasen.

Problemen

Het is aan de kant van het BigData-team dat er meestal problemen ontstaan ​​bij het verzamelen en verwerken van gegevens. Het programma moet uitleggen wat het moet verzamelen en hoe het moet worden verwerkt. Om dit uit te leggen, moet je het eerst zelf begrijpen. Maar voor aanbieders ligt het niet zo eenvoudig. Ik heb het over de problemen aan de hand van het voorbeeld van de taak om het abonneeverloop terug te dringen. Dit is wat telecomoperatoren in de eerste plaats proberen op te lossen met behulp van Big Data.

Doelen stellen. Goed geschreven technische specificaties en verschillende interpretaties van termen zijn niet alleen voor freelancers een eeuwenoude pijn. Zelfs "weggevallen" abonnees kunnen op verschillende manieren worden geïnterpreteerd - als degenen die de diensten van de operator een maand, zes maanden of een jaar niet hebben gebruikt. En om een ​​MVP te creëren op basis van historische gegevens, moet u de frequentie van de retourzendingen van abonnees uit churn begrijpen - degenen die andere operators hebben geprobeerd of de stad hebben verlaten en een ander nummer hebben gebruikt. Een andere belangrijke vraag: hoe lang voordat de abonnee naar verwachting vertrekt, moet de aanbieder dit vaststellen en actie ondernemen? Zes maanden is te vroeg, een week is te laat.

Vervanging van concepten. Normaal gesproken identificeren operators een klant aan de hand van het telefoonnummer, dus het is logisch dat de borden met dat telefoonnummer worden geüpload. Hoe zit het met uw persoonlijke account- of serviceaanvraagnummer? Het is noodzakelijk om te beslissen welke eenheid als client moet worden genomen, zodat de gegevens in het systeem van de operator niet variëren. Het beoordelen van de waarde van een klant is ook twijfelachtig: welke abonnee is waardevoller voor het bedrijf, welke gebruiker meer moeite kost om te behouden, en welke in ieder geval "afvallen" en het heeft geen zin om er middelen aan uit te geven.

Gebrek aan informatie. Niet alle medewerkers van de provider kunnen aan het BigData-team uitleggen wat specifiek van invloed is op het abonneeverloop en hoe mogelijke factureringsfactoren worden berekend. Zelfs als ze er één zouden noemen: ARPU, blijkt dat deze op verschillende manieren kan worden berekend: hetzij door periodieke klantbetalingen, hetzij door automatische factureringskosten. En tijdens het werk rijzen er nog een miljoen andere vragen. Bestrijkt het model alle klanten, wat is de prijs voor het behouden van een klant, heeft het zin om na te denken over alternatieve modellen, en wat te doen met klanten die ten onrechte kunstmatig zijn behouden?

Doelstelling. Ik ken drie soorten uitkomstfouten die ervoor zorgen dat operators gefrustreerd raken door de database.

  1. De aanbieder investeert in BigData, verwerkt gigabytes aan informatie, maar krijgt een resultaat dat goedkoper had kunnen worden verkregen. Er wordt gebruik gemaakt van eenvoudige diagrammen en modellen en primitieve analyses. De kosten zijn vele malen hoger, maar het resultaat is hetzelfde.
  2. De operator ontvangt veelzijdige gegevens als uitvoer, maar begrijpt niet hoe hij deze moet gebruiken. Er is analyse - hier is het, begrijpelijk en omvangrijk, maar het heeft geen nut. Over het eindresultaat, dat niet kan bestaan ​​uit het doel ‘gegevens verwerken’, is niet goed nagedacht. Het is niet genoeg om te verwerken; analytics moet de basis worden voor het updaten van bedrijfsprocessen.
  3. Belemmeringen voor het gebruik van BigData-analyses kunnen verouderde bedrijfsprocessen en software zijn die niet geschikt is voor nieuwe doeleinden. Dit betekent dat ze een fout hebben gemaakt in de voorbereidingsfase: ze hebben niet nagedacht over het algoritme van acties en de stadia van het introduceren van Big Data in het werk.

Wat voor

Over resultaten gesproken. Ik zal de manieren bespreken waarop telecomoperatoren al gebruik maken van Big Data en er inkomsten mee kunnen genereren.
Aanbieders voorspellen niet alleen de uitstroom van abonnees, maar ook de belasting van basisstations.

  1. Informatie over abonneebewegingen, activiteit en frequentiediensten wordt geanalyseerd. Resultaat: vermindering van het aantal overbelastingen door optimalisatie en modernisering van probleemgebieden van de infrastructuur.
  2. Telecomoperatoren gebruiken informatie over de geolocatie van abonnees en verkeersdichtheid bij het openen van verkooppunten. Zo worden BigData-analyses al gebruikt door MTS en VimpelCom om de locatie van nieuwe kantoren te plannen.
  3. Aanbieders verdienen geld aan hun eigen big data door deze aan derden aan te bieden. De belangrijkste klanten van BigData-exploitanten zijn commerciële banken. Met behulp van de database monitoren ze verdachte activiteiten op de simkaart van de abonnee waaraan de kaarten zijn gekoppeld, en maken ze gebruik van risicoscore-, verificatie- en monitoringdiensten. En in 2017 verzocht de regering in Moskou om bewegingsdynamiek op basis van BigData-gegevens van Tele2 om de technische en transportinfrastructuur te plannen.
  4. BigData-analyses zijn een goudmijn voor marketeers, die desgewenst gepersonaliseerde advertentiecampagnes kunnen maken voor maar liefst duizenden abonneegroepen. Telecombedrijven verzamelen sociale profielen, consumenteninteresses en gedragspatronen van abonnees en gebruiken de verzamelde BigData vervolgens om nieuwe klanten aan te trekken. Maar voor grootschalige promotie- en PR-planning heeft facturering niet altijd voldoende functionaliteit: het programma moet tegelijkertijd rekening houden met veel factoren, parallel met gedetailleerde informatie over klanten.

Hoewel sommigen BigData nog steeds als een loze kreet beschouwen, verdienen de Big Four er al geld mee. MTS verdient in zes maanden 14 miljard roebel aan de verwerking van big data, en Tele2 heeft de omzet uit projecten drieënhalf keer zo groot gemaakt. BigData verandert van een trend in een must-have, waarbij de hele structuur van telecomoperatoren opnieuw wordt opgebouwd.

Bron: www.habr.com

Voeg een reactie