Big data big billing: o BigData u telekomu

U 2008. BigData je bio novi termin i moderan trend. U 2019. BigData je predmet prodaje, izvor zarade i razlog za nove račune.

Ruska vlada je prošle jeseni pokrenula nacrt zakona za regulisanje velikih podataka. Pojedinci se ne mogu identifikovati iz informacija, ali to mogu učiniti na zahtjev saveznih vlasti. Obrada BigData za treće strane vrši se samo nakon obavještenja Roskomnadzora. Kompanije koje imaju više od 100 hiljada mrežnih adresa potpadaju pod zakon. I, naravno, gde bez registara - trebalo bi da se napravi jedan sa listom operatora baze podataka. I ako prije ove velike podatke nisu svi shvaćali ozbiljno, sada će se morati uzeti u obzir.

Ja, kao direktor kompanije za razvoj naplate koja obrađuje ove velike podatke, ne mogu zanemariti bazu podataka. O velikim podacima ću razmišljati kroz prizmu telekom operatera, kroz čije sisteme naplate svakodnevno prolaze tokovi informacija o hiljadama pretplatnika.

Teorema

Počnimo, kao u matematičkom problemu: prvo dokazujemo da se podaci telekom operatera mogu nazvati BigDat. Tipično, velike podatke karakterišu tri VVV karakteristike, iako je u slobodnim interpretacijama broj “V” dostigao sedam.

Volume. Samo Rostelecomov MVNO opslužuje više od milion pretplatnika. Ključni operateri domaćini rukuju podacima za 44 do 78 miliona ljudi. Promet raste svake sekunde: u prvom kvartalu 2019. pretplatnici su već pristupili 3,3 milijarde GB s mobilnih telefona.

Brzina. Niko vam ne može reći o dinamici bolje od statistike, pa ću proći kroz Ciscove prognoze. Do 2021. 20% IP saobraćaja će ići na mobilni saobraćaj – skoro će se utrostručiti za pet godina. Trećina mobilnih veza bit će M2M – razvoj IoT-a će dovesti do šestostrukog povećanja konekcija. Internet stvari će postati ne samo profitabilan, već i intenzivan resursima, pa će se neki operateri fokusirati samo na njega. A oni koji razvijaju IoT kao zasebnu uslugu dobiće dvostruki promet.

Raznolikost. Raznolikost je subjektivan pojam, ali telekom operateri zaista znaju gotovo sve o svojim pretplatnicima. Od imena i podataka o pasošu do modela telefona, kupovina, posjećenih mjesta i interesovanja. Prema zakonu Yarovaya, medijski fajlovi se čuvaju šest meseci. Dakle, uzmimo to kao aksiom da su prikupljeni podaci različiti.

Softver i metodologija

Provajderi su jedni od glavnih potrošača BigData, tako da je većina tehnika analize velikih podataka primjenjiva na telekomunikacijsku industriju. Drugo je pitanje ko je spreman da ulaže u razvoj ML, AI, Deep Learning, investira u data centre i data mining. Punopravan rad s bazom podataka sastoji se od infrastrukture i tima, čije troškove ne može svatko priuštiti. Preduzeća koja već imaju korporativno skladište ili razvijaju metodologiju upravljanja podacima trebalo bi da se klade na BigData. Za one koji još nisu spremni za dugoročna ulaganja, savjetujem da postepeno nadograđuju softversku arhitekturu i instaliraju komponente jednu po jednu. Teške module i Hadoop možete ostaviti za kraj. Malo ljudi kupuje gotova rješenja za probleme kao što su kvaliteta podataka i rudarenje podataka; kompanije općenito prilagođavaju sistem svojim specifičnim specifikacijama i potrebama - same ili uz pomoć programera.

Ali ne može se svaka naplata modificirati za rad s BigData. Ili bolje rečeno, ne samo da se sve može modificirati. Malo ljudi to može.

Tri znaka da sistem naplate ima šansu da postane alat za obradu baze podataka:

  • Horizontalna skalabilnost. Softver mora biti fleksibilan – govorimo o velikim podacima. Povećanje količine informacija treba tretirati proporcionalnim povećanjem hardvera u klasteru.
  • Tolerancije grešaka. Ozbiljni prepaid sistemi su obično prema zadanim postavkama tolerantni na greške: naplata je raspoređena u klasteru na nekoliko geolokacija tako da automatski osiguravaju jedni druge. Takođe bi trebalo da bude dovoljno računara u Hadoop klasteru u slučaju da jedan ili više njih ne uspe.
  • Lokalitet. Podaci moraju biti pohranjeni i obrađeni na jednom serveru, inače možete propasti u prijenosu podataka. Jedna od popularnih šema pristupa Map-Reduce: HDFS skladišta, Spark procesi. U idealnom slučaju, softver bi se trebao neprimjetno integrirati u infrastrukturu podatkovnog centra i biti u mogućnosti da radi tri stvari u jednoj: prikuplja, organizira i analizira informacije.

tim

Šta, kako i u koju svrhu će program obrađivati ​​velike podatke odlučuje tim. Često se sastoji od jedne osobe – naučnika podataka. Iako, po mom mišljenju, minimalni paket zaposlenih za Big Data uključuje i Product Manager, Data Engineer i Manager. Prvi razumije usluge, prevodi tehnički jezik na ljudski jezik i obrnuto. Data Engineer oživljava modele koristeći Java/Scala i eksperimentiše sa mašinskim učenjem. Menadžer koordinira, postavlja ciljeve i kontroliše faze.

Problemi

Kod BigData tima obično nastaju problemi prilikom prikupljanja i obrade podataka. Program treba da objasni šta sakupljati i kako to obraditi - da biste to objasnili, prvo morate sami da razumete. Ali za provajdere stvari nisu tako jednostavne. O problemima govorim na primjeru zadatka smanjenja odljeva pretplatnika - to je ono što telekom operateri pokušavaju prije svega riješiti uz pomoć Big Data.

Postavljanje ciljeva. Dobro napisane tehničke specifikacije i različito razumijevanje pojmova bili su stoljetna muka ne samo za freelancere. Čak i "ispušteni" pretplatnici mogu se tumačiti na različite načine - kao oni koji nisu koristili usluge operatera mjesec, šest mjeseci ili godinu dana. A da biste kreirali MVP na osnovu istorijskih podataka, morate razumjeti učestalost povrata pretplatnika iz odljeva - onih koji su pokušali druge operatere ili su napustili grad i koristili drugi broj. Još jedno važno pitanje: koliko dugo prije nego što se pretplatnik očekuje da ode, to bi provajder trebao utvrditi i poduzeti nešto? Šest mjeseci je prerano, sedmica je prekasno.

Zamjena pojmova. Obično operateri identifikuju klijenta po broju telefona, pa je logično da se znakovi uploaduju pomoću njega. Šta je sa vašim ličnim računom ili brojem aplikacije za uslugu? Potrebno je odlučiti koju jedinicu uzeti kao klijenta da podaci u sistemu operatera ne variraju. Upitna je i procjena vrijednosti klijenta - koji pretplatnik je vrijedniji za kompaniju, koji korisnik zahtijeva više truda da zadrži, a koji će u svakom slučaju „otpasti“ i nema smisla trošiti sredstva na njih.

Nedostatak informacija. Nisu svi zaposlenici provajdera u mogućnosti da objasne BigData timu šta konkretno utiče na odliv pretplatnika i kako se izračunavaju mogući faktori u naplati. Čak i ako su jednu od njih nazvali - ARPU - ispostavilo se da se on može izračunati na različite načine: bilo periodičnim uplatama klijenata, bilo automatskim naplatama. A u procesu rada nameće se milion drugih pitanja. Da li model pokriva sve klijente, koja je cijena zadržavanja klijenta, ima li smisla razmišljati o alternativnim modelima i šta učiniti sa klijentima koji su greškom umjetno zadržani.

Postavljanje ciljeva. Znam za tri vrste grešaka u ishodu koje uzrokuju da operateri postanu frustrirani bazom podataka.

  1. Provajder ulaže u BigData, obrađuje gigabajte informacija, ali dobija rezultat koji je mogao biti jeftiniji. Koriste se jednostavni dijagrami i modeli, primitivna analitika. Trošak je višestruko veći, ali rezultat je isti.
  2. Operator prima višestruke podatke kao izlaz, ali ne razumije kako ih koristiti. Ima analitike - evo je, razumljiva i obimna, ali nema koristi. Krajnji rezultat, koji se ne može sastojati od cilja „obrade podataka“, nije promišljen. Nije dovoljno obraditi – analitika bi trebala postati osnova za ažuriranje poslovnih procesa.
  3. Prepreke za korištenje BigData analitike mogu biti zastarjeli poslovni procesi i softver neprikladan za nove svrhe. To znači da su pogriješili u fazi pripreme - nisu razmišljali o algoritmu akcija i fazama uvođenja Big Data u rad.

Za šta

Govoreći o rezultatima. Proći ću preko načina korištenja i monetizacije velikih podataka koje telekom operateri već koriste.
Provajderi predviđaju ne samo odliv pretplatnika, već i opterećenje baznih stanica.

  1. Analiziraju se informacije o kretanju pretplatnika, aktivnostima i frekvencijama. Rezultat: smanjenje broja preopterećenja zbog optimizacije i modernizacije problematičnih područja infrastrukture.
  2. Telekom operateri prilikom otvaranja prodajnih mjesta koriste informacije o geolokaciji pretplatnika i gustini prometa. Tako BigData analitiku već koriste MTS i VimpelCom za planiranje lokacija novih kancelarija.
  3. Provajderi unovčavaju svoje velike podatke nudeći ih trećim stranama. Glavni klijenti BigData operatera su komercijalne banke. Koristeći bazu podataka prate sumnjive aktivnosti SIM kartice pretplatnika na koju su kartice povezane, te koriste usluge bodovanja rizika, verifikacije i praćenja. A 2017. godine, moskovska vlada je zatražila dinamiku kretanja na osnovu BigData podataka od Tele2 za planiranje tehničke i transportne infrastrukture.
  4. BigData analitika je zlatni rudnik za trgovce, koji mogu kreirati personalizirane reklamne kampanje za čak hiljade grupa pretplatnika ako žele. Telekom kompanije agregiraju društvene profile, interese potrošača i obrasce ponašanja pretplatnika, a zatim koriste prikupljene BigData da privuku nove korisnike. Ali za masovnu promociju i PR planiranje, naplata nema uvijek dovoljno funkcionalnosti: program mora istovremeno uzeti u obzir mnoge faktore paralelno s detaljnim informacijama o klijentima.

Dok neki još uvijek smatraju BigData praznom frazom, Velika četvorka već zarađuje na tome. MTS za šest meseci od obrade velikih podataka zaradi 14 milijardi rubalja, a Tele2 je povećao prihod od projekata za tri i po puta. BigData se iz trenda pretvara u must have, pod kojim će se obnoviti cjelokupna struktura telekom operatera.

izvor: www.habr.com

Dodajte komentar