Big data big billing: o BigData u telekomu

U 2008. BigData je bio novi pojam i moderan trend. U 2019. BigData je predmet prodaje, izvor zarade i razlog za nove račune.

Prošle jeseni ruska je vlada pokrenula prijedlog zakona za reguliranje velikih podataka. Pojedinci se ne mogu identificirati iz informacija, ali to mogu učiniti na zahtjev federalnih vlasti. Obrada BigData za treće strane je samo nakon obavijesti Roskomnadzora. Tvrtke koje imaju više od 100 tisuća mrežnih adresa potpadaju pod zakon. I, naravno, gdje bez registara - trebalo bi stvoriti jedan s popisom operatora baze podataka. I ako prije ovaj Big Data nisu svi shvaćali ozbiljno, sada će se to morati uzeti u obzir.

Ja, kao direktor tvrtke za programere naplate koja obrađuje baš te velike podatke, ne mogu zanemariti bazu podataka. O velikim podacima promišljat ću kroz prizmu telekom operatera kroz čije sustave naplate svakodnevno prolaze tokovi informacija o tisućama pretplatnika.

Teorema

Počnimo, kao u matematičkom problemu: prvo dokazujemo da se podaci telekom operatera mogu nazvati BigDat. Tipično, velike podatke karakteriziraju tri VVV karakteristike, iako je u slobodnim interpretacijama broj "V" dosegao sedam.

Volumen. Samo MVNO tvrtke Rostelecom opslužuje više od milijun pretplatnika. Ključni host operateri obrađuju podatke za 44 do 78 milijuna ljudi. Promet raste svake sekunde: u prvom kvartalu 2019. pretplatnici su već pristupili 3,3 milijarde GB s mobilnih telefona.

Brzina. Nitko vam o dinamici ne može reći bolje od statistike, pa ću proći kroz Ciscove prognoze. Do 2021. 20% IP prometa odlazit će na mobilni promet – gotovo će se utrostručiti u pet godina. Trećina mobilnih veza bit će M2M – razvoj IoT-a dovest će do šesterostrukog povećanja veza. Internet stvari postat će ne samo profitabilan, već i resursno intenzivan, pa će se neki operateri fokusirati samo na njega. A oni koji razvijaju IoT kao zasebnu uslugu dobit će dupli promet.

Raznolikost. Raznolikost je subjektivan pojam, ali telekom operateri zaista znaju gotovo sve o svojim pretplatnicima. Od imena i podataka o putovnici do modela telefona, kupnji, posjećenih mjesta i interesa. Prema zakonu Yarovaya, medijske datoteke pohranjuju se šest mjeseci. Dakle, uzmimo kao aksiom da su prikupljeni podaci različiti.

Softver i metodologija

Pružatelji su jedni od glavnih potrošača BigData, tako da je većina tehnika analize velikih podataka primjenjiva u telekom industriji. Drugo je pitanje tko je spreman ulagati u razvoj ML-a, AI-ja, Deep Learninga, ulagati u podatkovne centre i data mining. Punopravni rad s bazom podataka sastoji se od infrastrukture i tima, čije troškove ne može svatko priuštiti. Poduzeća koja već imaju korporativno skladište ili razvijaju metodologiju upravljanja podacima trebala bi se kladiti na BigData. Za one koji još nisu spremni za dugoročna ulaganja, savjetujem postupnu izgradnju softverske arhitekture i instaliranje komponenti jednu po jednu. Možete ostaviti teške module i Hadoop za kraj. Malo ljudi kupuje gotovo rješenje za probleme kao što su kvaliteta podataka i rudarenje podataka; tvrtke uglavnom prilagođavaju sustav svojim specifičnim specifikacijama i potrebama - same ili uz pomoć programera.

Ali ne može se svaka naplata modificirati za rad s BigData. Ili bolje rečeno, ne samo da se sve može modificirati. Malo ljudi to može.

Tri znaka da sustav naplate ima šanse postati alat za obradu baze podataka:

  • Horizontalna skalabilnost. Softver mora biti fleksibilan – govorimo o velikim podacima. Povećanje količine informacija treba tretirati proporcionalnim povećanjem hardvera u klasteru.
  • Tolerancija kvarova. Ozbiljni prepaid sustavi obično su prema zadanim postavkama tolerantni na pogreške: naplata je raspoređena u klasteru na nekoliko geolokacija tako da automatski osiguravaju jedna drugu. Također bi trebalo biti dovoljno računala u Hadoop klasteru u slučaju da jedno ili više njih zakaže.
  • Mjesto. Podaci moraju biti pohranjeni i obrađeni na jednom poslužitelju, inače možete bankrotirati na prijenosu podataka. Jedna od popularnih shema pristupa Map-Reduce: HDFS pohrane, Spark procesi. U idealnom slučaju, softver bi se trebao neprimjetno integrirati u infrastrukturu podatkovnog centra i moći raditi tri stvari u jednom: prikupljati, organizirati i analizirati informacije.

Momčad

Što će, kako i za koju svrhu program obrađivati ​​big data odlučuje tim. Često se sastoji od jedne osobe – podatkovnog znanstvenika. Iako, po mom mišljenju, minimalni paket zaposlenika za Big Data uključuje i Product Managera, Data Engineera i Managera. Prvi razumije usluge, prevodi tehnički jezik u ljudski jezik i obrnuto. Data Engineer oživljava modele koristeći Java/Scala i eksperimentira sa strojnim učenjem. Voditelj koordinira, postavlja ciljeve i kontrolira faze.

Problemi

Upravo na strani BigData tima najčešće nastaju problemi prilikom prikupljanja i obrade podataka. Program treba objasniti što skupljati i kako to obrađivati ​​- da biste to objasnili, prvo morate sami razumjeti. Ali za pružatelje usluga stvari nisu tako jednostavne. Govorim o problemima na primjeru zadatka smanjenja odljeva pretplatnika - to je ono što telekom operateri prvenstveno pokušavaju riješiti uz pomoć Big Data.

Postaviti ciljeve. Dobro napisane tehničke specifikacije i različito razumijevanje pojmova bili su stoljećima stara boljka ne samo za freelancere. Čak i "otpali" pretplatnici mogu se tumačiti na različite načine - kao oni koji nisu koristili usluge operatera mjesec, šest mjeseci ili godinu dana. A da biste stvorili MVP na temelju povijesnih podataka, morate razumjeti učestalost povratka pretplatnika iz odljeva - onih koji su pokušali s drugim operaterima ili su napustili grad i upotrijebili drugi broj. Još jedno važno pitanje: koliko dugo prije očekivanog odlaska pretplatnika to treba utvrditi i poduzeti davatelj usluga? Šest mjeseci je prerano, tjedan dana prekasno.

Zamjena pojmova. Obično operateri identificiraju klijenta prema telefonskom broju, pa je logično da se znakovi učitavaju pomoću njega. Što je s vašim osobnim računom ili brojem zahtjeva za uslugu? Potrebno je odlučiti koju jedinicu uzeti kao klijenta kako podaci u sustavu operatera ne bi varirali. Upitna je i procjena vrijednosti klijenta - koji je pretplatnik vrjedniji za tvrtku, kojeg korisnika treba više napora zadržati, a koji će u svakom slučaju “otpasti” i na njih nema smisla trošiti sredstva.

Nedostatak informacija. Nisu svi zaposlenici pružatelja u stanju objasniti BigData timu što konkretno utječe na odljev pretplatnika i kako se izračunavaju mogući faktori u naplati. Čak i ako su nazvali jedan od njih - ARPU - ispada da se on može izračunati na različite načine: bilo periodičnim plaćanjem klijenta, bilo automatskim naplatama. A u procesu rada nameće se milijun drugih pitanja. Pokriva li model sve klijente, kolika je cijena zadržavanja klijenta, ima li smisla razmišljati o alternativnim modelima i što učiniti s klijentima koji su greškom umjetno zadržani.

Postavljanje ciljeva. Znam za tri vrste pogrešaka u ishodu zbog kojih operateri postaju frustrirani bazom podataka.

  1. Provajder ulaže u BigData, obrađuje gigabajte informacija, ali dobiva rezultat koji se mogao dobiti jeftinije. Koriste se jednostavni dijagrami i modeli, primitivna analitika. Trošak je višestruko veći, ali rezultat je isti.
  2. Operater prima višestruke podatke kao izlaz, ali ne razumije kako ih koristiti. Ima analitike – evo je, razumljive i pozamašne, ali nema nikakve koristi. Krajnji rezultat, koji se ne može sastojati od cilja „obrade podataka“, nije promišljen. Nije dovoljno procesirati – analitika bi trebala postati temelj za ažuriranje poslovnih procesa.
  3. Prepreke korištenju BigData analitike mogu biti zastarjeli poslovni procesi i softver neprikladni za nove namjene. To znači da su pogriješili u pripremnoj fazi - nisu razmislili o algoritmu radnji i fazama uvođenja Big Data u rad.

Što za

Kad smo već kod rezultata. Proći ću kroz načine korištenja i unovčavanja Big Data koje telekom operateri već koriste.
Pružatelji predviđaju ne samo odljev pretplatnika, već i opterećenje baznih stanica.

  1. Analiziraju se podaci o kretanju pretplatnika, aktivnostima i frekvencijama usluga. Rezultat: smanjenje broja preopterećenja zbog optimizacije i modernizacije problematičnih područja infrastrukture.
  2. Telekom operateri prilikom otvaranja prodajnih mjesta koriste podatke o geolokaciji pretplatnika i gustoći prometa. Stoga MTS i VimpelCom već koriste BigData analitiku za planiranje lokacije novih ureda.
  3. Pružatelji monetiziraju vlastite velike podatke nudeći ih trećim stranama. Glavni kupci BigData operatera su poslovne banke. Koristeći bazu podataka prate sumnjive aktivnosti SIM kartice pretplatnika na koju su kartice povezane te koriste usluge bodovanja rizika, verifikacije i praćenja. A 2017. godine moskovska vlada zatražila je od Tele2 dinamiku kretanja na temelju BigData podataka za planiranje tehničke i prometne infrastrukture.
  4. BigData analitika je zlatni rudnik za trgovce, koji mogu kreirati personalizirane reklamne kampanje za čak tisuće pretplatničkih grupa ako žele. Telekomunikacijske tvrtke agregiraju društvene profile, interese potrošača i obrasce ponašanja pretplatnika, a zatim koriste prikupljene BigData za privlačenje novih korisnika. Ali za planiranje velike promocije i PR-a, naplata nema uvijek dovoljno funkcionalnosti: program mora istovremeno uzeti u obzir mnoge čimbenike paralelno s detaljnim informacijama o klijentima.

Dok neki BigData još uvijek smatraju praznom frazom, Velika četvorka već zarađuje na njemu. MTS u šest mjeseci od obrade velikih podataka zaradi 14 milijardi rubalja, a Tele2 je tri i pol puta povećao prihode od projekata. BigData se iz trenda pretvara u must have pod kojim će se iznova izgraditi cjelokupna struktura telekom operatera.

Izvor: www.habr.com

Dodajte komentar