Big data big billing: tungkol sa BigData sa telecom

Noong 2008, ang BigData ay isang bagong termino at sunod sa moda. Sa 2019, ang BigData ay isang object ng pagbebenta, isang pinagmumulan ng kita at isang dahilan para sa mga bagong bill.

Noong nakaraang taglagas, sinimulan ng gobyerno ng Russia ang isang panukalang batas upang ayusin ang malaking data. Maaaring hindi makilala ang mga indibidwal mula sa impormasyon, ngunit maaaring gawin ito sa kahilingan ng mga pederal na awtoridad. Ang pagpoproseso ng BigData para sa mga ikatlong partido ay pagkatapos lamang ng abiso ng Roskomnadzor. Nasa ilalim ng batas ang mga kumpanyang mayroong higit sa 100 libong mga address sa network. At, siyempre, kung saan walang mga rehistro - ito ay dapat na lumikha ng isa na may isang listahan ng mga operator ng database. At kung bago ang Big Data na ito ay hindi sineseryoso ng lahat, ngayon ay kailangan itong isaalang-alang.

Ako, bilang direktor ng isang kumpanya ng developer ng pagsingil na nagpoproseso ng napakalaking Data na ito, ay hindi maaaring balewalain ang database. Iisipin ko ang tungkol sa malaking data sa pamamagitan ng prisma ng mga operator ng telecom, kung saan ang mga sistema ng pagsingil ay dumadaloy ng impormasyon tungkol sa libu-libong subscriber araw-araw.

Teorama

Magsimula tayo, tulad ng sa isang problema sa matematika: una nating pinatunayan na ang data ng mga operator ng telecom ay matatawag na BigDat. Karaniwan, ang malaking data ay nailalarawan sa pamamagitan ng tatlong katangian ng VVV, bagama't sa mga libreng interpretasyon ang bilang ng "Vs" ay umabot sa pito.

Dami. Ang MVNO ng Rostelecom lamang ay nagsisilbi ng higit sa isang milyong subscriber. Ang mga pangunahing operator ng host ay humahawak ng data para sa 44 hanggang 78 milyong tao. Lumalaki ang trapiko bawat segundo: sa unang quarter ng 2019, na-access na ng mga subscriber ang 3,3 bilyong GB mula sa mga mobile phone.

Bilis. Walang makapagsasabi sa iyo tungkol sa dynamics na mas mahusay kaysa sa mga istatistika, kaya dadaan ako sa mga pagtataya ng Cisco. Pagsapit ng 2021, 20% ng trapiko ng IP ay mapupunta sa trapiko sa mobile - ito ay halos triple sa loob ng limang taon. Ang ikatlong bahagi ng mga koneksyon sa mobile ay magiging M2M – ang pagbuo ng IoT ay hahantong sa anim na beses na pagtaas ng mga koneksyon. Ang Internet of Things ay magiging hindi lamang kumikita, kundi pati na rin ang mapagkukunan-intensive, kaya ang ilang mga operator ay tututuon lamang dito. At ang mga bumuo ng IoT bilang isang hiwalay na serbisyo ay makakatanggap ng dobleng trapiko.

Iba't-ibang. Ang pagkakaiba-iba ay isang subjective na konsepto, ngunit ang mga operator ng telecom ay talagang alam ang halos lahat tungkol sa kanilang mga subscriber. Mula sa mga detalye ng pangalan at pasaporte hanggang sa modelo ng telepono, mga pagbili, mga lugar na binisita at mga interes. Ayon sa batas ng Yarovaya, ang mga file ng media ay naka-imbak sa loob ng anim na buwan. Kaya't kunin natin ito bilang isang axiom na ang data na nakolekta ay iba-iba.

Software at pamamaraan

Ang mga provider ay isa sa mga pangunahing consumer ng BigData, kaya karamihan sa mga diskarte sa pagsusuri ng malaking data ay naaangkop sa industriya ng telecom. Ang isa pang tanong ay kung sino ang handang mamuhunan sa pagbuo ng ML, AI, Deep Learning, mamuhunan sa mga data center at data mining. Ang buong trabaho na may isang database ay binubuo ng imprastraktura at isang koponan, ang mga gastos na hindi kayang bayaran ng lahat. Ang mga negosyong mayroon nang corporate warehouse o gumagawa ng pamamaraan ng Pamamahala ng Data ay dapat tumaya sa BigData. Para sa mga hindi pa handa para sa pangmatagalang pamumuhunan, ipinapayo ko sa iyo na unti-unting buuin ang arkitektura ng software at i-install ang mga bahagi nang paisa-isa. Maaari mong iwanan ang mabibigat na mga module at Hadoop sa huli. Ilang tao ang bumibili ng handa na solusyon para sa mga problema tulad ng Data Quality at Data Mining; karaniwang kino-customize ng mga kumpanya ang system sa kanilang mga partikular na detalye at pangangailangan - sila mismo o sa tulong ng mga developer.

Ngunit hindi lahat ng pagsingil ay maaaring baguhin upang gumana sa BigData. O sa halip, hindi lamang lahat ay maaaring mabago. Ilang tao ang makakagawa nito.

Tatlong palatandaan na ang isang sistema ng pagsingil ay may pagkakataon na maging isang tool sa pagpoproseso ng database:

  • Pahalang na scalability. Ang software ay dapat na may kakayahang umangkop - pinag-uusapan natin ang tungkol sa malaking data. Ang pagtaas sa dami ng impormasyon ay dapat tratuhin ng proporsyonal na pagtaas ng hardware sa cluster.
  • Pagpapahintulot sa kasalanan. Ang mga seryosong prepaid system ay kadalasang fault-tolerant bilang default: ang pagsingil ay naka-deploy sa isang cluster sa ilang geolocation upang awtomatiko nilang masiguro ang isa't isa. Dapat ding may sapat na mga computer sa Hadoop cluster kung sakaling mabigo ang isa o higit pa.
  • Lokalidad. Ang data ay dapat na nakaimbak at naproseso sa isang server, kung hindi, maaari kang masira sa paglipat ng data. Isa sa mga sikat na Map-Reduce approach scheme: Mga tindahan ng HDFS, mga proseso ng Spark. Sa isip, ang software ay dapat na walang putol na isama sa imprastraktura ng data center at magagawa ang tatlong bagay sa isa: mangolekta, ayusin at suriin ang impormasyon.

Koponan

Ano, paano at para sa anong layunin ang programa ay magpoproseso ng malaking data ay napagpasyahan ng koponan. Kadalasan ito ay binubuo ng isang tao - isang data scientist. Bagama't, sa aking opinyon, ang pinakamababang pakete ng mga empleyado para sa Big Data ay may kasamang Product Manager, Data Engineer, at Manager. Ang una ay nauunawaan ang mga serbisyo, nagsasalin ng teknikal na wika sa wika ng tao at vice versa. Binubuhay ng Data Engineer ang mga modelo gamit ang Java/Scala at mga eksperimento sa Machine Learning. Ang manager ay nag-coordinate, nagtatakda ng mga layunin, at kinokontrol ang mga yugto.

Mga Problema

Ito ay sa bahagi ng BigData team na ang mga problema ay karaniwang lumitaw kapag nangongolekta at nagpoproseso ng data. Kailangang ipaliwanag ng programa kung ano ang kolektahin at kung paano iproseso ito - upang maipaliwanag ito, kailangan mo munang maunawaan ito mismo. Ngunit para sa mga tagapagkaloob, ang mga bagay ay hindi gaanong simple. Pinag-uusapan ko ang tungkol sa mga problema gamit ang halimbawa ng gawain ng pagbawas ng subscriber churn - ito ang sinusubukan ng mga operator ng telecom na lutasin sa tulong ng Big Data sa unang lugar.

Pagtatakda ng mga layunin. Ang mahusay na pagkakasulat ng mga teknikal na detalye at iba't ibang pag-unawa sa mga termino ay naging isang siglong sakit hindi lamang para sa mga freelancer. Kahit na ang mga "nahulog" na mga subscriber ay maaaring bigyang-kahulugan sa iba't ibang paraan - tulad ng mga hindi gumamit ng mga serbisyo ng operator sa loob ng isang buwan, anim na buwan o isang taon. At upang lumikha ng isang MVP batay sa makasaysayang data, kailangan mong maunawaan ang dalas ng pagbabalik ng mga subscriber mula sa churn - ang mga sumubok ng ibang operator o umalis sa lungsod at gumamit ng ibang numero. Isa pang mahalagang tanong: gaano katagal bago inaasahang umalis ang subscriber dapat itong matukoy ng provider at kumilos? Masyadong maaga ang anim na buwan, huli na ang isang linggo.

Pagpapalit ng mga konsepto. Karaniwan, tinutukoy ng mga operator ang isang kliyente sa pamamagitan ng numero ng telepono, kaya lohikal na dapat i-upload ang mga palatandaan gamit ito. Paano ang iyong personal na account o numero ng aplikasyon ng serbisyo? Kinakailangang magpasya kung aling unit ang dapat kunin bilang isang kliyente upang hindi mag-iba ang data sa system ng operator. Ang pagtatasa sa halaga ng isang kliyente ay kaduda-dudang din - kung aling subscriber ang mas mahalaga para sa kumpanya, kung aling user ang nangangailangan ng higit na pagsisikap upang mapanatili, at kung alin ang "huhulog" sa anumang kaso at walang punto sa paggastos ng mga mapagkukunan sa kanila.

Kulang sa inpormasyon. Hindi lahat ng empleyado ng provider ay nakapagpaliwanag sa BigData team kung ano ang partikular na nakakaapekto sa subscriber churn at kung paano kinakalkula ang mga posibleng salik sa pagsingil. Kahit na pinangalanan nila ang isa sa kanila - ARPU - lumalabas na maaari itong kalkulahin sa iba't ibang paraan: alinman sa pamamagitan ng mga pana-panahong pagbabayad ng kliyente, o sa pamamagitan ng mga awtomatikong singil sa pagsingil. At sa proseso ng trabaho, isang milyong iba pang mga katanungan ang lumitaw. Sinasaklaw ba ng modelo ang lahat ng mga kliyente, kung ano ang presyo para sa pagpapanatili ng isang kliyente, mayroon bang anumang punto sa pag-iisip sa pamamagitan ng mga alternatibong modelo, at kung ano ang gagawin sa mga kliyente na nagkamali na napanatili nang artipisyal.

Pagtatakda ng layunin. May alam akong tatlong uri ng mga error sa resulta na nagiging sanhi ng pagkabigo ng mga operator sa database.

  1. Namumuhunan ang provider sa BigData, nagpoproseso ng mga gigabyte ng impormasyon, ngunit nakakakuha ng resulta na maaaring makuhang mas mura. Mga simpleng diagram at modelo, ginagamit ang primitive analytics. Ang gastos ay maraming beses na mas mataas, ngunit ang resulta ay pareho.
  2. Ang operator ay tumatanggap ng multifaceted data bilang output, ngunit hindi naiintindihan kung paano ito gamitin. Mayroong analytics - narito ito, naiintindihan at napakalaki, ngunit ito ay walang silbi. Ang huling resulta, na hindi maaaring binubuo ng layunin ng "pagproseso ng data," ay hindi pinag-isipan. Ito ay hindi sapat upang iproseso - ang analytics ay dapat na maging batayan para sa pag-update ng mga proseso ng negosyo.
  3. Ang mga hadlang sa paggamit ng BigData analytics ay maaaring hindi napapanahong mga proseso ng negosyo at software na hindi angkop para sa mga bagong layunin. Nangangahulugan ito na nagkamali sila sa yugto ng paghahanda - hindi nila naisip ang algorithm ng mga aksyon at ang mga yugto ng pagpapakilala ng Big Data sa trabaho.

Ano para sa

Nagsasalita ng mga resulta. Tatalakayin ko ang mga paraan ng paggamit at pagkakakitaan ng Big Data na ginagamit na ng mga telecom operator.
Hinuhulaan ng mga provider hindi lamang ang pag-agos ng mga subscriber, kundi pati na rin ang pagkarga sa mga base station.

  1. Ang impormasyon tungkol sa mga paggalaw ng subscriber, aktibidad at dalas ng mga serbisyo ay sinusuri. Resulta: pagbawas sa bilang ng mga labis na karga dahil sa pag-optimize at modernisasyon ng mga lugar ng problema ng imprastraktura.
  2. Gumagamit ang mga operator ng telecom ng impormasyon tungkol sa geolocation ng mga subscriber at density ng trapiko kapag nagbubukas ng mga punto ng pagbebenta. Kaya, ang BigData analytics ay ginagamit na ng MTS at VimpelCom upang planuhin ang lokasyon ng mga bagong opisina.
  3. Pinagkakakitaan ng mga provider ang sarili nilang malaking data sa pamamagitan ng pag-aalok nito sa mga third party. Ang mga pangunahing customer ng mga operator ng BigData ay mga komersyal na bangko. Gamit ang database, sinusubaybayan nila ang mga kahina-hinalang aktibidad ng SIM card ng subscriber kung saan naka-link ang mga card, at gumagamit ng risk scoring, verification at monitoring services. At noong 2017, hiniling ng gobyerno ng Moscow ang dynamics ng paggalaw batay sa data ng BigData mula sa Tele2 para magplano ng imprastraktura ng teknikal at transportasyon.
  4. Ang BigData analytics ay isang minahan ng ginto para sa mga marketer, na maaaring lumikha ng mga personalized na kampanya sa advertising para sa kasing dami ng libu-libong mga grupo ng subscriber kung pipiliin nila. Pinagsasama-sama ng mga kumpanya ng telecom ang mga social profile, mga interes ng consumer at mga pattern ng pag-uugali ng mga subscriber, at pagkatapos ay ginagamit ang nakolektang BigData upang makaakit ng mga bagong customer. Ngunit para sa malakihang pag-promote at pagpaplano ng PR, ang pagsingil ay hindi palaging may sapat na pag-andar: ang programa ay dapat sabay na isaalang-alang ang maraming mga kadahilanan na kahanay ng detalyadong impormasyon tungkol sa mga kliyente.

Habang itinuturing pa rin ng ilan ang BigData na isang walang laman na parirala, kumikita na ang Big Four dito. Ang MTS ay kumikita ng 14 bilyong rubles mula sa malaking pagpoproseso ng data sa anim na buwan, at ang Tele2 ay tumaas ng kita mula sa mga proyekto ng tatlo at kalahating beses. Ang BigData ay lumiliko mula sa isang trend sa isang dapat na mayroon, kung saan ang buong istraktura ng mga operator ng telecom ay muling itatayo.

Pinagmulan: www.habr.com

Magdagdag ng komento