Bilio data mawr: am BigData mewn telathrebu

Yn 2008, roedd BigData yn derm newydd ac yn duedd ffasiynol. Yn 2019, mae BigData yn wrthrych gwerthu, yn ffynhonnell elw ac yn rheswm dros filiau newydd.

Y cwymp diwethaf, cychwynnodd llywodraeth Rwsia fil i reoleiddio data mawr. Efallai na fydd unigolion yn cael eu hadnabod o wybodaeth, ond gallant wneud hynny ar gais awdurdodau ffederal. Dim ond ar ôl hysbysu Roskomnadzor y mae prosesu BigData ar gyfer trydydd parti. Mae cwmnïau sydd â mwy na 100 mil o gyfeiriadau rhwydwaith yn dod o dan y gyfraith. Ac, wrth gwrs, lle heb gofrestrau - mae i fod i greu un gyda rhestr o weithredwyr cronfa ddata. Ac os cyn i'r Data Mawr hwn beidio â chael ei gymryd o ddifrif gan bawb, nawr bydd yn rhaid ei gymryd i ystyriaeth.

Ni allaf i, fel cyfarwyddwr cwmni datblygwr bilio sy'n prosesu'r Data Mawr iawn hwn, anwybyddu'r gronfa ddata. Byddaf yn meddwl am ddata mawr trwy brism gweithredwyr telathrebu, y mae eu systemau bilio yn llifo trwyddynt am filoedd o danysgrifwyr bob dydd.

Theorem

Gadewch i ni ddechrau, fel mewn problem mathemateg: yn gyntaf rydym yn profi y gellir galw data gweithredwyr telathrebu yn BigDat. Yn nodweddiadol, nodweddir data mawr gan dair nodwedd VVV, er mewn dehongliadau rhydd cyrhaeddodd nifer y “Vs” saith.

Cyfrol. Mae MVNO Rostelecom yn unig yn gwasanaethu mwy na miliwn o danysgrifwyr. Mae gweithredwyr cynnal allweddol yn trin data ar gyfer 44 i 78 miliwn o bobl. Mae traffig yn tyfu bob eiliad: yn chwarter cyntaf 2019, mae tanysgrifwyr eisoes wedi cyrchu 3,3 biliwn GB o ffonau symudol.

Cyflymder. Ni all unrhyw un ddweud wrthych am y ddeinameg yn well nag ystadegau, felly af trwy ragolygon Cisco. Erbyn 2021, bydd 20% o draffig IP yn mynd i draffig symudol - bydd bron yn treblu mewn pum mlynedd. Bydd traean o gysylltiadau symudol yn M2M - bydd datblygu IoT yn arwain at gynnydd chwe gwaith mewn cysylltiadau. Bydd Rhyngrwyd Pethau nid yn unig yn dod yn faes proffidiol, ond hefyd yn faes sy'n defnyddio llawer o adnoddau, felly bydd rhai gweithredwyr yn canolbwyntio arno yn unig. A bydd y rhai sy'n datblygu IoT fel gwasanaeth ar wahân yn derbyn traffig dwbl.

Amrywiaeth. Mae amrywiaeth yn gysyniad goddrychol, ond mae gweithredwyr telathrebu yn gwybod bron popeth am eu tanysgrifwyr. O fanylion enw a phasbort i fodel ffôn, pryniannau, lleoedd yr ymwelwyd â nhw a diddordebau. Yn ôl y gyfraith Yarovaya, mae ffeiliau cyfryngau yn cael eu storio am chwe mis. Felly gadewch i ni ei gymryd fel axiom bod y data a gesglir yn amrywiol.

Meddalwedd a methodoleg

Mae darparwyr yn un o brif ddefnyddwyr BigData, felly mae'r rhan fwyaf o'r technegau dadansoddi data mawr yn berthnasol i'r diwydiant telathrebu. Cwestiwn arall yw pwy sy'n barod i fuddsoddi yn natblygiad ML, AI, Deep Learning, buddsoddi mewn canolfannau data a chloddio data. Mae gwaith cyflawn gyda chronfa ddata yn cynnwys seilwaith a thîm, ac ni all pawb fforddio'r costau hyn. Dylai mentrau sydd eisoes â warws corfforaethol neu sy'n datblygu methodoleg Llywodraethu Data fetio ar BigData. I'r rhai nad ydynt eto'n barod ar gyfer buddsoddiadau hirdymor, fe'ch cynghorir i adeiladu'r bensaernïaeth feddalwedd yn raddol a gosod cydrannau fesul un. Gallwch adael y modiwlau trwm a Hadoop am y tro olaf. Ychydig iawn o bobl sy'n prynu datrysiad parod ar gyfer problemau fel Ansawdd Data a Chwyno Data; yn gyffredinol mae cwmnïau'n addasu'r system i'w hanghenion a'u hanghenion penodol - eu hunain neu gyda chymorth datblygwyr.

Ond ni ellir addasu pob bilio i weithio gyda BigData. Neu yn hytrach, nid yn unig y gellir addasu popeth. Ychydig iawn o bobl sy'n gallu gwneud hyn.

Tri arwydd bod gan system filio gyfle i ddod yn offeryn prosesu cronfa ddata:

  • Scalability llorweddol. Rhaid i feddalwedd fod yn hyblyg - rydym yn sôn am ddata mawr. Dylai cynnydd yn y swm o wybodaeth gael ei drin gan gynnydd cyfrannol mewn caledwedd yn y clwstwr.
  • Goddefgarwch bai. Mae systemau rhagdaledig difrifol fel arfer yn gallu goddef diffygion yn ddiofyn: mae bilio yn cael ei ddefnyddio mewn clwstwr mewn sawl geoleoliad fel eu bod yn yswirio ei gilydd yn awtomatig. Dylai fod digon o gyfrifiaduron hefyd yng nghlwstwr Hadoop rhag ofn i un neu fwy fethu.
  • Bro. Rhaid storio a phrosesu data ar un gweinydd, fel arall gallwch chi dorri ar drosglwyddo data. Un o'r cynlluniau dull Map-Reduce poblogaidd: siopau HDFS, prosesau Spark. Yn ddelfrydol, dylai'r feddalwedd integreiddio'n ddi-dor i seilwaith y ganolfan ddata a gallu gwneud tri pheth yn un: casglu, trefnu a dadansoddi gwybodaeth.

Tîm

Y tîm sy'n penderfynu ar beth, sut ac at ba ddiben y bydd y rhaglen yn prosesu data mawr. Yn aml mae'n cynnwys un person - gwyddonydd data. Er, yn fy marn i, mae'r pecyn lleiaf o weithwyr ar gyfer Data Mawr hefyd yn cynnwys Rheolwr Cynnyrch, Peiriannydd Data a Rheolwr. Mae'r cyntaf yn deall y gwasanaethau, yn trosi iaith dechnegol i iaith ddynol ac i'r gwrthwyneb. Mae Peiriannydd Data yn dod â modelau yn fyw gan ddefnyddio Java/Scala ac arbrofion gyda Machine Learning. Mae'r rheolwr yn cydlynu, gosod nodau, a rheoli'r camau.

Problemau

Ar ran tîm BigData y mae problemau fel arfer yn codi wrth gasglu a phrosesu data. Mae angen i'r rhaglen esbonio beth i'w gasglu a sut i'w brosesu - er mwyn egluro hyn, yn gyntaf mae angen i chi ei ddeall eich hun. Ond i ddarparwyr, nid yw pethau mor syml. Rwy'n siarad am y problemau gan ddefnyddio enghraifft y dasg o leihau corddi tanysgrifwyr - dyma beth mae gweithredwyr telathrebu yn ceisio ei ddatrys gyda chymorth Data Mawr yn y lle cyntaf.

Gosod nodau. Mae manylebau technegol wedi'u hysgrifennu'n dda a gwahanol ddealltwriaeth o dermau wedi bod yn boen canrifoedd oed nid yn unig i weithwyr llawrydd. Gellir dehongli hyd yn oed tanysgrifwyr “gollwng” mewn gwahanol ffyrdd - fel y rhai nad ydynt wedi defnyddio gwasanaethau'r gweithredwr am fis, chwe mis neu flwyddyn. Ac i greu MVP yn seiliedig ar ddata hanesyddol, mae angen i chi ddeall amlder dychweliadau tanysgrifwyr o gorddi - y rhai a roddodd gynnig ar weithredwyr eraill neu a adawodd y ddinas a defnyddio rhif gwahanol. Cwestiwn pwysig arall: pa mor hir cyn y disgwylir i'r tanysgrifiwr adael a ddylai'r darparwr benderfynu ar hyn a gweithredu? Mae chwe mis yn rhy gynnar, wythnos yn rhy hwyr.

Amnewid cysyniadau. Yn nodweddiadol, mae gweithredwyr yn nodi cleient yn ôl rhif ffôn, felly mae'n rhesymegol y dylid uwchlwytho'r arwyddion gan ei ddefnyddio. Beth am eich cyfrif personol neu rif cais gwasanaeth? Mae angen penderfynu pa uned y dylid ei chymryd fel cleient fel nad yw'r data yn system y gweithredwr yn amrywio. Mae asesu gwerth cleient hefyd yn amheus - pa danysgrifiwr sy'n fwy gwerthfawr i'r cwmni, pa ddefnyddiwr sydd angen mwy o ymdrech i'w gadw, a pha rai fydd yn “disgyn” beth bynnag ac nid oes unrhyw bwynt gwario adnoddau arnynt.

Diffyg gwybodaeth. Nid yw holl weithwyr y darparwr yn gallu esbonio i dîm BigData beth sy'n effeithio'n benodol ar gorddi tanysgrifwyr a sut mae ffactorau posibl mewn bilio yn cael eu cyfrifo. Hyd yn oed os ydynt yn enwi un ohonynt - ARPU - mae'n troi allan y gellir ei gyfrifo mewn gwahanol ffyrdd: naill ai drwy daliadau cleient cyfnodol, neu drwy daliadau bilio awtomatig. Ac yn y broses o waith, mae miliwn o gwestiynau eraill yn codi. A yw'r model yn cwmpasu pob cleient, beth yw'r pris ar gyfer cadw cleient, a oes unrhyw bwynt meddwl trwy fodelau amgen, a beth i'w wneud gyda chleientiaid sydd wedi'u cadw'n artiffisial ar gam.

Gosod nodau. Gwn am dri math o wallau canlyniad sy'n achosi i weithredwyr fynd yn rhwystredig gyda'r gronfa ddata.

  1. Mae'r darparwr yn buddsoddi mewn BigData, yn prosesu gigabeit o wybodaeth, ond yn cael canlyniad y gellid bod wedi'i gael yn rhatach. Defnyddir diagramau a modelau syml, dadansoddeg cyntefig. Mae'r gost lawer gwaith yn uwch, ond mae'r canlyniad yr un peth.
  2. Mae'r gweithredwr yn derbyn data amlochrog fel allbwn, ond nid yw'n deall sut i'w ddefnyddio. Mae dadansoddeg - dyma hi, yn ddealladwy ac yn swmpus, ond nid yw o unrhyw ddefnydd. Nid yw'r canlyniad terfynol, na all gynnwys y nod o “brosesu data,” wedi'i ystyried. Nid yw’n ddigon i’w brosesu – dylai dadansoddeg ddod yn sail ar gyfer diweddaru prosesau busnes.
  3. Gall rhwystrau i’r defnydd o ddadansoddeg BigData fod yn brosesau busnes hen ffasiwn a meddalwedd sy’n anaddas at ddibenion newydd. Mae hyn yn golygu eu bod wedi gwneud camgymeriad yn y cam paratoi - ni wnaethant feddwl trwy'r algorithm gweithredoedd a chamau cyflwyno Data Mawr i waith.

Pam

Wrth siarad am ganlyniadau. Byddaf yn mynd dros y ffyrdd o ddefnyddio Data Mawr a rhoi gwerth ariannol arno y mae gweithredwyr telathrebu eisoes yn ei ddefnyddio.
Mae darparwyr yn rhagweld nid yn unig all-lif y tanysgrifwyr, ond hefyd y llwyth ar orsafoedd sylfaen.

  1. Mae gwybodaeth am symudiadau tanysgrifwyr, gweithgaredd a gwasanaethau amlder yn cael ei dadansoddi. Canlyniad: gostyngiad yn nifer y gorlwytho oherwydd optimeiddio a moderneiddio meysydd problemus y seilwaith.
  2. Mae gweithredwyr telathrebu yn defnyddio gwybodaeth am geoleoliad tanysgrifwyr a dwysedd traffig wrth agor mannau gwerthu. Felly, mae MTS a VimpelCom eisoes yn defnyddio dadansoddiadau BigData i gynllunio lleoliad swyddfeydd newydd.
  3. Mae darparwyr yn rhoi arian i'w data mawr eu hunain trwy ei gynnig i drydydd partïon. Prif gwsmeriaid gweithredwyr BigData yw banciau masnachol. Gan ddefnyddio'r gronfa ddata, maent yn monitro gweithgareddau amheus cerdyn SIM y tanysgrifiwr y mae'r cardiau'n gysylltiedig ag ef, ac yn defnyddio gwasanaethau sgorio risg, gwirio a monitro. Ac yn 2017, gofynnodd llywodraeth Moscow am ddeinameg symud yn seiliedig ar ddata BigData o Tele2 i gynllunio seilwaith technegol a thrafnidiaeth.
  4. Mwynglawdd aur yw dadansoddeg BigData i farchnatwyr, a all greu ymgyrchoedd hysbysebu personol ar gyfer cymaint â miloedd o grwpiau tanysgrifwyr os dymunant. Mae cwmnïau telathrebu yn cyfuno proffiliau cymdeithasol, diddordebau defnyddwyr a phatrymau ymddygiad tanysgrifwyr, ac yna'n defnyddio'r BigData a gasglwyd i ddenu cwsmeriaid newydd. Ond ar gyfer hyrwyddo ar raddfa fawr a chynllunio cysylltiadau cyhoeddus, nid oes gan filio ddigon o ymarferoldeb bob amser: rhaid i'r rhaglen ystyried llawer o ffactorau ar yr un pryd â gwybodaeth fanwl am gleientiaid.

Tra bod rhai yn dal i ystyried BigData yn ymadrodd gwag, mae'r Pedwar Mawr eisoes yn gwneud arian arno. Mae MTS yn ennill 14 biliwn rubles o brosesu data mawr mewn chwe mis, a chynyddodd Tele2 refeniw o brosiectau deirgwaith a hanner. Mae BigData yn troi o fod yn duedd y mae'n rhaid ei chael, lle bydd strwythur cyfan gweithredwyr telathrebu yn cael ei ailadeiladu.

Ffynhonnell: hab.com

Ychwanegu sylw