Yn 2008, roedd BigData yn derm newydd ac yn duedd ffasiynol. Yn 2019, mae BigData yn wrthrych gwerthu, yn ffynhonnell elw ac yn rheswm dros filiau newydd.
Y cwymp diwethaf, cychwynnodd llywodraeth Rwsia fil i reoleiddio data mawr. Efallai na fydd unigolion yn cael eu hadnabod o wybodaeth, ond gallant wneud hynny ar gais awdurdodau ffederal. Dim ond ar ôl hysbysu Roskomnadzor y mae prosesu BigData ar gyfer trydydd parti. Mae cwmnïau sydd â mwy na 100 mil o gyfeiriadau rhwydwaith yn dod o dan y gyfraith. Ac, wrth gwrs, lle heb gofrestrau - mae i fod i greu un gyda rhestr o weithredwyr cronfa ddata. Ac os cyn i'r Data Mawr hwn beidio â chael ei gymryd o ddifrif gan bawb, nawr bydd yn rhaid ei gymryd i ystyriaeth.
Ni allaf i, fel cyfarwyddwr cwmni datblygwr bilio sy'n prosesu'r Data Mawr iawn hwn, anwybyddu'r gronfa ddata. Byddaf yn meddwl am ddata mawr trwy brism gweithredwyr telathrebu, y mae eu systemau bilio yn llifo trwyddynt am filoedd o danysgrifwyr bob dydd.
Theorem
Gadewch i ni ddechrau, fel mewn problem mathemateg: yn gyntaf rydym yn profi y gellir galw data gweithredwyr telathrebu yn BigDat. Yn nodweddiadol, nodweddir data mawr gan dair nodwedd VVV, er mewn dehongliadau rhydd cyrhaeddodd nifer y “Vs” saith.
Cyfrol. Mae MVNO Rostelecom yn unig yn gwasanaethu mwy na miliwn o danysgrifwyr. Mae gweithredwyr cynnal allweddol yn trin data ar gyfer 44 i 78 miliwn o bobl. Mae traffig yn tyfu bob eiliad: yn chwarter cyntaf 2019, mae tanysgrifwyr eisoes wedi cyrchu 3,3 biliwn GB o ffonau symudol.
Cyflymder. Ni all unrhyw un ddweud wrthych am y ddeinameg yn well nag ystadegau, felly af trwy ragolygon Cisco. Erbyn 2021, bydd 20% o draffig IP yn mynd i draffig symudol - bydd bron yn treblu mewn pum mlynedd. Bydd traean o gysylltiadau symudol yn M2M - bydd datblygu IoT yn arwain at gynnydd chwe gwaith mewn cysylltiadau. Bydd Rhyngrwyd Pethau nid yn unig yn dod yn faes proffidiol, ond hefyd yn faes sy'n defnyddio llawer o adnoddau, felly bydd rhai gweithredwyr yn canolbwyntio arno yn unig. A bydd y rhai sy'n datblygu IoT fel gwasanaeth ar wahân yn derbyn traffig dwbl.
Amrywiaeth. Mae amrywiaeth yn gysyniad goddrychol, ond mae gweithredwyr telathrebu yn gwybod bron popeth am eu tanysgrifwyr. O fanylion enw a phasbort i fodel ffôn, pryniannau, lleoedd yr ymwelwyd â nhw a diddordebau. Yn ôl y gyfraith Yarovaya, mae ffeiliau cyfryngau yn cael eu storio am chwe mis. Felly gadewch i ni ei gymryd fel axiom bod y data a gesglir yn amrywiol.
Meddalwedd a methodoleg
Mae darparwyr yn un o brif ddefnyddwyr BigData, felly mae'r rhan fwyaf o'r technegau dadansoddi data mawr yn berthnasol i'r diwydiant telathrebu. Cwestiwn arall yw pwy sy'n barod i fuddsoddi yn natblygiad ML, AI, Deep Learning, buddsoddi mewn canolfannau data a chloddio data. Mae gwaith cyflawn gyda chronfa ddata yn cynnwys seilwaith a thîm, ac ni all pawb fforddio'r costau hyn. Dylai mentrau sydd eisoes â warws corfforaethol neu sy'n datblygu methodoleg Llywodraethu Data fetio ar BigData. I'r rhai nad ydynt eto'n barod ar gyfer buddsoddiadau hirdymor, fe'ch cynghorir i adeiladu'r bensaernïaeth feddalwedd yn raddol a gosod cydrannau fesul un. Gallwch adael y modiwlau trwm a Hadoop am y tro olaf. Ychydig iawn o bobl sy'n prynu datrysiad parod ar gyfer problemau fel Ansawdd Data a Chwyno Data; yn gyffredinol mae cwmnïau'n addasu'r system i'w hanghenion a'u hanghenion penodol - eu hunain neu gyda chymorth datblygwyr.
Ond ni ellir addasu pob bilio i weithio gyda BigData. Neu yn hytrach, nid yn unig y gellir addasu popeth. Ychydig iawn o bobl sy'n gallu gwneud hyn.
Tri arwydd bod gan system filio gyfle i ddod yn offeryn prosesu cronfa ddata:
- Scalability llorweddol. Rhaid i feddalwedd fod yn hyblyg - rydym yn sôn am ddata mawr. Dylai cynnydd yn y swm o wybodaeth gael ei drin gan gynnydd cyfrannol mewn caledwedd yn y clwstwr.
- Goddefgarwch bai. Mae systemau rhagdaledig difrifol fel arfer yn gallu goddef diffygion yn ddiofyn: mae bilio yn cael ei ddefnyddio mewn clwstwr mewn sawl geoleoliad fel eu bod yn yswirio ei gilydd yn awtomatig. Dylai fod digon o gyfrifiaduron hefyd yng nghlwstwr Hadoop rhag ofn i un neu fwy fethu.
- Bro. Rhaid storio a phrosesu data ar un gweinydd, fel arall gallwch chi dorri ar drosglwyddo data. Un o'r cynlluniau dull Map-Reduce poblogaidd: siopau HDFS, prosesau Spark. Yn ddelfrydol, dylai'r feddalwedd integreiddio'n ddi-dor i seilwaith y ganolfan ddata a gallu gwneud tri pheth yn un: casglu, trefnu a dadansoddi gwybodaeth.
Tîm
Y tîm sy'n penderfynu ar beth, sut ac at ba ddiben y bydd y rhaglen yn prosesu data mawr. Yn aml mae'n cynnwys un person - gwyddonydd data. Er, yn fy marn i, mae'r pecyn lleiaf o weithwyr ar gyfer Data Mawr hefyd yn cynnwys Rheolwr Cynnyrch, Peiriannydd Data a Rheolwr. Mae'r cyntaf yn deall y gwasanaethau, yn trosi iaith dechnegol i iaith ddynol ac i'r gwrthwyneb. Mae Peiriannydd Data yn dod â modelau yn fyw gan ddefnyddio Java/Scala ac arbrofion gyda Machine Learning. Mae'r rheolwr yn cydlynu, gosod nodau, a rheoli'r camau.
Problemau
Ar ran tîm BigData y mae problemau fel arfer yn codi wrth gasglu a phrosesu data. Mae angen i'r rhaglen esbonio beth i'w gasglu a sut i'w brosesu - er mwyn egluro hyn, yn gyntaf mae angen i chi ei ddeall eich hun. Ond i ddarparwyr, nid yw pethau mor syml. Rwy'n siarad am y problemau gan ddefnyddio enghraifft y dasg o leihau corddi tanysgrifwyr - dyma beth mae gweithredwyr telathrebu yn ceisio ei ddatrys gyda chymorth Data Mawr yn y lle cyntaf.
Gosod nodau. Mae manylebau technegol wedi'u hysgrifennu'n dda a gwahanol ddealltwriaeth o dermau wedi bod yn boen canrifoedd oed nid yn unig i weithwyr llawrydd. Gellir dehongli hyd yn oed tanysgrifwyr “gollwng” mewn gwahanol ffyrdd - fel y rhai nad ydynt wedi defnyddio gwasanaethau'r gweithredwr am fis, chwe mis neu flwyddyn. Ac i greu MVP yn seiliedig ar ddata hanesyddol, mae angen i chi ddeall amlder dychweliadau tanysgrifwyr o gorddi - y rhai a roddodd gynnig ar weithredwyr eraill neu a adawodd y ddinas a defnyddio rhif gwahanol. Cwestiwn pwysig arall: pa mor hir cyn y disgwylir i'r tanysgrifiwr adael a ddylai'r darparwr benderfynu ar hyn a gweithredu? Mae chwe mis yn rhy gynnar, wythnos yn rhy hwyr.
Amnewid cysyniadau. Yn nodweddiadol, mae gweithredwyr yn nodi cleient yn ôl rhif ffôn, felly mae'n rhesymegol y dylid uwchlwytho'r arwyddion gan ei ddefnyddio. Beth am eich cyfrif personol neu rif cais gwasanaeth? Mae angen penderfynu pa uned y dylid ei chymryd fel cleient fel nad yw'r data yn system y gweithredwr yn amrywio. Mae asesu gwerth cleient hefyd yn amheus - pa danysgrifiwr sy'n fwy gwerthfawr i'r cwmni, pa ddefnyddiwr sydd angen mwy o ymdrech i'w gadw, a pha rai fydd yn “disgyn” beth bynnag ac nid oes unrhyw bwynt gwario adnoddau arnynt.
Diffyg gwybodaeth. Nid yw holl weithwyr y darparwr yn gallu esbonio i dîm BigData beth sy'n effeithio'n benodol ar gorddi tanysgrifwyr a sut mae ffactorau posibl mewn bilio yn cael eu cyfrifo. Hyd yn oed os ydynt yn enwi un ohonynt - ARPU - mae'n troi allan y gellir ei gyfrifo mewn gwahanol ffyrdd: naill ai drwy daliadau cleient cyfnodol, neu drwy daliadau bilio awtomatig. Ac yn y broses o waith, mae miliwn o gwestiynau eraill yn codi. A yw'r model yn cwmpasu pob cleient, beth yw'r pris ar gyfer cadw cleient, a oes unrhyw bwynt meddwl trwy fodelau amgen, a beth i'w wneud gyda chleientiaid sydd wedi'u cadw'n artiffisial ar gam.
Gosod nodau. Gwn am dri math o wallau canlyniad sy'n achosi i weithredwyr fynd yn rhwystredig gyda'r gronfa ddata.
- Mae'r darparwr yn buddsoddi mewn BigData, yn prosesu gigabeit o wybodaeth, ond yn cael canlyniad y gellid bod wedi'i gael yn rhatach. Defnyddir diagramau a modelau syml, dadansoddeg cyntefig. Mae'r gost lawer gwaith yn uwch, ond mae'r canlyniad yr un peth.
- Mae'r gweithredwr yn derbyn data amlochrog fel allbwn, ond nid yw'n deall sut i'w ddefnyddio. Mae dadansoddeg - dyma hi, yn ddealladwy ac yn swmpus, ond nid yw o unrhyw ddefnydd. Nid yw'r canlyniad terfynol, na all gynnwys y nod o “brosesu data,” wedi'i ystyried. Nid yw’n ddigon i’w brosesu – dylai dadansoddeg ddod yn sail ar gyfer diweddaru prosesau busnes.
- Gall rhwystrau i’r defnydd o ddadansoddeg BigData fod yn brosesau busnes hen ffasiwn a meddalwedd sy’n anaddas at ddibenion newydd. Mae hyn yn golygu eu bod wedi gwneud camgymeriad yn y cam paratoi - ni wnaethant feddwl trwy'r algorithm gweithredoedd a chamau cyflwyno Data Mawr i waith.
Pam
Wrth siarad am ganlyniadau. Byddaf yn mynd dros y ffyrdd o ddefnyddio Data Mawr a rhoi gwerth ariannol arno y mae gweithredwyr telathrebu eisoes yn ei ddefnyddio.
Mae darparwyr yn rhagweld nid yn unig all-lif y tanysgrifwyr, ond hefyd y llwyth ar orsafoedd sylfaen.
- Mae gwybodaeth am symudiadau tanysgrifwyr, gweithgaredd a gwasanaethau amlder yn cael ei dadansoddi. Canlyniad: gostyngiad yn nifer y gorlwytho oherwydd optimeiddio a moderneiddio meysydd problemus y seilwaith.
- Mae gweithredwyr telathrebu yn defnyddio gwybodaeth am geoleoliad tanysgrifwyr a dwysedd traffig wrth agor mannau gwerthu. Felly, mae MTS a VimpelCom eisoes yn defnyddio dadansoddiadau BigData i gynllunio lleoliad swyddfeydd newydd.
- Mae darparwyr yn rhoi arian i'w data mawr eu hunain trwy ei gynnig i drydydd partïon. Prif gwsmeriaid gweithredwyr BigData yw banciau masnachol. Gan ddefnyddio'r gronfa ddata, maent yn monitro gweithgareddau amheus cerdyn SIM y tanysgrifiwr y mae'r cardiau'n gysylltiedig ag ef, ac yn defnyddio gwasanaethau sgorio risg, gwirio a monitro. Ac yn 2017, gofynnodd llywodraeth Moscow am ddeinameg symud yn seiliedig ar ddata BigData o Tele2 i gynllunio seilwaith technegol a thrafnidiaeth.
- Mwynglawdd aur yw dadansoddeg BigData i farchnatwyr, a all greu ymgyrchoedd hysbysebu personol ar gyfer cymaint â miloedd o grwpiau tanysgrifwyr os dymunant. Mae cwmnïau telathrebu yn cyfuno proffiliau cymdeithasol, diddordebau defnyddwyr a phatrymau ymddygiad tanysgrifwyr, ac yna'n defnyddio'r BigData a gasglwyd i ddenu cwsmeriaid newydd. Ond ar gyfer hyrwyddo ar raddfa fawr a chynllunio cysylltiadau cyhoeddus, nid oes gan filio ddigon o ymarferoldeb bob amser: rhaid i'r rhaglen ystyried llawer o ffactorau ar yr un pryd â gwybodaeth fanwl am gleientiaid.
Tra bod rhai yn dal i ystyried BigData yn ymadrodd gwag, mae'r Pedwar Mawr eisoes yn gwneud arian arno. Mae MTS yn ennill 14 biliwn rubles o brosesu data mawr mewn chwe mis, a chynyddodd Tele2 refeniw o brosiectau deirgwaith a hanner. Mae BigData yn troi o fod yn duedd y mae'n rhaid ei chael, lle bydd strwythur cyfan gweithredwyr telathrebu yn cael ei ailadeiladu.
Ffynhonnell: hab.com