Մեծ տվյալների մեծ հաշվարկ. BigData-ի մասին հեռահաղորդակցության մեջ

2008 թվականին BigData-ն նոր տերմին էր և նորաձև միտում: 2019 թվականին BigData-ն վաճառքի օբյեկտ է, շահույթի աղբյուր և նոր օրինագծերի պատճառ։

Անցյալ աշնանը Ռուսաստանի կառավարությունը նախաձեռնեց մեծ տվյալների կարգավորման օրինագիծ։ Անհատները կարող են չճանաչվել տեղեկատվությունից, բայց դա կարող են անել դաշնային իշխանությունների խնդրանքով: Երրորդ կողմերի համար BigData-ի մշակումը միայն Roskomnadzor-ի ծանուցումից հետո է: Օրենքի տակ են ընկնում այն ​​ընկերությունները, որոնք ունեն ավելի քան 100 հազար ցանցային հասցե։ Եվ, իհարկե, որտեղ առանց ռեգիստրների - ենթադրվում է ստեղծել տվյալների բազայի օպերատորների ցանկով մեկը: Եվ եթե նախկինում այս Big Data-ն լուրջ չէր ընդունվում բոլորի կողմից, ապա այժմ դա պետք է հաշվի առնել։

Ես, որպես բիլինգ մշակող ընկերության տնօրեն, որը մշակում է այս մեծ տվյալները, չեմ կարող անտեսել տվյալների բազան: Մեծ տվյալների մասին կմտածեմ հեռահաղորդակցության օպերատորների պրիզմայով, որոնց բիլինգի համակարգերով ամեն օր անցնում են հազարավոր բաժանորդների մասին տեղեկատվության հոսքեր։

Թեորեմ

Սկսենք, ինչպես մաթեմատիկական խնդրից. նախ ապացուցում ենք, որ հեռահաղորդակցության օպերատորների տվյալները կարելի է անվանել BigDat: Սովորաբար, մեծ տվյալները բնութագրվում են երեք VVV բնութագրերով, թեև ազատ մեկնաբանություններում «Vs»-ների թիվը հասել է յոթի:

Ծավալը. Միայն Ռոստելեկոմի MVNO-ն սպասարկում է ավելի քան մեկ միլիոն բաժանորդ: Հիմնական հյուրընկալող օպերատորները մշակում են 44-ից 78 միլիոն մարդու տվյալները: Երթևեկությունն աճում է ամեն վայրկյան. 2019 թվականի առաջին եռամսյակում բաժանորդներն արդեն մուտք են գործել 3,3 միլիարդ ԳԲ բջջային հեռախոսներից։

Արագություն. Ոչ ոք չի կարող ձեզ ավելի լավ պատմել դինամիկայի մասին, քան վիճակագրությունը, այնպես որ ես կանցնեմ Cisco-ի կանխատեսումներին: Մինչև 2021 թվականը IP տրաֆիկի 20%-ը կուղղվի բջջային տրաֆիկին՝ հինգ տարվա ընթացքում այն ​​գրեթե եռապատկվելու է: Բջջային կապերի մեկ երրորդը կկազմի M2M. IoT-ի զարգացումը կհանգեցնի կապերի վեցապատիկ աճին: Իրերի ինտերնետը կդառնա ոչ միայն շահութաբեր, այլև ռեսուրսատար, ուստի որոշ օպերատորներ կկենտրոնանան միայն դրա վրա։ Իսկ նրանք, ովքեր զարգացնում են IoT-ը որպես առանձին ծառայություն, կստանան կրկնակի տրաֆիկ։

Բազմազանություն. Բազմազանությունը սուբյեկտիվ հասկացություն է, բայց հեռահաղորդակցության օպերատորներն իսկապես գիտեն գրեթե ամեն ինչ իրենց բաժանորդների մասին: Անունից և անձնագրի մանրամասներից մինչև հեռախոսի մոդել, գնումներ, այցելած վայրեր և հետաքրքրություններ: Յարովայայի օրենքի համաձայն՝ մեդիա ֆայլերը պահվում են վեց ամիս։ Այսպիսով, եկեք ընդունենք որպես աքսիոմ, որ հավաքված տվյալները բազմազան են:

Ծրագրային ապահովում և մեթոդաբանություն

Պրովայդերները BigData-ի հիմնական սպառողներից են, ուստի մեծ տվյալների վերլուծության տեխնիկայի մեծ մասը կիրառելի է հեռահաղորդակցության ոլորտում: Այլ հարց է, թե ով է պատրաստ ներդրումներ կատարել ML-ի, AI-ի, Deep Learning-ի զարգացման մեջ, ներդրումներ կատարել տվյալների կենտրոններում և տվյալների մայնինգում: Տվյալների բազայի հետ լիարժեք աշխատանքը բաղկացած է ենթակառուցվածքից և թիմից, որոնց ծախսերը ոչ բոլորն են կարող իրենց թույլ տալ: Ձեռնարկությունները, որոնք արդեն ունեն կորպորատիվ պահեստ կամ մշակում են Տվյալների կառավարման մեթոդաբանություն, պետք է խաղադրույք կատարեն BigData-ի վրա: Նրանց, ովքեր դեռ պատրաստ չեն երկարաժամկետ ներդրումների, ես ձեզ խորհուրդ եմ տալիս աստիճանաբար կառուցել ծրագրային ապահովման ճարտարապետությունը և մեկ առ մեկ տեղադրել բաղադրիչները: Դուք կարող եք վերջնականապես թողնել ծանր մոդուլները և Hadoop-ը: Քչերն են պատրաստի լուծումներ գնում այնպիսի խնդիրների համար, ինչպիսիք են Տվյալների որակը և տվյալների արդյունահանումը, ընկերությունները սովորաբար հարմարեցնում են համակարգը իրենց հատուկ առանձնահատկություններին և կարիքներին՝ իրենց կամ մշակողների օգնությամբ:

Բայց ոչ բոլոր վճարումները կարող են փոփոխվել BigData-ի հետ աշխատելու համար: Ավելի ճիշտ՝ ոչ միայն ամեն ինչ կարելի է փոփոխել։ Քչերը կարող են դա անել:

Երեք նշան, որ վճարային համակարգը հնարավորություն ունի դառնալու տվյալների բազայի մշակման գործիք.

  • Հորիզոնական մասշտաբայնություն. Ծրագրային ապահովումը պետք է ճկուն լինի. խոսքը մեծ տվյալների մասին է: Տեղեկատվության քանակի ավելացումը պետք է վերաբերվի կլաստերի ապարատային համամասնական աճին:
  • Սխալների հանդուրժողականություն. Լուրջ կանխավճարային համակարգերը սովորաբար լռելյայնորեն հանդուրժող են անսարքությունները. վճարումները տեղադրվում են կլաստերի մեջ մի քանի աշխարհագրական դիրքերում, որպեսզի դրանք ավտոմատ կերպով ապահովագրեն միմյանց: Hadoop կլաստերում նույնպես պետք է լինեն բավականաչափ համակարգիչներ, եթե մեկը կամ մի քանիսը ձախողվեն:
  • Տեղայնություն. Տվյալները պետք է պահվեն և մշակվեն մեկ սերվերի վրա, հակառակ դեպքում տվյալների փոխանցման ժամանակ կարող եք խափանվել: Map-Reduce մոտեցման հայտնի սխեմաներից մեկը՝ HDFS խանութներ, Spark գործընթացներ: Իդեալում, ծրագրաշարը պետք է անխափան կերպով ինտեգրվի տվյալների կենտրոնի ենթակառուցվածքին և կարողանա երեք բան անել մեկում՝ հավաքել, կազմակերպել և վերլուծել տեղեկատվություն:

Թիմ

Թե ինչ, ինչպես և ինչ նպատակով է ծրագիրը մշակելու մեծ տվյալները, որոշում է թիմը։ Հաճախ այն բաղկացած է մեկ անձից՝ տվյալների գիտնականից: Չնայած, իմ կարծիքով, Big Data-ի համար աշխատողների նվազագույն փաթեթը ներառում է նաև արտադրանքի մենեջեր, տվյալների ինժեներ և մենեջեր: Առաջինը հասկանում է ծառայությունները, տեխնիկական լեզուն թարգմանում մարդկային լեզվի և հակառակը։ Data Engineer-ը մոդելները կյանքի է կոչում Java/Scala-ի միջոցով և փորձարկումներ մեքենայական ուսուցման միջոցով: Ղեկավարը համակարգում է, սահմանում նպատակներ և վերահսկում փուլերը:

Problems

BigData թիմի կողմից է, որ սովորաբար խնդիրներ են առաջանում տվյալների հավաքագրման և մշակման ժամանակ: Ծրագիրը պետք է բացատրի, թե ինչ պետք է հավաքել և ինչպես մշակել այն. դա բացատրելու համար նախ պետք է ինքներդ դա հասկանաք: Բայց պրովայդերների համար ամեն ինչ այնքան էլ պարզ չէ: Ես խոսում եմ խնդիրների մասին, օգտագործելով բաժանորդների խափանումը նվազեցնելու առաջադրանքի օրինակը, սա այն է, ինչ հեռահաղորդակցության օպերատորները փորձում են լուծել առաջին հերթին Big Data-ի օգնությամբ:

Նպատակներ դնելը. Լավ գրված տեխնիկական բնութագրերը և տերմինների տարբեր ըմբռնումները դարավոր ցավ են եղել ոչ միայն ֆրիլանսերի համար: Նույնիսկ «թողված» բաժանորդները կարող են տարբեր կերպ մեկնաբանվել՝ որպես նրանք, ովքեր չեն օգտվել օպերատորի ծառայություններից մեկ ամիս, վեց ամիս կամ մեկ տարի: Եվ պատմական տվյալների վրա հիմնված MVP ստեղծելու համար դուք պետք է հասկանաք churn-ից բաժանորդների վերադարձի հաճախականությունը՝ նրանք, ովքեր փորձել են այլ օպերատորներ կամ լքել քաղաքը և օգտագործել այլ համար: Մեկ այլ կարևոր հարց. որքա՞ն ժամանակ է սպասվում բաժանորդի հեռանալուց առաջ մատակարարը պետք է որոշի դա և քայլեր ձեռնարկի: Վեց ամիսը շատ շուտ է, մեկ շաբաթը շատ ուշ:

Հասկացությունների փոխարինում. Սովորաբար, օպերատորները հաճախորդին նույնացնում են հեռախոսահամարով, ուստի տրամաբանական է, որ նշանները պետք է վերբեռնվեն դրա միջոցով: Ի՞նչ կասեք ձեր անձնական հաշվի կամ ծառայության դիմումի համարի մասին: Անհրաժեշտ է որոշել, թե որ միավորը պետք է ընդունվի որպես հաճախորդ, որպեսզի օպերատորի համակարգում տվյալները չտարբերվեն: Հաճախորդի արժեքը գնահատելը նույնպես կասկածելի է, թե որ բաժանորդն է ավելի արժեքավոր ընկերության համար, որ օգտագործողն ավելի շատ ջանք է պահանջում պահելու համար, և որոնք ամեն դեպքում «կընկնեն», և դրանց վրա ռեսուրսներ ծախսելը իմաստ չունի:

Տեղեկատվության բացակայություն. Պրովայդերի ոչ բոլոր աշխատակիցներն են ի վիճակի բացատրել BigData-ի թիմին, թե հատկապես ինչն է ազդում բաժանորդների արտահոսքի վրա և ինչպես են հաշվարկվում վճարումների հնարավոր գործոնները: Նույնիսկ եթե նրանք անվանել են դրանցից մեկը՝ ARPU, ապա պարզվում է, որ այն կարելի է հաշվարկել տարբեր ձևերով՝ կա՛մ հաճախորդի պարբերական վճարումներով, կա՛մ ավտոմատ բիլինգի վճարներով: Իսկ աշխատանքի ընթացքում միլիոնավոր այլ հարցեր են առաջանում. Արդյո՞ք մոդելը ընդգրկում է բոլոր հաճախորդներին, ո՞րն է հաճախորդի պահպանման գինը, արդյոք իմաստ կա մտածել այլընտրանքային մոդելների միջոցով և ինչ անել այն հաճախորդների հետ, ովքեր սխալմամբ արհեստականորեն պահպանվել են:

Նպատակի կարգավորում. Ես գիտեմ երեք տեսակի արդյունքի սխալների մասին, որոնք օպերատորներին ստիպում են հիասթափվել տվյալների բազայից:

  1. Պրովայդերը ներդրումներ է կատարում BigData-ում, մշակում գիգաբայթ տեղեկատվություն, բայց ստանում է արդյունք, որը կարելի էր ավելի էժան ստանալ։ Օգտագործվում են պարզ դիագրամներ և մոդելներ, պարզունակ վերլուծություն։ Արժեքը մի քանի անգամ ավելի բարձր է, բայց արդյունքը նույնն է։
  2. Օպերատորը ստանում է բազմակողմ տվյալներ որպես ելք, բայց չի հասկանում, թե ինչպես օգտագործել դրանք: Վերլուծություն կա՝ ահա, հասկանալի է ու ծավալուն, բայց ոչ մի օգուտ։ Վերջնական արդյունքը, որը չի կարող բաղկացած լինել «տվյալների մշակման» նպատակից, չի մտածել: Բավական չէ մշակել. վերլուծությունը պետք է հիմք դառնա բիզնես գործընթացների թարմացման համար:
  3. BigData-ի վերլուծության օգտագործման խոչընդոտները կարող են լինել հնացած բիզնես գործընթացները և նոր նպատակների համար ոչ պիտանի ծրագրակազմը: Սա նշանակում է, որ նրանք սխալվել են նախապատրաստական ​​փուլում. նրանք չեն մտածել գործողությունների ալգորիթմի և աշխատանքի մեջ Big Data-ի ներդրման փուլերի մասին:

Ինչի համար

Խոսելով արդյունքների մասին. Ես կանդրադառնամ մեծ տվյալների օգտագործման և դրամայնացման ուղիներին, որոնք արդեն օգտագործում են հեռահաղորդակցության օպերատորները:
Պրովայդերները կանխատեսում են ոչ միայն բաժանորդների արտահոսքը, այլև բազային կայանների ծանրաբեռնվածությունը։

  1. Վերլուծվում է բաժանորդների տեղաշարժի, գործունեության և հաճախականության ծառայությունների մասին տեղեկությունները: Արդյունք. ենթակառուցվածքների խնդրահարույց տարածքների օպտիմալացման և արդիականացման հաշվին գերբեռնվածությունների քանակի կրճատում:
  2. Հեռահաղորդակցության օպերատորները վաճառքի կետեր բացելիս օգտագործում են տեղեկատվություն բաժանորդների աշխարհագրական դիրքի և երթևեկության խտության մասին: Այսպիսով, BigData-ի վերլուծությունն արդեն օգտագործվում է MTS-ի և VimpelCom-ի կողմից՝ նոր գրասենյակների գտնվելու վայրը պլանավորելու համար:
  3. Մատակարարները դրամայնացնում են իրենց սեփական մեծ տվյալները՝ դրանք առաջարկելով երրորդ կողմերին: BigData օպերատորների հիմնական հաճախորդները առեւտրային բանկերն են։ Օգտագործելով տվյալների բազան՝ նրանք վերահսկում են բաժանորդի SIM քարտի կասկածելի գործողությունները, որոնց հետ կապված են քարտերը, և օգտագործում են ռիսկերի գնահատման, ստուգման և մոնիտորինգի ծառայություններ: Իսկ 2017 թվականին Մոսկվայի կառավարությունը Tele2-ից BigData-ի տվյալների հիման վրա պահանջեց շարժման դինամիկա՝ տեխնիկական և տրանսպորտային ենթակառուցվածքները պլանավորելու համար:
  4. BigData-ի վերլուծությունը ոսկու հանք է շուկայավարների համար, ովքեր ցանկության դեպքում կարող են անհատականացված գովազդային արշավներ ստեղծել հազարավոր բաժանորդային խմբերի համար: Հեռահաղորդակցման ընկերությունները համախմբում են սոցիալական պրոֆիլները, սպառողների շահերը և բաժանորդների վարքագծի ձևերը, այնուհետև օգտագործում են հավաքագրված BigData-ն՝ նոր հաճախորդներ ներգրավելու համար: Բայց լայնածավալ առաջխաղացման և PR պլանավորման համար բիլինգը միշտ չէ, որ ունի բավարար ֆունկցիոնալություն. ծրագիրը պետք է միաժամանակ հաշվի առնի բազմաթիվ գործոններ՝ հաճախորդների մասին մանրամասն տեղեկատվությանը զուգահեռ:

Մինչ ոմանք դեռ BigData-ն դատարկ արտահայտություն են համարում, Մեծ քառյակն արդեն գումար է վաստակում դրա վրա: ՄՏՍ-ը վեց ամսվա ընթացքում մեծ տվյալների մշակումից վաստակում է 14 միլիարդ ռուբլի, իսկ Tele2-ը երեքուկես անգամ ավելացրել է նախագծերից եկամուտը։ BigData-ն միտումից վերածվում է պարտադիրի, որի ներքո կվերակառուցվի հեռահաղորդակցության օպերատորների ողջ կառուցվածքը։

Source: www.habr.com

Добавить комментарий