Մեծ և փոքր տվյալների ստուգիչ. միտումներ, տեսություն, իմ պատմությունը

Բարև բոլորին, իմ անունը Ալեքսանդր է, և ես Տվյալների որակի ինժեներ եմ, ով ստուգում է տվյալները դրանց որակի համար: Այս հոդվածը կխոսի այն մասին, թե ինչպես ես հասա դրան և ինչու 2020 թվականին փորձարկման այս տարածքը ալիքի գագաթին էր:

Մեծ և փոքր տվյալների ստուգիչ. միտումներ, տեսություն, իմ պատմությունը

Համաշխարհային միտում

Այսօրվա աշխարհը մեկ այլ տեխնոլոգիական հեղափոխություն է ապրում, որի մի ասպեկտը բոլոր տեսակի ընկերությունների կողմից կուտակված տվյալների օգտագործումն է՝ վաճառքի, շահույթի և PR-ի սեփական ճանճը խթանելու համար: Թվում է, թե լավ (որակյալ) տվյալների առկայությունը, ինչպես նաև հմուտ ուղեղները, ովքեր կարող են գումար վաստակել դրանցից (ճիշտ մշակել, պատկերացնել, կառուցել մեքենայական ուսուցման մոդելներ և այլն), այսօր շատերի համար դարձել են հաջողության գրավականը։ Եթե ​​15-20 տարի առաջ խոշոր ընկերությունները հիմնականում զբաղվում էին տվյալների կուտակման և դրամայնացման ինտենսիվ աշխատանքով, ապա այսօր սա գրեթե բոլոր առողջ մարդկանց վիճակն է։

Այս առումով, մի քանի տարի առաջ ամբողջ աշխարհում աշխատանք փնտրելուն նվիրված բոլոր պորտալները սկսեցին համալրվել տվյալների գիտնականների թափուր աշխատատեղերով, քանի որ բոլորը վստահ էին, որ նման մասնագետի վարձելով՝ հնարավոր կլինի կառուցել մեքենայական ուսուցման սուպերմոդել։ , կանխատեսեք ապագան և կատարեք «քվանտային թռիչք» ընկերության համար: Ժամանակի ընթացքում մարդիկ հասկացան, որ այս մոտեցումը գրեթե երբեք ոչ մի տեղ չի աշխատում, քանի որ ոչ բոլոր տվյալները, որոնք ընկնում են նման մասնագետների ձեռքում, հարմար չեն վերապատրաստման մոդելների համար:

Եվ սկսվեցին Data Scientists-ի հարցումները. «Եկեք ավելի շատ տվյալներ գնենք սրանից և նրանցից...», «Մենք բավարար տվյալներ չունենք...», «Մեզ ևս մի քանի տվյալներ են պետք, գերադասելի է բարձրորակ...»: . Այս հարցումների հիման վրա բազմաթիվ փոխազդեցություններ սկսեցին կառուցվել ընկերությունների միջև, որոնք տիրապետում են տվյալների այս կամ այն ​​հավաքածուին: Բնականաբար, դրա համար անհրաժեշտ էր այս գործընթացի տեխնիկական կազմակերպումը` միանալ տվյալների աղբյուրին, ներբեռնել այն, ստուգել, ​​որ այն ամբողջությամբ բեռնված է և այլն: Նման գործընթացների թիվը սկսեց աճել, և այսօր մենք ունենք մեկ այլ տեսակի կարիք: Մասնագետներ - Տվյալների որակի ինժեներներ - նրանք, ովքեր կհետևեն համակարգում տվյալների հոսքին (տվյալների խողովակաշարեր), մուտքի և ելքի տվյալների որակը և եզրակացություններ կանեն դրանց բավարարության, ամբողջականության և այլ բնութագրերի վերաբերյալ:

Տվյալների որակի ինժեներների միտումը մեզ մոտ եկավ ԱՄՆ-ից, որտեղ կապիտալիզմի մոլեգնող դարաշրջանի մեջ ոչ ոք պատրաստ չէ կորցնել տվյալների համար պայքարը: Ստորև ես տրամադրել եմ սքրինշոթներ ԱՄՆ-ում աշխատանքի որոնման ամենահայտնի երկու կայքերից. www.monster.com и www.dice.com — որը ցուցադրում է 17 թվականի մարտի 2020-ի դրությամբ ստացված հրապարակված թափուր աշխատատեղերի թվի վերաբերյալ տվյալները՝ օգտագործելով տվյալների որակ և տվյալների գիտաշխատող հիմնաբառեր:

www.monster.com

Data Scientists – 21416 թափուր աշխատատեղ
Տվյալների որակ – 41104 թափուր աշխատատեղ

Մեծ և փոքր տվյալների ստուգիչ. միտումներ, տեսություն, իմ պատմությունը
Մեծ և փոքր տվյալների ստուգիչ. միտումներ, տեսություն, իմ պատմությունը

www.dice.com

Data Scientists – 404 թափուր աշխատատեղ
Տվյալների որակ – 2020 թափուր աշխատատեղեր

Մեծ և փոքր տվյալների ստուգիչ. միտումներ, տեսություն, իմ պատմությունը
Մեծ և փոքր տվյալների ստուգիչ. միտումներ, տեսություն, իմ պատմությունը

Ակնհայտ է, որ այս մասնագիտությունները ոչ մի կերպ չեն մրցակցում միմյանց հետ։ Սքրինշոթերով ես պարզապես ուզում էի ցույց տալ աշխատաշուկայի ներկայիս իրավիճակը՝ տվյալների որակի ինժեներների հարցումների առումով, որոնցից այժմ շատ ավելին է անհրաժեշտ, քան տվյալների գիտնականները:

2019 թվականի հունիսին EPAM-ը, արձագանքելով ժամանակակից ՏՏ շուկայի կարիքներին, Տվյալների որակը առանձնացրեց առանձին պրակտիկայի մեջ: Տվյալների որակի ինժեներները իրենց ամենօրյա աշխատանքի ընթացքում կառավարում են տվյալները, ստուգում դրանց վարքը նոր պայմաններում և համակարգերում, վերահսկում են տվյալների համապատասխանությունը, դրանց բավարարությունն ու համապատասխանությունը: Այս ամենով հանդերձ, գործնական առումով Տվյալների որակի ինժեներները իսկապես քիչ ժամանակ են հատկացնում դասական ֆունկցիոնալ փորձարկմանը, ԲԱՅՑ սա մեծապես կախված է նախագծից (ներքևում ես օրինակ կտամ):

Տվյալների որակի ինժեների պարտականությունները չեն սահմանափակվում միայն տվյալների բազայի աղյուսակներում «զրոյականների, հաշվարկների և գումարների» սովորական ձեռքով/ավտոմատ ստուգումներով, այլ պահանջում են հաճախորդի բիզնես կարիքների խորը ըմբռնում և, համապատասխանաբար, հասանելի տվյալները վերափոխելու կարողություն: օգտակար բիզնես տեղեկատվություն:

Տվյալների որակի տեսություն

Մեծ և փոքր տվյալների ստուգիչ. միտումներ, տեսություն, իմ պատմությունը

Որպեսզի ավելի լիարժեք պատկերացնենք նման ինժեների դերը, եկեք պարզենք, թե ինչ է Տվյալների որակը տեսականորեն:

Տվյալների որակը — Տվյալների կառավարման փուլերից մեկը (մի ամբողջ աշխարհ, որը մենք ձեզ կթողնենք ինքնուրույն ուսումնասիրելու համար) և պատասխանատու է տվյալների վերլուծության համար՝ համաձայն հետևյալ չափանիշների.

Մեծ և փոքր տվյալների ստուգիչ. միտումներ, տեսություն, իմ պատմությունը
Կարծում եմ՝ կետերից յուրաքանչյուրը վերծանելու կարիք չկա (տեսականորեն դրանք կոչվում են «տվյալների չափումներ»), դրանք բավականին լավ նկարագրված են նկարում։ Բայց թեստավորման գործընթացն ինքնին չի ենթադրում այս հատկանիշների խստորեն պատճենում փորձարկման դեպքերի մեջ և ստուգում դրանք: Տվյալների որակում, ինչպես ցանկացած այլ տեսակի թեստավորման դեպքում, անհրաժեշտ է, առաջին հերթին, հիմնվել տվյալների որակի պահանջների վրա, որոնք համաձայնեցված են բիզնես որոշումներ կայացնող ծրագրի մասնակիցների հետ:

Կախված Տվյալների որակի նախագծից՝ ինժեները կարող է կատարել տարբեր գործառույթներ՝ սովորական ավտոմատացման փորձարկողից՝ տվյալների որակի մակերեսային գնահատմամբ, մինչև այն անձը, ով իրականացնում է տվյալների խորը պրոֆիլավորում՝ համաձայն վերը նշված չափանիշների:

Տվյալների կառավարման, տվյալների որակի և հարակից գործընթացների շատ մանրամասն նկարագրությունը լավ նկարագրված է գրքում, որը կոչվում է «DAMA-DMBOK. Տվյալների կառավարում Գիտելիքների մարմին. 2-րդ հրատարակություն». Ես մեծապես խորհուրդ եմ տալիս այս գիրքը որպես այս թեմայի ներածություն (հոդվածի վերջում կգտնեք դրա հղումը):

Իմ պատմությունը

ՏՏ արդյունաբերության մեջ ես բարձրացա արտադրանքի ընկերությունների կրտսեր փորձարկողից մինչև EPAM-ում տվյալների որակի առաջատար ինժեներ: Մոտ երկու տարի որպես թեստավորող աշխատելուց հետո ես համոզված ունեի, որ կատարել եմ բացարձակապես բոլոր տեսակի թեստավորումներ՝ ռեգրեսիա, ֆունկցիոնալ, սթրես, կայունություն, անվտանգություն, միջերես և այլն, և փորձեցի մեծ թվով թեստավորման գործիքներ՝ ունենալով աշխատել է միաժամանակ երեք ծրագրավորման լեզուներով՝ Java, Scala, Python։

Հետ նայելով, ես հասկանում եմ, թե ինչու էր իմ հմտությունների հավաքածուն այդքան բազմազան. ես ներգրավված էի տվյալների վրա հիմնված նախագծերում՝ մեծ ու փոքր: Սա այն է, ինչ ինձ բերեց աճի բազմաթիվ գործիքների և հնարավորությունների աշխարհ:

Նոր գիտելիքներ և հմտություններ ձեռք բերելու գործիքների և հնարավորությունների բազմազանությունը գնահատելու համար պարզապես նայեք ստորև ներկայացված նկարին, որը ցույց է տալիս «Տվյալներ և AI» աշխարհում ամենահայտնիները:

Մեծ և փոքր տվյալների ստուգիչ. միտումներ, տեսություն, իմ պատմությունը
Այս տեսակի նկարազարդումը ամեն տարի կազմում է հայտնի վենչուրային կապիտալիստներից Մեթ Թյուրքի կողմից, որը գալիս է ծրագրային ապահովման մշակումից: Այստեղ ՈՒղեցույց իր բլոգին և վենչուրային կապիտալի ընկերություն, որտեղ աշխատում է որպես գործընկեր։

Հատկապես արագ աճեցի մասնագիտորեն, երբ նախագծի միակ փորձարկողն էի կամ գոնե նախագծի սկզբում: Հենց այդպիսի պահին պետք է պատասխանատվություն կրես թեստավորման ողջ գործընթացի համար, և դու հնարավորություն չունես նահանջելու, այլ միայն առաջ։ Սկզբում դա սարսափելի էր, բայց հիմա ինձ համար ակնհայտ են նման թեստի բոլոր առավելությունները.

  • Դուք սկսում եք շփվել ամբողջ թիմի հետ այնպես, ինչպես երբեք, քանի որ հաղորդակցության համար վստահված անձ չկա՝ ոչ թեստային մենեջերը, ոչ էլ գործընկեր փորձարկողները:
  • Նախագծի մեջ ընկղմվելը դառնում է աներևակայելի խորը, և դուք ունեք տեղեկատվություն բոլոր բաղադրիչների մասին, ինչպես ընդհանուր, այնպես էլ մանրամասն:
  • Մշակողները ձեզ չեն նայում որպես «փորձարկող տղայի, ով չգիտի, թե ինչ է անում», այլ ավելի շուտ որպես հավասարի, ով անհավատալի օգուտներ է բերում թիմի համար՝ իր ավտոմատացված թեստերով և սխալների ակնկալիքով, որոնք հայտնվում են որոշակի բաղադրիչում: արտադրանք.
  • Արդյունքում դուք ավելի արդյունավետ եք, ավելի որակավորված և ավելի պահանջված:

Քանի որ նախագիծը մեծանում էր, 100% դեպքերում ես դառնում էի նոր փորձարկողների մենթոր՝ ուսուցանելով նրանց և փոխանցելով իմ սովորած գիտելիքները: Միևնույն ժամանակ, կախված նախագծից, ես միշտ չէ, որ ստանում էի մենեջմենթից ավտոթեստավորման ամենաբարձր մակարդակի մասնագետներ, և կարիք կար նրանց վերապատրաստելու ավտոմատացման (հետաքրքրվողների համար) կամ ստեղծելու գործիքներ ամենօրյա գործունեության մեջ օգտագործելու համար (գործիքներ): տվյալների ստեղծման և համակարգում դրանք բեռնելու համար, բեռնվածքի փորձարկում/կայունության փորձարկում «արագ» կատարելու գործիք և այլն):

Հատուկ նախագծի օրինակ

Ցավոք, չբացահայտման պարտավորությունների պատճառով ես չեմ կարող մանրամասն խոսել այն նախագծերի մասին, որոնց վրա աշխատել եմ, բայց ես կտամ նախագծերից մեկի Տվյալների որակի ինժեների բնորոշ առաջադրանքների օրինակներ:

Նախագծի էությունը կայանում է նրանում, որ դրա հիման վրա մեքենայական ուսուցման մոդելների ուսուցման համար տվյալների պատրաստման համար հարթակի ներդրումն է։ Հաճախորդը խոշոր դեղագործական ընկերություն էր ԱՄՆ-ից։ Տեխնիկապես դա կլաստեր էր Կուբերնետես, բարձրանալով դեպի AWS EC2 օրինակներ, մի քանի միկրոծառայությունների և EPAM-ի հիմքում ընկած բաց կոդով նախագծով. Լեգեոն, հարմարեցված կոնկրետ հաճախորդի կարիքներին (այժմ նախագիծը վերածնվել է օդահու) ETL գործընթացները կազմակերպվել են օգտագործելով apache օդային հոսք և տեղափոխեց տվյալները SalesForce հաճախորդների համակարգերը AWS S3 Դույլեր. Այնուհետև հարթակի վրա տեղադրվեց մեքենայական ուսուցման մոդելի Docker պատկերը, որը վերապատրաստվեց թարմ տվյալների վրա և, օգտագործելով REST API ինտերֆեյսը, արտադրեց կանխատեսումներ, որոնք հետաքրքրում էին բիզնեսին և լուծում կոնկրետ խնդիրներ:

Տեսողականորեն ամեն ինչ այսպիսի տեսք ուներ.

Մեծ և փոքր տվյալների ստուգիչ. միտումներ, տեսություն, իմ պատմությունը
Այս նախագծի վրա շատ ֆունկցիոնալ փորձարկումներ եղան, և հաշվի առնելով առանձնահատկությունների մշակման արագությունը և թողարկման ցիկլի տեմպը պահպանելու անհրաժեշտությունը (երկշաբաթյա սպրինտներ), անհրաժեշտ էր անմիջապես մտածել ամենակարևոր բաղադրիչների ավտոմատացման մասին: համակարգը. Kubernetes-ի վրա հիմնված պլատֆորմի մեծ մասն ինքնին ծածկված է եղել ինքնաթեստերով, որոնք իրականացվել են Robot Framework + Python, բայց անհրաժեշտ էր նաև աջակցել և ընդլայնել դրանք։ Բացի այդ, հաճախորդի հարմարության համար ստեղծվել է GUI՝ կլաստերում տեղակայված մեքենայական ուսուցման մոդելները կառավարելու համար, ինչպես նաև հնարավորություն՝ նշելու, թե որտեղ և որտեղ պետք է տվյալները փոխանցվեն մոդելների վերապատրաստման համար: Այս լայնածավալ հավելումը հանգեցրեց ավտոմատացված ֆունկցիոնալ թեստավորման ընդլայնմանը, որը հիմնականում արվում էր REST API-ի զանգերի և վերջի 2-րդ UI-ի փոքր թվով թեստերի միջոցով: Այս ամբողջ շարժման հասարակածի շուրջը մեզ միացավ ձեռքով փորձարկող, ով գերազանց աշխատանք կատարեց արտադրանքի տարբերակների ընդունման փորձարկումով և հաճախորդի հետ շփվելով հաջորդ թողարկումն ընդունելու վերաբերյալ: Բացի այդ, նոր մասնագետի ժամանման շնորհիվ մենք կարողացանք փաստաթղթավորել մեր աշխատանքը և ավելացնել մի քանի շատ կարևոր ձեռքով ստուգումներ, որոնք դժվար էր միանգամից ավտոմատացնել:

Եվ վերջապես, այն բանից հետո, երբ մենք կայունություն ձեռք բերեցինք հարթակից և դրա վրա GUI հավելումից, մենք սկսեցինք կառուցել ETL խողովակաշարեր՝ օգտագործելով Apache Airflow DAG-ները: Տվյալների որակի ավտոմատ ստուգումն իրականացվել է՝ գրելով օդային հոսքի հատուկ DAG-ներ, որոնք ստուգում էին տվյալները՝ հիմնվելով ETL գործընթացի արդյունքների վրա: Որպես այս նախագծի մաս, մենք բախտավոր էինք, և հաճախորդը մեզ հնարավորություն տվեց մուտք գործել անանուն տվյալների հավաքածուներ, որոնց վրա մենք փորձարկեցինք: Մենք ստուգել ենք տվյալների տող առ տող համապատասխանությունը տեսակներին, կոտրված տվյալների առկայությանը, գրառումների ընդհանուր քանակին առաջ և հետո, ETL գործընթացով կատարված փոխակերպումների համեմատությունը ագրեգացման համար, սյունակների անունները փոխելը և այլ բաներ: Բացի այդ, այս ստուգումները մասշտաբավորվել են տվյալների տարբեր աղբյուրների վրա, օրինակ, SalesForce-ից բացի, նաև MySQL:

Տվյալների որակի վերջնական ստուգումներն իրականացվել են արդեն S3 մակարդակում, որտեղ դրանք պահվում էին և պատրաստ էին օգտագործման՝ մեքենայական ուսուցման մոդելների ուսուցման համար: S3 Bucket-ում տեղադրված վերջնական CSV ֆայլից տվյալներ ստանալու և այն վավերացնելու համար կոդը գրվել է օգտագործելով boto3 հաճախորդներ.

Հաճախորդից պահանջ կար նաև տվյալների մի մասը պահել S3 Bucket-ում, իսկ մի մասը՝ մյուսում: Սա նաև պահանջում էր լրացուցիչ ստուգումներ գրել՝ ստուգելու նման տեսակավորման հուսալիությունը:

Ընդհանրացված փորձ այլ նախագծերից

Տվյալների որակի ինժեների գործունեության առավել ընդհանուր ցանկի օրինակ.

  • Պատրաստեք թեստի տվյալները (վավեր անվավեր մեծ փոքր) ավտոմատացված գործիքի միջոցով:
  • Վերբեռնեք պատրաստված տվյալների հավաքածուն սկզբնական աղբյուրում և ստուգեք, որ այն պատրաստ է օգտագործման համար:
  • Գործարկեք ETL գործընթացները աղբյուրի պահեստից մինչև վերջնական կամ միջանկյալ պահեստավորման տվյալների մի շարք մշակելու համար՝ օգտագործելով որոշակի պարամետրեր (եթե հնարավոր է, սահմանեք կարգավորելի պարամետրեր ETL առաջադրանքի համար):
  • Ստուգեք ETL գործընթացի կողմից մշակված տվյալները դրանց որակի և բիզնեսի պահանջներին համապատասխանության համար:

Միևնույն ժամանակ, ստուգումների հիմնական ուշադրությունը պետք է լինի ոչ միայն այն փաստի վրա, որ համակարգում տվյալների հոսքը, սկզբունքորեն, աշխատել և հասել է ավարտին (որը ֆունկցիոնալ թեստավորման մաս է կազմում), այլ հիմնականում տվյալների ստուգման և վավերացման վրա: ակնկալվող պահանջներին համապատասխանելու, անոմալիաների հայտնաբերման և այլ բաների համար:

Գործիքներ

Նման տվյալների վերահսկման տեխնիկաներից մեկը կարող է լինել տվյալների մշակման յուրաքանչյուր փուլում շղթայական ստուգումների կազմակերպումը, գրականության մեջ այսպես կոչված «տվյալների շղթան»՝ տվյալների վերահսկում աղբյուրից մինչև վերջնական օգտագործման կետ: Այս տեսակի ստուգումները առավել հաճախ իրականացվում են SQL հարցումների ստուգման միջոցով: Հասկանալի է, որ նման հարցումները պետք է լինեն հնարավորինս թեթև և ստուգեն տվյալների որակի առանձին հատվածները (աղյուսակների մետատվյալներ, դատարկ տողեր, NULL-ներ, Սխալներ շարահյուսության մեջ. ստուգման համար պահանջվող այլ ատրիբուտներ):

Ռեգրեսիոն փորձարկման դեպքում, որն օգտագործում է պատրաստի (անփոփոխելի, մի փոքր փոփոխվող) տվյալների հավաքածուներ, autotest կոդը կարող է պահել պատրաստի ձևանմուշներ՝ տվյալների համապատասխանությունը ստուգելու համար (ակնկալվող աղյուսակի մետատվյալների նկարագրություններ, տողերի նմուշի օբյեկտներ, որոնք կարող են լինել): թեստի ժամանակ ընտրված պատահականորեն և այլն):

Նաև փորձարկման ընթացքում դուք պետք է գրեք ETL թեստային գործընթացներ՝ օգտագործելով այնպիսի շրջանակներ, ինչպիսիք են Apache Airflow, Apache Spark- ը կամ նույնիսկ սև տուփի ամպի տիպի գործիք GCP Dataprep, GCP տվյալների հոսք Եվ այսպես շարունակ։ Այս հանգամանքը ստիպում է թեստային ինժեներին ընկղմվել վերը նշված գործիքների շահագործման սկզբունքների մեջ և նույնիսկ ավելի արդյունավետ կերպով անցկացնել ֆունկցիոնալ թեստավորում (օրինակ՝ նախագծի վրա առկա ETL գործընթացները) և օգտագործել դրանք տվյալների ստուգման համար: Մասնավորապես, Apache Airflow-ն ունի պատրաստի օպերատորներ հայտնի վերլուծական տվյալների բազաների հետ աշխատելու համար, օրինակ GCP BigQuery. Դրա օգտագործման ամենահիմնական օրինակն արդեն ուրվագծվել է այստեղ, այնպես որ ես չեմ կրկնվի.

Բացի պատրաստի լուծումներից, ոչ ոք ձեզ չի արգելում իրականացնել ձեր սեփական տեխնիկան և գործիքները: Սա ոչ միայն շահավետ կլինի նախագծի, այլ նաև տվյալների որակի ինժեների համար, ով դրանով իսկ կբարելավի իր տեխնիկական հորիզոնները և կոդավորման հմտությունները:

Ինչպես է այն աշխատում իրական նախագծի վրա

«Տվյալների շղթայի», ETL-ի և համատարած ստուգումների մասին վերջին պարբերությունների լավ պատկերացումն իրական նախագծերից մեկի հետևյալ գործընթացն է.

Մեծ և փոքր տվյալների ստուգիչ. միտումներ, տեսություն, իմ պատմությունը

Այստեղ զանազան տվյալներ (բնականաբար, մեր կողմից պատրաստված) մտնում են մեր համակարգի մուտքային «ձագար»՝ վավեր, անվավեր, խառը և այլն, այնուհետև դրանք զտվում և հայտնվում են միջանկյալ պահեստում, այնուհետև նորից ենթարկվում են մի շարք փոխակերպումների։ և տեղադրվում են վերջնական պահեստում, որտեղից, իր հերթին, կիրականացվի վերլուծություն, տվյալների կառուցման մարթեր և բիզնեսի պատկերացումների որոնում: Նման համակարգում, առանց ETL գործընթացների ֆունկցիոնալ ստուգման, մենք կենտրոնանում ենք տվյալների որակի վրա փոխակերպումներից առաջ և հետո, ինչպես նաև վերլուծության արդյունքների վրա:

Ամփոփելու համար վերը նշվածը, անկախ այն վայրերից, որտեղ ես աշխատել եմ, ամենուր ես ներգրավված եմ եղել տվյալների նախագծերում, որոնք կիսում են հետևյալ հատկանիշները.

  • Միայն ավտոմատացման միջոցով կարող եք փորձարկել որոշ դեպքեր և հասնել բիզնեսի համար ընդունելի թողարկման ցիկլին:
  • Նման նախագծի փորձարկողը թիմի ամենահարգված անդամներից մեկն է, քանի որ այն մեծ օգուտներ է բերում մասնակիցներից յուրաքանչյուրին (թեստավորման արագացում, տվյալների գիտնականի լավ տվյալներ, վաղ փուլերում թերությունների հայտնաբերում):
  • Կարևոր չէ՝ դուք աշխատում եք ձեր սեփական սարքաշարի վրա, թե ամպերի մեջ. բոլոր ռեսուրսները վերացվում են մի կլաստերի մեջ, ինչպիսիք են Hortonworks-ը, Cloudera-ն, Mesos-ը, Kubernetes-ը և այլն:
  • Նախագծերը կառուցված են միկրոսերվիսային մոտեցման վրա, գերակշռում են բաշխված և զուգահեռ հաշվարկները:

Ցանկանում եմ նշել, որ Տվյալների որակի ոլորտում թեստավորում կատարելիս թեստավորման մասնագետն իր մասնագիտական ​​ուշադրությունը տեղափոխում է ապրանքի ծածկագրի և օգտագործվող գործիքների վրա:

Տվյալների որակի փորձարկման տարբերակիչ առանձնահատկությունները

Բացի այդ, ինքս ինձ համար առանձնացրել եմ Տվյալների (մեծ տվյալների) նախագծերում (համակարգերում) և այլ ոլորտներում փորձարկման տարբերակիչ հատկանիշները (ես անմիջապես վերապահում կանեմ, որ դրանք շատ ընդհանրացված և բացառապես սուբյեկտիվ են).

Մեծ և փոքր տվյալների ստուգիչ. միտումներ, տեսություն, իմ պատմությունը

Օգտակար հղումներ

  1. Տեսություն. DAMA-DMBOK: Տվյալների կառավարում Գիտելիքների մարմին. 2-րդ հրատարակություն.
  2. Ուսումնական կենտրոն Epam 
  3. Տվյալների որակի սկզբնական ինժեների համար առաջարկվող նյութեր.
    1. Անվճար դասընթաց Ստեփանիկում. Շտեմարանների ներածություն
    2. Դասընթաց LinkedIn Learning-ի վերաբերյալ. Տվյալների գիտության հիմունքներ. տվյալների ճարտարագիտություն.
    3. Հոդվածներ:
    4. Video:

Ամփոփում

Տվյալների որակը շատ երիտասարդ հեռանկարային ուղղություն է, որի մաս լինելը նշանակում է լինել ստարտափի մաս: Տվյալների որակի մեջ մտնելուց հետո դուք կներգրավվեք մեծ թվով ժամանակակից, պահանջարկ ունեցող տեխնոլոգիաների մեջ, բայց որ ամենակարևորն է՝ հսկայական հնարավորություններ կբացվեն ձեր առաջ՝ ձեր գաղափարները ստեղծելու և իրականացնելու համար: Դուք կկարողանաք շարունակական կատարելագործման մոտեցումը կիրառել ոչ միայն նախագծի, այլ նաև ինքներդ ձեզ համար՝ շարունակաբար զարգանալով որպես մասնագետ։

Source: www.habr.com

Добавить комментарий