Տվյալների ինժեներ և տվյալների գիտնական. Ո՞րն է տարբերությունը:

Տվյալների գիտնականի և տվյալների ինժեների մասնագիտությունները հաճախ շփոթվում են: Յուրաքանչյուր ընկերություն ունի տվյալների հետ աշխատելու իր առանձնահատկությունները, դրանց վերլուծության տարբեր նպատակներ և տարբեր պատկերացում, թե որ մասնագետը պետք է զբաղվի աշխատանքի որ մասով, հետևաբար յուրաքանչյուրն ունի իր պահանջները: 

Եկեք պարզենք, թե ինչ տարբերություն կա այս մասնագետների միջև, ինչ բիզնես խնդիրներ են նրանք լուծում, ինչ հմտություններ ունեն և որքան են վաստակում: Նյութը մեծ ստացվեց, ուստի այն բաժանեցինք երկու հրապարակման։

Առաջին հոդվածում Ելենա Գերասիմովան, ֆակուլտետի ղեկավար «Տվյալների գիտություն և վերլուծությունNetology-ում պատմում է, թե որն է տարբերությունը տվյալների գիտնականի և տվյալների ինժեների միջև և ինչ գործիքների հետ են նրանք աշխատում:

Ինչպես են տարբերվում ինժեներների և գիտնականների դերերը

Տվյալների ինժեները մասնագետ է, ով մի կողմից մշակում, փորձարկում և պահպանում է տվյալների ենթակառուցվածքը՝ տվյալների բազաներ, պահեստավորման և զանգվածային մշակման համակարգեր: Մյուս կողմից, սա նա է, ով մաքրում և «սանրում է» տվյալները վերլուծաբանների և տվյալների գիտնականների կողմից օգտագործելու համար, այսինքն՝ ստեղծում է տվյալների մշակման խողովակաշարեր։

Data Scientist-ը ստեղծում և վարժեցնում է կանխատեսող (և այլ) մոդելներ՝ օգտագործելով մեքենայական ուսուցման ալգորիթմներ և նեյրոնային ցանցեր՝ օգնելով բիզնեսներին գտնել թաքնված օրինաչափություններ, կանխատեսել զարգացումները և օպտիմալացնել հիմնական բիզնես գործընթացները:

Տվյալների գիտնականի և տվյալների ինժեների հիմնական տարբերությունն այն է, որ նրանք սովորաբար տարբեր նպատակներ ունեն: Երկուսն էլ աշխատում են ապահովելու, որ տվյալները հասանելի են և բարձր որակ: Բայց տվյալների գիտնականը գտնում է իր հարցերի պատասխանները և փորձարկում է վարկածները տվյալների էկոհամակարգում (օրինակ՝ հիմնված Hadoop-ի վրա), իսկ տվյալների ինժեները ստեղծում է խողովակաշար՝ մեքենայական ուսուցման ալգորիթմը սպասարկելու համար, որը գրված է տվյալների գիտնականի կողմից Spark կլաստերում նույն տարածքում: էկոհամակարգ. 

Տվյալների ինժեները արժեք է բերում բիզնեսին՝ աշխատելով որպես թիմի մաս: Նրա խնդիրն է հանդես գալ որպես կարևոր կապ տարբեր մասնակիցների միջև՝ մշակողներից մինչև հաշվետվության բիզնես սպառողներ, և բարձրացնել վերլուծաբանների արտադրողականությունը՝ մարքեթինգից և արտադրանքից մինչև BI: 

Տվյալների գիտնականը, ընդհակառակը, ակտիվորեն մասնակցում է ընկերության ռազմավարությանը և պատկերացումների արդյունահանմանը, որոշումների կայացմանը, ավտոմատացման ալգորիթմների ներդրմանը, մոդելավորմանը և տվյալներից արժեք ստեղծելուն:
Տվյալների ինժեներ և տվյալների գիտնական. Ո՞րն է տարբերությունը:

Տվյալների հետ աշխատելը ենթակա է GIGO սկզբունքին. եթե վերլուծաբանները և տվյալների գիտնականները գործ ունեն անպատրաստ և պոտենցիալ սխալ տվյալների հետ, ապա արդյունքները նույնիսկ օգտագործելով ամենաբարդ վերլուծության ալգորիթմները սխալ կլինեն: 

Տվյալների ինժեներները լուծում են այս խնդիրը՝ կառուցելով խողովակաշարեր տվյալների մշակման, մաքրման և փոխակերպման համար և թույլ տալով տվյալների գիտնականներին աշխատել բարձրորակ տվյալների հետ: 

Տվյալների հետ աշխատելու համար շուկայում կան բազմաթիվ գործիքներ, որոնք ընդգրկում են յուրաքանչյուր փուլ՝ տվյալների տեսքից մինչև ելք մինչև տնօրենների խորհրդի համար նախատեսված վահանակ: Եվ կարևոր է, որ դրանք օգտագործելու որոշումը կայացնի ինժեները, ոչ թե այն պատճառով, որ դա մոդայիկ է, այլ այն պատճառով, որ նա իսկապես կօգնի գործընթացի մյուս մասնակիցների աշխատանքին: 

Պայմանականորեն. եթե ընկերությունը պետք է կապեր հաստատի BI-ի և ETL-ի միջև՝ բեռնելով տվյալները և թարմացնելով հաշվետվությունները, ահա տիպիկ ժառանգական հիմքը, որի հետ պետք է գործ ունենա Տվյալների Ինժեները (լավ է, եթե թիմում կա նաև ճարտարապետ):

Տվյալների ինժեների պարտականությունները

  • Տվյալների մշակման ենթակառուցվածքների մշակում, կառուցում և սպասարկում:
  • Սխալների կառավարում և տվյալների մշակման հուսալի խողովակաշարերի ստեղծում:
  • Տարբեր դինամիկ աղբյուրներից չկառուցված տվյալները վերլուծաբանների աշխատանքի համար անհրաժեշտ ձևի բերելը:
  • Տվյալների հետևողականությունը և որակը բարելավելու համար առաջարկությունների տրամադրում:
  • Տվյալների գիտնականների և տվյալների վերլուծաբանների կողմից օգտագործվող տվյալների ճարտարապետության ապահովում և պահպանում:
  • Մշակեք և պահպանեք տվյալները հետևողականորեն և արդյունավետ կերպով տասնյակ կամ հարյուրավոր սերվերների բաշխված կլաստերում:
  • Գնահատեք գործիքների տեխնիկական փոխզիջումները՝ ստեղծելու պարզ, բայց ամուր ճարտարապետություններ, որոնք կարող են գոյատևել խափանումներից:
  • Տվյալների հոսքերի և հարակից համակարգերի վերահսկում և աջակցություն (մոնիթորինգի և ահազանգերի կարգավորում):

Data Engineer-ի հետագծում կա ևս մեկ մասնագիտացում՝ ML ինժեներ: Մի խոսքով, այս ինժեներները մասնագիտանում են մեքենայական ուսուցման մոդելները արդյունաբերական իրականացման և օգտագործման մեջ բերելու մեջ: Հաճախ տվյալների գիտնականից ստացված մոդելը ուսումնասիրության մաս է կազմում և կարող է չաշխատել մարտական ​​պայմաններում:

Տվյալների գիտնականի պարտականությունները

  • Տվյալներից առանձնահատկությունների արդյունահանում մեքենայական ուսուցման ալգորիթմներ կիրառելու համար:
  • Օգտագործելով տարբեր մեքենայական ուսուցման գործիքներ՝ տվյալների օրինաչափությունները կանխատեսելու և դասակարգելու համար:
  • Մեքենայի ուսուցման ալգորիթմների կատարողականի և ճշգրտության բարելավում` ալգորիթմների ճշգրտման և օպտիմալացման միջոցով:
  • Ընկերության ռազմավարությանը համապատասխան «ուժեղ» վարկածների ձևավորում, որոնք պետք է փորձարկվեն:

Ե՛վ Data Engineer, և՛ Data Scientist-ը շոշափելի ներդրում ունեն տվյալների մշակույթի զարգացման գործում, որի միջոցով ընկերությունը կարող է լրացուցիչ շահույթ ստանալ կամ նվազեցնել ծախսերը:

Ի՞նչ լեզուներով և գործիքներով են աշխատում ինժեներներն ու գիտնականները:

Այսօր տվյալների գիտնականների ակնկալիքները փոխվել են։ Նախկինում ինժեներները հավաքում էին մեծ SQL հարցումներ, ձեռքով գրում էին MapReduce և մշակում տվյալները՝ օգտագործելով այնպիսի գործիքներ, ինչպիսիք են Informatica ETL, Pentaho ETL, Talend: 

2020 թվականին մասնագետը չի կարող անել առանց Python-ի և ժամանակակից հաշվարկման գործիքների (օրինակ՝ Airflow) իմացության, ամպային հարթակների հետ աշխատելու սկզբունքների ըմբռնման (օգտագործելով դրանք ապարատում խնայելու համար՝ պահպանելով անվտանգության սկզբունքները):

SAP, Oracle, MySQL, Redis-ը ավանդական գործիքներ են խոշոր ընկերությունների տվյալների ինժեներների համար: Դրանք լավն են, բայց լիցենզիաների արժեքը այնքան բարձր է, որ դրանց հետ աշխատել սովորելը իմաստ ունի միայն արդյունաբերական նախագծերում: Միևնույն ժամանակ, կա անվճար այլընտրանք Postgres-ի տեսքով՝ այն անվճար է և հարմար է ոչ միայն մարզումների համար։ 

Տվյալների ինժեներ և տվյալների գիտնական. Ո՞րն է տարբերությունը:
Պատմականորեն Java-ի և Scala-ի հարցումները հաճախ են հայտնաբերվում, չնայած տեխնոլոգիաների և մոտեցումների զարգացմանը զուգընթաց այս լեզուները հետին պլան են մղվում:

Այնուամենայնիվ, հարդքոր BigData. Hadoop-ը, Spark-ը և կենդանաբանական այգու մնացած մասը այլևս նախապայման չէ տվյալների ինժեների համար, այլ մի տեսակ գործիքներ լուծելու խնդիրները, որոնք չեն կարող լուծվել ավանդական ETL-ով: 

Թրենդը գործիքների օգտագործման ծառայություններն են՝ առանց գրված լեզվի իմացության (օրինակ՝ Hadoop առանց Java-ի իմացության), ինչպես նաև հոսքային տվյալների մշակման պատրաստի ծառայությունների տրամադրումը (ձայնի ճանաչում կամ պատկերի ճանաչում տեսանյութի վրա): )

SAS-ի և SPSS-ի արդյունաբերական լուծումները հայտնի են, մինչդեռ Tableau, Rapidminer, Stata և Julia-ն նույնպես լայնորեն օգտագործվում են տվյալների գիտնականների կողմից տեղական առաջադրանքների համար:

Տվյալների ինժեներ և տվյալների գիտնական. Ո՞րն է տարբերությունը:
Խողովակաշարեր կառուցելու ունակությունը վերլուծաբաններին և տվյալների գիտնականներին հայտնվեց ընդամենը մի քանի տարի առաջ. օրինակ, արդեն հնարավոր է տվյալներ ուղարկել PostgreSQL-ի վրա հիմնված պահեստ՝ օգտագործելով համեմատաբար պարզ սցենարներ: 

Սովորաբար, խողովակաշարերի և տվյալների ինտեգրված կառուցվածքների օգտագործումը մնում է տվյալների ինժեներների պատասխանատվությունը: Բայց այսօր, հարակից ոլորտներում լայն իրավասություններ ունեցող T-աձև մասնագետների միտումն ավելի ուժեղ է, քան երբևէ, քանի որ գործիքները մշտապես պարզեցվում են:

Ինչու են տվյալների ինժեները և տվյալների գիտնականը աշխատում միասին

Սերտորեն համագործակցելով ինժեներների հետ՝ Data Scientists-ը կարող է կենտրոնանալ հետազոտական ​​կողմի վրա՝ ստեղծելով արտադրության համար պատրաստ մեքենայական ուսուցման ալգորիթմներ:
Եվ ինժեներները պետք է կենտրոնանան մասշտաբայնության, տվյալների վերօգտագործման և յուրաքանչյուր առանձին նախագծում տվյալների մուտքագրման և ելքի խողովակաշարերի համապատասխանության վրա գլոբալ ճարտարապետությանը:

Պարտականությունների այս տարանջատումը ապահովում է հետևողականություն մեքենայական ուսուցման տարբեր նախագծերի վրա աշխատող թիմերի միջև: 

Համագործակցությունն օգնում է արդյունավետ կերպով ստեղծել նոր ապրանքներ: Արագությունն ու որակը ձեռք են բերվում բոլորի համար ծառայության ստեղծման (գլոբալ պահեստավորում կամ վահանակների ինտեգրում) և յուրաքանչյուր հատուկ կարիքի կամ նախագծի իրականացման միջև հավասարակշռության միջոցով (խիստ մասնագիտացված խողովակաշար, արտաքին աղբյուրների միացում): 

Տվյալների գիտնականների և վերլուծաբանների հետ սերտ համագործակցությունն օգնում է ինժեներներին զարգացնել վերլուծական և հետազոտական ​​հմտություններ՝ ավելի լավ կոդ գրելու համար: Պահեստների և տվյալների լճերի օգտագործողների միջև գիտելիքների փոխանակումը բարելավվում է՝ նախագծերը դարձնելով ավելի ճկուն և ապահովելով ավելի կայուն երկարաժամկետ արդյունքներ:

Ընկերություններում, որոնք նպատակ ունեն զարգացնել տվյալների հետ աշխատելու և դրանց հիման վրա բիզնես գործընթացներ կառուցելու մշակույթը, Data Scientist-ը և Data Engineer-ը լրացնում են միմյանց և ստեղծում տվյալների վերլուծության ամբողջական համակարգ: 

Հաջորդ հոդվածում մենք կխոսենք այն մասին, թե ինչպիսի կրթություն պետք է ունենան Data Engineer-ը և Data Scientists-ը, ինչ հմտություններ պետք է նրանք զարգացնեն և ինչպես է աշխատում շուկան:

Netology-ի խմբագիրներից

Եթե ​​դուք փնտրում եք տվյալների ինժեների կամ տվյալների գիտնականի մասնագիտությունը, մենք ձեզ հրավիրում ենք ուսումնասիրելու մեր դասընթացների ծրագրերը.

Source: www.habr.com

Добавить комментарий