Տվյալների ինժեների մասնագիտության մեջ ամենապահանջված հմտությունները

Ըստ վիճակագրություն 2019 թ, տվյալների ինժեները ներկայումս մասնագիտություն է, որի պահանջարկն աճում է ավելի արագ, քան ցանկացած այլ: Տվյալների ինժեները կարևոր դեր է խաղում կազմակերպությունում՝ ստեղծում և պահպանում է խողովակաշարեր և տվյալների բազաներ, որոնք օգտագործվում են տվյալների մշակման, փոխակերպման և պահպանման համար: Ի՞նչ հմտություններ են անհրաժեշտ առաջին հերթին այս մասնագիտության ներկայացուցիչներին։ Ցանկը տարբերվու՞մ է տվյալների գիտնականներից պահանջվողից: Այս ամենի մասին կիմանաք իմ հոդվածից։

Ես վերլուծեցի տվյալների ինժեների պաշտոնի թափուր աշխատատեղերը, ինչպես դրանք կան 2020 թվականի հունվարին՝ հասկանալու համար, թե որ տեխնոլոգիական հմտություններն են առավել տարածված: Այնուհետև ես համեմատեցի արդյունքները տվյալների գիտնականի պաշտոնի թափուր աշխատատեղերի վիճակագրության հետ, և որոշ հետաքրքիր տարբերություններ ի հայտ եկան:

Առանց շատ նախաբանի, ահա լավագույն տեխնոլոգիաների տասնյակը, որոնք առավել հաճախ նշվում են աշխատանքի հայտարարություններում.

Տվյալների ինժեների մասնագիտության մեջ ամենապահանջված հմտությունները

Տեխնոլոգիաների նշում 2020 թվականին տվյալների ինժեների պաշտոնի թափուր աշխատատեղերում

Եկեք դա պարզենք:

Տվյալների ինժեների պարտականությունները

Այսօր տվյալների ինժեներների աշխատանքը մեծ նշանակություն ունի կազմակերպությունների համար. սրանք այն մարդիկ են, ովքեր պատասխանատու են տեղեկատվության պահպանման և այն այնպիսի ձևի բերելու համար, որ մյուս աշխատակիցները կարողանան աշխատել դրա հետ: Տվյալների ինժեներները խողովակաշարեր են կառուցում բազմաթիվ աղբյուրներից տվյալների հոսքի կամ փաթեթավորման համար: Խողովակաշարերն այնուհետև կատարում են արդյունահանման, փոխակերպման և բեռնման գործողություններ (այլ կերպ ասած՝ ETL գործընթացներ)՝ ավելի հարմար դարձնելով տվյալները հետագա օգտագործման համար: Դրանից հետո տվյալները ներկայացվում են վերլուծաբաններին և տվյալների գիտնականներին՝ ավելի խորը մշակման համար։ Ի վերջո, տվյալներն ավարտում են իրենց ճանապարհորդությունը վահանակների, հաշվետվությունների և մեքենայական ուսուցման մոդելներում:

Ես փնտրում էի տեղեկատվություն, որը թույլ կտա ինձ եզրակացություն անել, թե տվյալ պահին տվյալների ինժեների աշխատանքում որ տեխնոլոգիաներն են առավել պահանջված։

Մեթոդներ

Ես տեղեկատվություն հավաքեցի երեք աշխատանք փնտրող կայքերից SimplyHired, Իսկապես и Հրեշ և նայեց, թե ինչ հիմնաբառեր են հանդիպում «տվյալների ինժեներ»-ի հետ համատեղ ԱՄՆ բնակիչներին ուղղված թափուր աշխատատեղերի տեքստերում: Այս առաջադրանքի համար ես օգտագործել եմ երկու Python գրադարաններ − Requests и Գեղեցիկ ապուր. Հիմնաբառերի շարքում ես ներառեցի և՛ դրանք, որոնք ներառված էին նախորդ ցանկում՝ տվյալների գիտնականի պաշտոնի համար թափուր աշխատատեղերը վերլուծելու համար, և՛ նրանք, որոնք ձեռքով ընտրել եմ տվյալների ինժեներների համար աշխատանքի առաջարկները կարդալիս: LinkedIn-ը չի ներառվել աղբյուրների ցանկում, քանի որ ինձ արգելել են այնտեղ տվյալներ հավաքելու իմ վերջին փորձից հետո։

Յուրաքանչյուր հիմնաբառի համար ես հաշվարկել եմ այցելությունների տոկոսը յուրաքանչյուր կայքի տեքստերի ընդհանուր քանակից առանձին, այնուհետև հաշվարկել եմ միջինը երեք աղբյուրների համար:

Արդյունքները

Ստորև ներկայացված են երեսուն տեխնիկական տվյալների ինժեներական տերմիններ, որոնք ունեն ամենաբարձր միավորները բոլոր երեք աշխատատեղերում:

Տվյալների ինժեների մասնագիտության մեջ ամենապահանջված հմտությունները

Եվ ահա նույն թվերը, բայց ներկայացված են աղյուսակի տեսքով.

Տվյալների ինժեների մասնագիտության մեջ ամենապահանջված հմտությունները

Գնանք կարգով։

Արդյունքների վերանայում

Ե՛վ SQL, և՛ Python-ը հայտնվում են վերանայված աշխատատեղերի ավելի քան երկու երրորդում: Այս երկու տեխնոլոգիաներն են, որ իմաստ ունեն ուսումնասիրել առաջինը: Python շատ տարածված ծրագրավորման լեզու է, որն օգտագործվում է տվյալների հետ աշխատելու, կայքեր ստեղծելու և սցենարներ գրելու համար: SQL նշանակում է Structured Query Language; այն ներառում է մի խումբ լեզուների կողմից իրականացվող ստանդարտ և օգտագործվում է հարաբերական տվյալների բազաներից տվյալներ ստանալու համար: Այն հայտնվել է շատ վաղուց և ապացուցել է իր բարձր դիմացկունությունը։

Թափուր աշխատատեղերի մոտ կեսում նշվում է կայծը։ Apache Spark- ը «մեծ տվյալների վերլուծության միասնական շարժիչ է՝ ներկառուցված մոդուլներով հոսքի, SQL-ի, մեքենայական ուսուցման և գրաֆիկների մշակման համար»: Այն հատկապես տարածված է նրանց շրջանում, ովքեր աշխատում են մեծ տվյալների բազաներով։

AWS-ը հայտնվում է աշխատանքի հայտարարությունների մոտավորապես 45%-ում: Այն Amazon-ի կողմից արտադրված ամպային հաշվողական հարթակ է; այն ունի շուկայի ամենամեծ մասնաբաժինը բոլոր ամպային հարթակների մեջ:
Հաջորդը գալիս են Java-ն և Hadoop-ը՝ 40%-ից մի փոքր ավելին իրենց եղբոր համար: Java լայնորեն խոսված, մարտական ​​փորձարկված լեզու է, որը 2019 Stack Overflow ծրագրավորողների հարցում արժանացել է տասներորդ տեղը այն լեզուների շարքում, որոնք սարսափ են առաջացնում ծրագրավորողների շրջանում։ Ի հակադրություն, Python-ը երկրորդ ամենասիրված լեզուն էր: Java լեզուն աշխատում է Oracle-ի կողմից, և այն ամենը, ինչ դուք պետք է իմանաք դրա մասին, կարելի է հասկանալ պաշտոնական էջի այս սքրինշոթից սկսած 2020 թվականի հունվարից։

Տվյալների ինժեների մասնագիտության մեջ ամենապահանջված հմտությունները

Դա նման է ժամանակի մեքենայի վրա նստած
Apache Hadoop- ը օգտագործում է MapReduce ծրագրավորման մոդելը սերվերների կլաստերներով մեծ տվյալների համար: Այժմ այս մոդելը գնալով լքվում է:

Այնուհետև մենք տեսնում ենք Hive, Scala, Kafka և NoSQL - այս տեխնոլոգիաներից յուրաքանչյուրը նշված է ներկայացված թափուր աշխատատեղերի մեկ քառորդում։ Apache Hive-ը տվյալների պահեստային ծրագրաշար է, որը «հեշտացնում է կարդալը, գրելը և կառավարել մեծ տվյալների հավաքածուները, որոնք բնակվում են բաշխված խանութներում՝ օգտագործելով SQL»: Scala – ծրագրավորման լեզու, որն ակտիվորեն օգտագործվում է մեծ տվյալների հետ աշխատելիս: Մասնավորապես, Spark-ը ստեղծվել է Սկալայում։ Վախ լեզուների արդեն նշված վարկանիշում Scala-ն զբաղեցնում է տասնմեկերորդ տեղը։ Apache Kafka – հոսքային հաղորդագրությունների մշակման բաշխված հարթակ: Շատ տարածված է որպես տվյալների հոսքի միջոց:

NoSQL տվյալների բազաներ հակադրել իրենց SQL-ին: Նրանք տարբերվում են նրանով, որ դրանք ոչ հարաբերական են, ոչ կառուցվածքային և հորիզոնական մասշտաբային: NoSQL-ը որոշակի ժողովրդականություն է ձեռք բերել, բայց մոտեցման մոլուցքը, նույնիսկ այն աստիճանի, որ այն կփոխարինի SQL-ին որպես պահպանման գերիշխող պարադիգմ, կարծես թե ավարտվել է:

Համեմատություն տվյալների գիտնականի թափուր աշխատատեղերի տերմինների հետ

Ահա տվյալների գիտության գործատուների շրջանում ամենատարածված երեսուն տեխնոլոգիական տերմիններ: Ես ստացա այս ցուցակը նույն կերպ, ինչպես նկարագրված է վերևում տվյալների ճարտարագիտության համար:

Տվյալների ինժեների մասնագիտության մեջ ամենապահանջված հմտությունները

Տեխնոլոգիաների հիշատակում 2020 թվականին տվյալների գիտնականի պաշտոնի թափուր աշխատատեղերում

Եթե ​​խոսենք ընդհանուր թվի մասին, ապա նախկինում դիտարկված հավաքագրման համեմատությամբ, ապա թափուր աշխատատեղերը 28%-ով ավելի են եղել (12-ի դիմաց՝ 013-ի դիմաց)։ Տեսնենք, թե որ տեխնոլոգիաներն են ավելի քիչ տարածված տվյալների գիտնականների թափուր աշխատատեղերում, քան տվյալների ինժեներների համար:

Ավելի հայտնի տվյալների ճարտարագիտության մեջ

Ստորև բերված գրաֆիկը ցույց է տալիս 10%-ից ավելի կամ -10%-ից պակաս միջին տարբերությամբ հիմնաբառեր:

Տվյալների ինժեների մասնագիտության մեջ ամենապահանջված հմտությունները

Հիմնական բառերի հաճախականության ամենամեծ տարբերությունները տվյալների ինժեների և տվյալների գիտնականի միջև

AWS-ը ցույց է տալիս ամենազգալի աճը. տվյալների ճարտարագիտության մեջ այն հայտնվում է 25%-ով ավելի կանոնավոր, քան տվյալների գիտության մեջ (համապատասխանաբար 45% և ընդհանուր թափուր աշխատատեղերի 20%-ը): Տարբերությունը նկատելի է!

Ահա նույն տվյալները մի փոքր այլ ներկայացման մեջ. գծապատկերում տվյալների ինժեների և տվյալների գիտնականի պաշտոնի թափուր աշխատատեղերում նույն բանալի բառի արդյունքները գտնվում են կողք կողքի:

Տվյալների ինժեների մասնագիտության մեջ ամենապահանջված հմտությունները

Հիմնական բառերի հաճախականության ամենամեծ տարբերությունները տվյալների ինժեների և տվյալների գիտնականի միջև

Հաջորդ ամենամեծ թռիչքը, որը ես նկատեցի, Spark-ն էր. տվյալների ինժեները հաճախ ստիպված է աշխատել մեծ տվյալների հետ: Kafka նույնպես աճել է 20%-ով, այսինքն՝ գրեթե չորս անգամ տվյալների գիտնականների թափուր աշխատատեղերի արդյունքի համեմատ։ Տվյալների փոխանցումը տվյալների ինժեների հիմնական պարտականություններից մեկն է: Վերջապես, հիշատակումների թիվը 15%-ով ավելի է եղել Java-ի, NoSQL-ի, Redshift-ի, SQL-ի և Hadoop-ի տվյալների ճարտարագիտության ոլորտում:

Ավելի քիչ տարածված տվյալների ճարտարագիտության մեջ

Այժմ տեսնենք, թե որ տեխնոլոգիաներն են ավելի քիչ տարածված տվյալների ինժեների թափուր աշխատատեղերում:
Ամենակտրուկ անկումը տվյալների գիտության ոլորտի համեմատ գրանցվել է Rայնտեղ նա հայտնվել է թափուր աշխատատեղերի մոտավորապես 56%-ում, այստեղ՝ միայն 17%-ում։ Տպավորիչ. R-ն ծրագրավորման լեզու է, որը սիրված է գիտնականների և վիճակագիրների կողմից և աշխարհի ութերորդ ամենավտանգավոր լեզուն է:

SAS հայտնաբերվում է նաև տվյալների ինժեների պաշտոնի թափուր աշխատատեղերում զգալիորեն ավելի հազվադեպ՝ տարբերությունը 14% է։ SAS-ը սեփականության լեզու է, որը նախատեսված է վիճակագրության և տվյալների հետ աշխատելու համար: Հետաքրքիր կետ՝ դատելով արդյունքներից իմ հետազոտությունը տվյալների գիտնականների համար աշխատատեղերի վերաբերյալ, այն վերջերս շատ դիրք է կորցրել՝ ավելի շատ, քան ցանկացած այլ տեխնոլոգիա:

Պահանջարկված է ինչպես տվյալների ճարտարագիտության, այնպես էլ տվյալների գիտության մեջ

Նշենք, որ երկու սեթերում էլ առաջին տասը դիրքերից ութը նույնն են։ SQL-ը, Python-ը, Spark-ը, AWS-ը, Java-ն, Hadoop-ը, Hive-ը և Scala-ն տեղ են գտել լավագույն տասնյակում ինչպես տվյալների ճարտարագիտության, այնպես էլ տվյալների գիտության ոլորտներում: Ստորև բերված գծապատկերում դուք կարող եք տեսնել տվյալների ինժեներ գործատուների շրջանում ամենատարածված տասնհինգ տեխնոլոգիաները, որոնց կողքին ներկայացված է տվյալների գիտնականների թափուր աշխատատեղերը:

Տվյալների ինժեների մասնագիտության մեջ ամենապահանջված հմտությունները

Առաջարկություններ

Եթե ​​ցանկանում եք մուտք գործել տվյալների ճարտարագիտության մեջ, խորհուրդ կտամ տիրապետել հետևյալ տեխնոլոգիաներին. ես դրանք թվարկում եմ մոտավոր առաջնահերթության կարգով:

Սովորեք SQL. Ես հակված եմ դեպի PostgreSQL, քանի որ այն բաց կոդով է, շատ տարածված է համայնքում և գտնվում է աճի փուլում: Դուք կարող եք սովորել, թե ինչպես օգտագործել լեզուն My Memorable SQL գրքից, որի փորձնական տարբերակը հասանելի է այստեղ.

Վարպետ Python-ը, նույնիսկ եթե ոչ ամենակարևոր մակարդակում: My Memorable Python-ը նախատեսված է հատուկ սկսնակների համար: Այն կարելի է ձեռք բերել ժ Amazon, էլեկտրոնային կամ ֆիզիկական պատճենը, ձեր ընտրությամբ կամ ներբեռնեք pdf կամ epub ձևաչափով այս կայքում.

Երբ դուք ծանոթանաք Python-ին, անցեք պանդաներին՝ Python գրադարան, որն օգտագործվում է տվյալների մաքրման և մշակման համար: Եթե ​​դուք մտադիր եք աշխատել մի ընկերությունում, որը պահանջում է Python-ով գրելու կարողություն (և սա նրանց մեծամասնությունն է), ապա կարող եք վստահ լինել, որ պանդաների մասին իմացությունը ենթադրվում է լռելյայն: Ես այս պահին ավարտում եմ պանդաների հետ աշխատելու ներածական ուղեցույցը. դուք կարող եք բաժանորդագրվելորպեսզի բաց չթողնեմ ազատման պահը։

Վարպետ AWS. Եթե ​​ցանկանում եք դառնալ տվյալների ինժեներ, դուք չեք կարող անել առանց ամպային հարթակի պահոցում, և AWS-ն դրանցից ամենահայտնին է: Դասընթացներն ինձ շատ օգնեցին Linux ակադեմիաերբ ես սովորում էի տվյալների ճարտարագիտություն Google Cloud-ում, կարծում եմ, որ լավ նյութեր կունենան նաև AWS-ի վերաբերյալ։

Եթե ​​դուք արդեն լրացրել եք այս ամբողջ ցուցակը և ցանկանում եք հետագայում աճել գործատուների աչքում որպես տվյալների ինժեներ, ես առաջարկում եմ ավելացնել Apache Spark-ը մեծ տվյալների հետ աշխատելու համար: Թեև տվյալների գիտնականների թափուր աշխատատեղերի վերաբերյալ իմ հետազոտությունը ցույց տվեց հետաքրքրության անկում, տվյալների ինժեներների շրջանում այն ​​դեռ հայտնվում է գրեթե յուրաքանչյուր երկրորդ թափուր աշխատատեղում:

Վերջապես

Հուսով եմ, որ ձեզ օգտակար է համարել տվյալների ինժեներների համար առավել պահանջված տեխնոլոգիաների այս ակնարկը: Եթե ​​ձեզ հետաքրքրում է, թե ինչպես են ընթանում վերլուծաբանների աշխատանքը, կարդացեք իմ մյուս հոդվածը. Ուրախ ճարտարագիտություն:

Source: www.habr.com

Добавить комментарий