Ըստ
Ես վերլուծեցի տվյալների ինժեների պաշտոնի թափուր աշխատատեղերը, ինչպես դրանք կան 2020 թվականի հունվարին՝ հասկանալու համար, թե որ տեխնոլոգիական հմտություններն են առավել տարածված: Այնուհետև ես համեմատեցի արդյունքները տվյալների գիտնականի պաշտոնի թափուր աշխատատեղերի վիճակագրության հետ, և որոշ հետաքրքիր տարբերություններ ի հայտ եկան:
Առանց շատ նախաբանի, ահա լավագույն տեխնոլոգիաների տասնյակը, որոնք առավել հաճախ նշվում են աշխատանքի հայտարարություններում.
Տեխնոլոգիաների նշում 2020 թվականին տվյալների ինժեների պաշտոնի թափուր աշխատատեղերում
Տվյալների ինժեների պարտականությունները
Այսօր տվյալների ինժեներների աշխատանքը մեծ նշանակություն ունի կազմակերպությունների համար. սրանք այն մարդիկ են, ովքեր պատասխանատու են տեղեկատվության պահպանման և այն այնպիսի ձևի բերելու համար, որ մյուս աշխատակիցները կարողանան աշխատել դրա հետ: Տվյալների ինժեներները խողովակաշարեր են կառուցում բազմաթիվ աղբյուրներից տվյալների հոսքի կամ փաթեթավորման համար: Խողովակաշարերն այնուհետև կատարում են արդյունահանման, փոխակերպման և բեռնման գործողություններ (այլ կերպ ասած՝ ETL գործընթացներ)՝ ավելի հարմար դարձնելով տվյալները հետագա օգտագործման համար: Դրանից հետո տվյալները ներկայացվում են վերլուծաբաններին և տվյալների գիտնականներին՝ ավելի խորը մշակման համար։ Ի վերջո, տվյալներն ավարտում են իրենց ճանապարհորդությունը վահանակների, հաշվետվությունների և մեքենայական ուսուցման մոդելներում:
Ես փնտրում էի տեղեկատվություն, որը թույլ կտա ինձ եզրակացություն անել, թե տվյալ պահին տվյալների ինժեների աշխատանքում որ տեխնոլոգիաներն են առավել պահանջված։
Մեթոդներ
Ես տեղեկատվություն հավաքեցի երեք աշխատանք փնտրող կայքերից
Յուրաքանչյուր հիմնաբառի համար ես հաշվարկել եմ այցելությունների տոկոսը յուրաքանչյուր կայքի տեքստերի ընդհանուր քանակից առանձին, այնուհետև հաշվարկել եմ միջինը երեք աղբյուրների համար:
Արդյունքները
Ստորև ներկայացված են երեսուն տեխնիկական տվյալների ինժեներական տերմիններ, որոնք ունեն ամենաբարձր միավորները բոլոր երեք աշխատատեղերում:
Եվ ահա նույն թվերը, բայց ներկայացված են աղյուսակի տեսքով.
Գնանք կարգով։
Արդյունքների վերանայում
Ե՛վ SQL, և՛ Python-ը հայտնվում են վերանայված աշխատատեղերի ավելի քան երկու երրորդում: Այս երկու տեխնոլոգիաներն են, որ իմաստ ունեն ուսումնասիրել առաջինը:
Թափուր աշխատատեղերի մոտ կեսում նշվում է կայծը։
AWS-ը հայտնվում է աշխատանքի հայտարարությունների մոտավորապես 45%-ում: Այն Amazon-ի կողմից արտադրված ամպային հաշվողական հարթակ է; այն ունի շուկայի ամենամեծ մասնաբաժինը բոլոր ամպային հարթակների մեջ:
Հաջորդը գալիս են Java-ն և Hadoop-ը՝ 40%-ից մի փոքր ավելին իրենց եղբոր համար:
Դա նման է ժամանակի մեքենայի վրա նստած
Այնուհետև մենք տեսնում ենք Hive, Scala, Kafka և NoSQL - այս տեխնոլոգիաներից յուրաքանչյուրը նշված է ներկայացված թափուր աշխատատեղերի մեկ քառորդում։ Apache Hive-ը տվյալների պահեստային ծրագրաշար է, որը «հեշտացնում է կարդալը, գրելը և կառավարել մեծ տվյալների հավաքածուները, որոնք բնակվում են բաշխված խանութներում՝ օգտագործելով SQL»:
Համեմատություն տվյալների գիտնականի թափուր աշխատատեղերի տերմինների հետ
Ահա տվյալների գիտության գործատուների շրջանում ամենատարածված երեսուն տեխնոլոգիական տերմիններ: Ես ստացա այս ցուցակը նույն կերպ, ինչպես նկարագրված է վերևում տվյալների ճարտարագիտության համար:
Տեխնոլոգիաների հիշատակում 2020 թվականին տվյալների գիտնականի պաշտոնի թափուր աշխատատեղերում
Եթե խոսենք ընդհանուր թվի մասին, ապա նախկինում դիտարկված հավաքագրման համեմատությամբ, ապա թափուր աշխատատեղերը 28%-ով ավելի են եղել (12-ի դիմաց՝ 013-ի դիմաց)։ Տեսնենք, թե որ տեխնոլոգիաներն են ավելի քիչ տարածված տվյալների գիտնականների թափուր աշխատատեղերում, քան տվյալների ինժեներների համար:
Ավելի հայտնի տվյալների ճարտարագիտության մեջ
Ստորև բերված գրաֆիկը ցույց է տալիս 10%-ից ավելի կամ -10%-ից պակաս միջին տարբերությամբ հիմնաբառեր:
Հիմնական բառերի հաճախականության ամենամեծ տարբերությունները տվյալների ինժեների և տվյալների գիտնականի միջև
AWS-ը ցույց է տալիս ամենազգալի աճը. տվյալների ճարտարագիտության մեջ այն հայտնվում է 25%-ով ավելի կանոնավոր, քան տվյալների գիտության մեջ (համապատասխանաբար 45% և ընդհանուր թափուր աշխատատեղերի 20%-ը): Տարբերությունը նկատելի է!
Ահա նույն տվյալները մի փոքր այլ ներկայացման մեջ. գծապատկերում տվյալների ինժեների և տվյալների գիտնականի պաշտոնի թափուր աշխատատեղերում նույն բանալի բառի արդյունքները գտնվում են կողք կողքի:
Հիմնական բառերի հաճախականության ամենամեծ տարբերությունները տվյալների ինժեների և տվյալների գիտնականի միջև
Հաջորդ ամենամեծ թռիչքը, որը ես նկատեցի, Spark-ն էր. տվյալների ինժեները հաճախ ստիպված է աշխատել մեծ տվյալների հետ:
Ավելի քիչ տարածված տվյալների ճարտարագիտության մեջ
Այժմ տեսնենք, թե որ տեխնոլոգիաներն են ավելի քիչ տարածված տվյալների ինժեների թափուր աշխատատեղերում:
Ամենակտրուկ անկումը տվյալների գիտության ոլորտի համեմատ գրանցվել է
Պահանջարկված է ինչպես տվյալների ճարտարագիտության, այնպես էլ տվյալների գիտության մեջ
Նշենք, որ երկու սեթերում էլ առաջին տասը դիրքերից ութը նույնն են։ SQL-ը, Python-ը, Spark-ը, AWS-ը, Java-ն, Hadoop-ը, Hive-ը և Scala-ն տեղ են գտել լավագույն տասնյակում ինչպես տվյալների ճարտարագիտության, այնպես էլ տվյալների գիտության ոլորտներում: Ստորև բերված գծապատկերում դուք կարող եք տեսնել տվյալների ինժեներ գործատուների շրջանում ամենատարածված տասնհինգ տեխնոլոգիաները, որոնց կողքին ներկայացված է տվյալների գիտնականների թափուր աշխատատեղերը:
Առաջարկություններ
Եթե ցանկանում եք մուտք գործել տվյալների ճարտարագիտության մեջ, խորհուրդ կտամ տիրապետել հետևյալ տեխնոլոգիաներին. ես դրանք թվարկում եմ մոտավոր առաջնահերթության կարգով:
Սովորեք SQL. Ես հակված եմ դեպի PostgreSQL, քանի որ այն բաց կոդով է, շատ տարածված է համայնքում և գտնվում է աճի փուլում: Դուք կարող եք սովորել, թե ինչպես օգտագործել լեզուն My Memorable SQL գրքից, որի փորձնական տարբերակը հասանելի է
Վարպետ Python-ը, նույնիսկ եթե ոչ ամենակարևոր մակարդակում: My Memorable Python-ը նախատեսված է հատուկ սկսնակների համար: Այն կարելի է ձեռք բերել ժ
Երբ դուք ծանոթանաք Python-ին, անցեք պանդաներին՝ Python գրադարան, որն օգտագործվում է տվյալների մաքրման և մշակման համար: Եթե դուք մտադիր եք աշխատել մի ընկերությունում, որը պահանջում է Python-ով գրելու կարողություն (և սա նրանց մեծամասնությունն է), ապա կարող եք վստահ լինել, որ պանդաների մասին իմացությունը ենթադրվում է լռելյայն: Ես այս պահին ավարտում եմ պանդաների հետ աշխատելու ներածական ուղեցույցը. դուք կարող եք
Վարպետ AWS. Եթե ցանկանում եք դառնալ տվյալների ինժեներ, դուք չեք կարող անել առանց ամպային հարթակի պահոցում, և AWS-ն դրանցից ամենահայտնին է: Դասընթացներն ինձ շատ օգնեցին
Եթե դուք արդեն լրացրել եք այս ամբողջ ցուցակը և ցանկանում եք հետագայում աճել գործատուների աչքում որպես տվյալների ինժեներ, ես առաջարկում եմ ավելացնել Apache Spark-ը մեծ տվյալների հետ աշխատելու համար: Թեև տվյալների գիտնականների թափուր աշխատատեղերի վերաբերյալ իմ հետազոտությունը ցույց տվեց հետաքրքրության անկում, տվյալների ինժեներների շրջանում այն դեռ հայտնվում է գրեթե յուրաքանչյուր երկրորդ թափուր աշխատատեղում:
Վերջապես
Հուսով եմ, որ ձեզ օգտակար է համարել տվյալների ինժեներների համար առավել պահանջված տեխնոլոգիաների այս ակնարկը: Եթե ձեզ հետաքրքրում է, թե ինչպես են ընթանում վերլուծաբանների աշխատանքը, կարդացեք
Source: www.habr.com