እንደ
በቴክኖሎጂ መስክ ውስጥ ምን አይነት ችሎታዎች በጣም ተወዳጅ እንደሆኑ ለመረዳት በጥር 2020 ውስጥ እንዳሉ ስራዎችን ለዳታ መሐንዲስ ቦታ ተንትቻለሁ። ከዚያም እኔ ውሂብ ሳይንቲስት ቦታ ክፍት የሥራ ቦታዎች ስታቲስቲክስ ጋር ውጤቶችን አወዳድር - አንዳንድ ሳቢ ልዩነቶች በመግለጥ ሳለ.
ረጅም መግቢያዎች ከሌሉ፣ በስራ መለጠፍ ላይ በብዛት የሚጠቀሱት አስር ምርጥ ቴክኖሎጂዎች እዚህ አሉ።
በ 2020 ውስጥ በመረጃ መሐንዲስ ስራዎች ውስጥ የቴክኖሎጂ ማጣቀሻዎች
የውሂብ መሐንዲስ ኃላፊነቶች
ዛሬ, የመረጃ መሐንዲሶች የሚሰሩት ስራ ለድርጅቶች ትልቅ ጠቀሜታ አለው - መረጃን የማከማቸት እና ሌሎች ሰራተኞች ሊሰሩበት በሚችል ቅፅ ውስጥ የማስቀመጥ ሃላፊነት ያለባቸው እነዚህ ሰዎች ናቸው. የውሂብ መሐንዲሶች ውሂብን፣ ዥረት ወይም ባች ከበርካታ ምንጮች ለማግኘት የቧንቧ መስመሮችን ይሠራሉ። በመቀጠልም የቧንቧ መስመሮች የማውጣት, የመለወጥ እና የመጫን ስራዎችን ያከናውናሉ (በሌላ አነጋገር, የኢቲኤል ሂደቶች), መረጃው ለቀጣይ አጠቃቀም የበለጠ ተስማሚ ያደርገዋል. ከዚያ በኋላ ውሂቡ ወደ ተንታኞች እና የውሂብ ሳይንቲስቶች ጥልቅ ሂደት ቀርቧል። በመጨረሻም መረጃው ጉዞውን በዳሽቦርዶች፣ በሪፖርቶች እና በማሽን መማሪያ ሞዴሎች ያበቃል።
በአሁኑ ጊዜ በመረጃ መሐንዲስ ሥራ ውስጥ የትኞቹ ቴክኖሎጂዎች በጣም እንደሚፈለጉ ለመደምደም የሚያስችለኝን መረጃ ፈልጌ ነበር።
ዘዴዎች
ከሶስት የስራ ፍለጋ ጣቢያዎች መረጃ ሰበሰብኩ -
ለእያንዳንዱ ቁልፍ ቃል የ hitsን መቶኛ በእያንዳንዱ ጣቢያ ላይ ካሉት አጠቃላይ የጽሁፎች ብዛት ለየብቻ አስላለሁ እና ከዚያ ለሶስት ምንጮች አማካይ ዋጋ አስላለሁ።
ውጤቶች
ከዚህ በታች በሦስቱም የሥራ ቦታዎች ላይ ከፍተኛ አፈጻጸም ካላቸው የውሂብ ምህንድስና ቃላቶች መካከል ከፍተኛዎቹ XNUMX የመረጃ ምህንድስና ቃላቶች አሉ።
እና እዚህ ተመሳሳይ ቁጥሮች አሉ ፣ ግን በጠረጴዛ መልክ የተደረደሩ ናቸው-
በቅደም ተከተል እንሂድ.
የውጤቶች ግምገማ
ሁለቱም SQL እና Python ከተገመገሙት ስራዎች ውስጥ ከሁለት ሶስተኛ በላይ ናቸው። በመጀመሪያ ደረጃ ለማጥናት ምክንያታዊ የሆኑት እነዚህ ሁለት ቴክኖሎጂዎች ናቸው.
ስፓርክ በግማሽ ያህል ክፍት የስራ መደቦች ውስጥ ተጠቅሷል።
AWS 45% ከሚሆኑት የስራ ማስታወቂያዎች ውስጥ ነው። በአማዞን የተሰራ የደመና ማስላት መድረክ ነው; ከሁሉም የደመና መድረኮች ትልቁ የገበያ ድርሻ አለው።
ቀጥሎ ጃቫ እና ሃዱፕ ይመጣሉ - በወንድም ከ 40% ትንሽ።
የጊዜ ማሽን እንደ መንዳት ነው።
ከዚያም Hive, Scala, Kafka እና NoSQL እናያለን - እያንዳንዳቸው እነዚህ ቴክኖሎጂዎች ከቀረቡት ክፍት ቦታዎች ሩብ ውስጥ ተጠቅሰዋል. Apache Hive "በ SQL በመጠቀም በተከፋፈሉ መደብሮች ውስጥ የሚገኙ ትላልቅ የውሂብ ስብስቦችን ለማንበብ፣ ለመፃፍ እና ለማስተዳደር ቀላል የሚያደርግ የመረጃ ማከማቻ ፕሮግራም ነው።"
ከውሂብ ሳይንቲስት ክፍት የስራ ቃላቶች ጋር ማወዳደር
በዳታ ሳይንስ አሰሪዎች በብዛት የሚጠቀሙባቸው ሰላሳ የቴክኖሎጂ ቃላት እዚህ አሉ። ይህንን ዝርዝር ያገኘሁት ከላይ ለዳታ ኢንጂነሪንግ በገለጽኩት መንገድ ነው።
ቴክኖሎጂ በ2020 ለዳታ ሳይንቲስት ቦታ ክፍት የስራ መደቦችን ጠቅሷል
ስለ አጠቃላይ ቁጥሩ ከተነጋገርን, ቀደም ሲል ከታሰበው ስብስብ ጋር ሲነጻጸር, 28% ተጨማሪ ክፍት ቦታዎች ነበሩ (12 ከ 013 ጋር). ለዳታ ሳይንቲስቶች ከዳታ ኢንጂነሮች ይልቅ የትኞቹ ቴክኖሎጂዎች ብዙም ያልተለመዱ እንደሆኑ እንይ።
በመረጃ ምህንድስና ውስጥ የበለጠ ታዋቂ
ከታች ያለው ገበታ ከ10% በላይ ወይም ከ -10% ያነሰ አማካይ የእሴት ልዩነት ያላቸውን ቁልፍ ቃላት ያሳያል።
በመረጃ መሐንዲስ እና በመረጃ ሳይንቲስት መካከል በቁልፍ ቃል ድግግሞሽ ውስጥ ትልቁ ልዩነቶች
AWS በጣም ጉልህ የሆነ ጭማሪ ያሳያል፡ በዳታ ኢንጂነሪንግ ከዳታ ሳይንስ ይልቅ 25% በመደበኛነት ይታያል (በቅደም ተከተል 45% እና 20% ከጠቅላላው የስራ መደቦች ብዛት)። ልዩነቱ ግልጽ ነው!
እዚህ ትንሽ ለየት ያለ እይታ ውስጥ ተመሳሳይ ውሂብ ነው - በግራፍ ውስጥ, የውሂብ መሐንዲስ እና የውሂብ ሳይንቲስት ቦታ ክፍት የሥራ ተመሳሳይ ቁልፍ ቃል ውጤቶች ጎን ለጎን ይገኛሉ.
በመረጃ መሐንዲስ እና በመረጃ ሳይንቲስት መካከል በቁልፍ ቃል ድግግሞሽ ውስጥ ትልቁ ልዩነቶች
የሚቀጥለው ትልቁ ዝላይ ከስፓርክ ጋር ነበር - የዳታ ኢንጂነር ብዙ ጊዜ በትልቁ ዳታ መስራት አለበት።
በመረጃ ምህንድስና ውስጥ ብዙም ታዋቂነት ያለው
አሁን የትኞቹ ቴክኖሎጂዎች በመረጃ መሐንዲስ ስራዎች ውስጥ ብዙ ታዋቂ እንዳልሆኑ እንይ።
ከመረጃ ሳይንስ መስክ ጋር ሲነፃፀር በጣም ከፍተኛው ውድቀት የተከሰተው እ.ኤ.አ
በሁለቱም በዳታ ኢንጂነሪንግ እና በዳታ ሳይንስ ውስጥ ተፈላጊ
በሁለቱም ስብስቦች ውስጥ ከመጀመሪያዎቹ አስር ቦታዎች ውስጥ ስምንቱ ተመሳሳይ መሆናቸውን ልብ ሊባል ይገባል. SQL፣ Python፣ Spark፣ AWS፣ Java፣ Hadoop፣ Hive፣ እና Scala ለዳታ ኢንጂነሪንግ እና ዳታ ሳይንስ ምርጥ አስር ሆነዋል። ከታች ባለው ግራፍ ላይ ለዳታ ኢንጂነሮች አሰሪዎች አስራ አምስት በጣም ተወዳጅ ቴክኖሎጂዎችን ማየት ይችላሉ, እና ከእነሱ ቀጥሎ ለዳታ ሳይንቲስቶች የስራ ልኬት አላቸው.
ምክሮች
ዳታ ኢንጂነሪንግ ለመስራት ከፈለጉ የሚከተሉትን ቴክኖሎጂዎች በደንብ እንዲያውቁ እመክርዎታለሁ - በቅደም ተከተል በቅደም ተከተል እዘረዝራለሁ ።
SQL ይማሩ። ወደ PostgreSQL እያዘንኩ ነው ምክንያቱም ክፍት ምንጭ፣ በማህበረሰብ ውስጥ በጣም ታዋቂ እና በእድገት ደረጃ ላይ ነው። ቋንቋውን እንዴት መጠቀም እንደሚቻል My Memorable SQL በሚለው መጽሃፍ ውስጥ ይገኛል - የእሱ አብራሪ ስሪት አለ
ማስተር ፓይዘን፣ ምንም እንኳን በጣም ሃርድኮር ደረጃ ባይሆንም። My Memorable Python የተባለው መጽሐፍ የተነደፈው ለጀማሪዎች ብቻ ነው። ላይ ሊገዛ ይችላል።
አንዴ ፓይዘንን በደንብ ካወቁ በኋላ ወደ ፓንዳስ ይሂዱ፣ የፓይዘን ቤተ-መጽሐፍት ለመረጃ ማጽዳት እና ማጭበርበር ጥቅም ላይ ይውላል። በፓይዘን ውስጥ የመፃፍ ችሎታ በሚፈልግ ኩባንያ ውስጥ ሥራ ለማግኘት እየፈለጉ ከሆነ (ብዙው ነው) ፣ የፓንዳዎች እውቀት በነባሪነት እንደሚወሰድ እርግጠኛ መሆን ይችላሉ። በአሁኑ ጊዜ ከፓንዳዎች ጋር ለመስራት የመግቢያ አጋዥ ስልጠና እየጨረስኩ ነው - ትችላለህ
ማስተር AWS. የውሂብ መሐንዲስ ለመሆን ከፈለጉ በጓሮዎ ውስጥ ያለ የደመና መድረክ ማድረግ አይችሉም ፣ እና AWS በጣም ታዋቂው ነው። ኮርሶቹ በጣም ረድተውኛል.
ይህን ሙሉ ዝርዝር አስቀድመው በደንብ ከተቆጣጠሩት እና እንደ ዳታ መሐንዲስ በአሠሪዎች ዓይን የበለጠ ማደግ ከፈለጉ፣ ከትልቅ ውሂብ ጋር ለመስራት Apache Spark ን ማከልን እጠቁማለሁ። በዳታ ሳይንስ ክፍት የስራ ቦታዎች ላይ ያደረግኩት ጥናት የፍላጎት ማሽቆልቆሉን ቢያሳይም፣ ለዳታ መሐንዲሶች አሁንም በእያንዳንዱ ሴኮንድ ክፍት ቦታ ላይ ብልጭ ድርግም ይላል።
በመጨረሻ
ይህ የመረጃ መሐንዲሶች በጣም የሚፈለጉ ቴክኖሎጂዎች አጠቃላይ እይታ ጠቃሚ ሆኖ እንዳገኙት ተስፋ አደርጋለሁ። በተንታኝ ክፍት ቦታዎች ላይ ምን እየሆነ እንዳለ እያሰቡ ከሆነ ያንብቡ
ምንጭ: hab.com