በመረጃ መሐንዲስ ሙያ ውስጥ በጣም ተፈላጊ ችሎታዎች

እንደ ስታቲስቲክስ 2019፣ የመረጃ መሐንዲስ በአሁኑ ጊዜ ሙያው ነው ፣ ፍላጎቱ ከሌሎቹ ሁሉ በበለጠ ፍጥነት እያደገ ነው። የውሂብ መሐንዲስ በድርጅት ውስጥ ወሳኝ ሚና ይጫወታል - ውሂብን ለማቀነባበር ፣ ለመለወጥ እና ለማከማቸት የሚያገለግሉ የቧንቧ መስመሮችን እና የውሂብ ጎታዎችን ይፈጥራል እና ይጠብቃል። የዚህ ሙያ ተወካዮች በመጀመሪያ ደረጃ ምን ዓይነት ሙያዎች ያስፈልጋቸዋል? ዝርዝሩ የውሂብ ሳይንቲስቶች ከሚፈለገው የተለየ ነው? ስለ እነዚህ ሁሉ ከጽሑፌ ይማራሉ.

በቴክኖሎጂ መስክ ውስጥ ምን አይነት ችሎታዎች በጣም ተወዳጅ እንደሆኑ ለመረዳት በጥር 2020 ውስጥ እንዳሉ ስራዎችን ለዳታ መሐንዲስ ቦታ ተንትቻለሁ። ከዚያም እኔ ውሂብ ሳይንቲስት ቦታ ክፍት የሥራ ቦታዎች ስታቲስቲክስ ጋር ውጤቶችን አወዳድር - አንዳንድ ሳቢ ልዩነቶች በመግለጥ ሳለ.

ረጅም መግቢያዎች ከሌሉ፣ በስራ መለጠፍ ላይ በብዛት የሚጠቀሱት አስር ምርጥ ቴክኖሎጂዎች እዚህ አሉ።

በመረጃ መሐንዲስ ሙያ ውስጥ በጣም ተፈላጊ ችሎታዎች

በ 2020 ውስጥ በመረጃ መሐንዲስ ስራዎች ውስጥ የቴክኖሎጂ ማጣቀሻዎች

እስቲ እንመልከት ፡፡

የውሂብ መሐንዲስ ኃላፊነቶች

ዛሬ, የመረጃ መሐንዲሶች የሚሰሩት ስራ ለድርጅቶች ትልቅ ጠቀሜታ አለው - መረጃን የማከማቸት እና ሌሎች ሰራተኞች ሊሰሩበት በሚችል ቅፅ ውስጥ የማስቀመጥ ሃላፊነት ያለባቸው እነዚህ ሰዎች ናቸው. የውሂብ መሐንዲሶች ውሂብን፣ ዥረት ወይም ባች ከበርካታ ምንጮች ለማግኘት የቧንቧ መስመሮችን ይሠራሉ። በመቀጠልም የቧንቧ መስመሮች የማውጣት, የመለወጥ እና የመጫን ስራዎችን ያከናውናሉ (በሌላ አነጋገር, የኢቲኤል ሂደቶች), መረጃው ለቀጣይ አጠቃቀም የበለጠ ተስማሚ ያደርገዋል. ከዚያ በኋላ ውሂቡ ወደ ተንታኞች እና የውሂብ ሳይንቲስቶች ጥልቅ ሂደት ቀርቧል። በመጨረሻም መረጃው ጉዞውን በዳሽቦርዶች፣ በሪፖርቶች እና በማሽን መማሪያ ሞዴሎች ያበቃል።

በአሁኑ ጊዜ በመረጃ መሐንዲስ ሥራ ውስጥ የትኞቹ ቴክኖሎጂዎች በጣም እንደሚፈለጉ ለመደምደም የሚያስችለኝን መረጃ ፈልጌ ነበር።

ዘዴዎች

ከሶስት የስራ ፍለጋ ጣቢያዎች መረጃ ሰበሰብኩ - በቀላሉ የተሰሩ, በእርግጥም и ታላቅ አስፈሪ ፍጡር እና ለአሜሪካ ነዋሪዎች በተዘጋጁ ክፍት የስራ ቦታዎች ጽሑፎች ውስጥ ከ"የውሂብ መሐንዲስ" ጋር በጥምረት ምን ቁልፍ ቃላት እንዳጋጠሙ ተመልክቷል። ለዚህ ተግባር ሁለት የፓይዘን ቤተ-መጻሕፍት ተጠቀምኩ - ጥያቄዎች и ቆንጆ ሾርባ. ከቁልፍ ቃላቶቹ መካከል፣ ለዳታ ሳይንቲስት ቦታ ክፍት የስራ መደቦችን ለመተንተን በቀደመው ዝርዝር ውስጥ የተካተቱትን እና ለዳታ ኢንጂነሮች የሚቀርቡ ስራዎችን በማንበብ በእጅ የመረጥኳቸውን ሁለቱንም አካትቻለሁ። መረጃን ለመሰብሰብ ከመጨረሻው ሙከራ በኋላ እዚያ ስለታገድኩ LinkedIn ከምንጮች ብዛት ውስጥ አልተካተተም።

ለእያንዳንዱ ቁልፍ ቃል የ hitsን መቶኛ በእያንዳንዱ ጣቢያ ላይ ካሉት አጠቃላይ የጽሁፎች ብዛት ለየብቻ አስላለሁ እና ከዚያ ለሶስት ምንጮች አማካይ ዋጋ አስላለሁ።

ውጤቶች

ከዚህ በታች በሦስቱም የሥራ ቦታዎች ላይ ከፍተኛ አፈጻጸም ካላቸው የውሂብ ምህንድስና ቃላቶች መካከል ከፍተኛዎቹ XNUMX የመረጃ ምህንድስና ቃላቶች አሉ።

በመረጃ መሐንዲስ ሙያ ውስጥ በጣም ተፈላጊ ችሎታዎች

እና እዚህ ተመሳሳይ ቁጥሮች አሉ ፣ ግን በጠረጴዛ መልክ የተደረደሩ ናቸው-

በመረጃ መሐንዲስ ሙያ ውስጥ በጣም ተፈላጊ ችሎታዎች

በቅደም ተከተል እንሂድ.

የውጤቶች ግምገማ

ሁለቱም SQL እና Python ከተገመገሙት ስራዎች ውስጥ ከሁለት ሶስተኛ በላይ ናቸው። በመጀመሪያ ደረጃ ለማጥናት ምክንያታዊ የሆኑት እነዚህ ሁለት ቴክኖሎጂዎች ናቸው. ዘንዶ ከውሂብ ጋር ለመስራት፣ ድረ-ገጾችን ለመፍጠር እና ስክሪፕቶችን ለመጻፍ የሚያገለግል በጣም ታዋቂ የፕሮግራሚንግ ቋንቋ ነው። SQL የተዋቀረ የጥያቄ ቋንቋ (የተዋቀረ የጥያቄ ቋንቋ) ማለት ነው; በቋንቋዎች ቡድን የተተገበረውን ደረጃ ይይዛል እና ከተዛማጅ የውሂብ ጎታዎች ውሂብን ለማግኘት ይጠቅማል። ከረጅም ጊዜ በፊት ታየ እና ከፍተኛ የመቋቋም ችሎታ እንዳለው ተረጋግጧል.

ስፓርክ በግማሽ ያህል ክፍት የስራ መደቦች ውስጥ ተጠቅሷል። የ Apache Spark "የተዋሃደ ትልቅ የዳታ ትንታኔ ሞተር ለዥረት፣ SQL፣ የማሽን መማሪያ እና የግራፍ ማቀነባበሪያ አብሮገነብ" ነው። በተለይም ከትልቅ የውሂብ ጎታዎች ጋር በሚሰሩ ሰዎች ዘንድ ታዋቂ ነው.

AWS 45% ከሚሆኑት የስራ ማስታወቂያዎች ውስጥ ነው። በአማዞን የተሰራ የደመና ማስላት መድረክ ነው; ከሁሉም የደመና መድረኮች ትልቁ የገበያ ድርሻ አለው።
ቀጥሎ ጃቫ እና ሃዱፕ ይመጣሉ - በወንድም ከ 40% ትንሽ። ጃቫ በሰፊው የሚነገር፣ በጦርነት የተፈተነ ቋንቋ ነው። የ2019 ቁልል የትርፍ ፍሰት ገንቢ ዳሰሳ በፕሮግራም አውጪዎች ላይ አስፈሪ ከሚፈጥሩ ቋንቋዎች መካከል አሥረኛው ቦታ ተሸልሟል። በአንጻሩ ፒቲን ሁለተኛው በጣም ታዋቂ ቋንቋ ነበር። ጃቫ በOracle ነው የሚሰራው፣ እና ስለእሱ ማወቅ ያለብዎት ነገር ሁሉ ከጃንዋሪ 2020 ጀምሮ ካለው ኦፊሴላዊ ገጽ ቅጽበታዊ ገጽ እይታ መረዳት ይቻላል።

በመረጃ መሐንዲስ ሙያ ውስጥ በጣም ተፈላጊ ችሎታዎች

የጊዜ ማሽን እንደ መንዳት ነው።
Apache Hadoop ለትልቅ መረጃ የMapReduce ፕሮግራሚንግ ሞዴልን ከአገልጋይ ስብስቦች ጋር ይጠቀማል። አሁን ይህ ሞዴል ከጊዜ ወደ ጊዜ እየተተወ ነው.

ከዚያም Hive, Scala, Kafka እና NoSQL እናያለን - እያንዳንዳቸው እነዚህ ቴክኖሎጂዎች ከቀረቡት ክፍት ቦታዎች ሩብ ውስጥ ተጠቅሰዋል. Apache Hive "በ SQL በመጠቀም በተከፋፈሉ መደብሮች ውስጥ የሚገኙ ትላልቅ የውሂብ ስብስቦችን ለማንበብ፣ ለመፃፍ እና ለማስተዳደር ቀላል የሚያደርግ የመረጃ ማከማቻ ፕሮግራም ነው።" ስካላ ከትልቅ ዳታ ጋር ሲሰራ በንቃት ጥቅም ላይ የሚውል የፕሮግራሚንግ ቋንቋ ነው። በተለይም ስፓርክ በ Scala ላይ ተፈጥሯል. ቀደም ሲል በተጠቀሰው አስፈሪ ቋንቋዎች ደረጃ፣ ስካላ አስራ አንድ ደረጃ ላይ ተቀምጣለች። Apache Kafka መልእክቶችን ለማስኬድ የተከፋፈለ መድረክ ነው። እንደ የመረጃ ማሰራጫ ዘዴ በጣም ታዋቂ።

NoSQL የውሂብ ጎታዎች ራሳቸውን ወደ SQL ይቃወማሉ. እነሱ ተያያዥነት የሌላቸው, ያልተዋቀሩ እና በአግድም የሚለኩ በመሆናቸው ይለያያሉ. NoSQL የተወሰነ ተወዳጅነት አግኝቷል, ነገር ግን ለዚህ አቀራረብ ብስጭት, SQL ን እንደ ዋናው የማከማቻ ሁኔታ ይተካዋል ብሎ እስከመተንበይ ድረስ, ያለፈ ይመስላል.

ከውሂብ ሳይንቲስት ክፍት የስራ ቃላቶች ጋር ማወዳደር

በዳታ ሳይንስ አሰሪዎች በብዛት የሚጠቀሙባቸው ሰላሳ የቴክኖሎጂ ቃላት እዚህ አሉ። ይህንን ዝርዝር ያገኘሁት ከላይ ለዳታ ኢንጂነሪንግ በገለጽኩት መንገድ ነው።

በመረጃ መሐንዲስ ሙያ ውስጥ በጣም ተፈላጊ ችሎታዎች

ቴክኖሎጂ በ2020 ለዳታ ሳይንቲስት ቦታ ክፍት የስራ መደቦችን ጠቅሷል

ስለ አጠቃላይ ቁጥሩ ከተነጋገርን, ቀደም ሲል ከታሰበው ስብስብ ጋር ሲነጻጸር, 28% ተጨማሪ ክፍት ቦታዎች ነበሩ (12 ከ 013 ጋር). ለዳታ ሳይንቲስቶች ከዳታ ኢንጂነሮች ይልቅ የትኞቹ ቴክኖሎጂዎች ብዙም ያልተለመዱ እንደሆኑ እንይ።

በመረጃ ምህንድስና ውስጥ የበለጠ ታዋቂ

ከታች ያለው ገበታ ከ10% በላይ ወይም ከ -10% ያነሰ አማካይ የእሴት ልዩነት ያላቸውን ቁልፍ ቃላት ያሳያል።

በመረጃ መሐንዲስ ሙያ ውስጥ በጣም ተፈላጊ ችሎታዎች

በመረጃ መሐንዲስ እና በመረጃ ሳይንቲስት መካከል በቁልፍ ቃል ድግግሞሽ ውስጥ ትልቁ ልዩነቶች

AWS በጣም ጉልህ የሆነ ጭማሪ ያሳያል፡ በዳታ ኢንጂነሪንግ ከዳታ ሳይንስ ይልቅ 25% በመደበኛነት ይታያል (በቅደም ተከተል 45% እና 20% ከጠቅላላው የስራ መደቦች ብዛት)። ልዩነቱ ግልጽ ነው!

እዚህ ትንሽ ለየት ያለ እይታ ውስጥ ተመሳሳይ ውሂብ ነው - በግራፍ ውስጥ, የውሂብ መሐንዲስ እና የውሂብ ሳይንቲስት ቦታ ክፍት የሥራ ተመሳሳይ ቁልፍ ቃል ውጤቶች ጎን ለጎን ይገኛሉ.

በመረጃ መሐንዲስ ሙያ ውስጥ በጣም ተፈላጊ ችሎታዎች

በመረጃ መሐንዲስ እና በመረጃ ሳይንቲስት መካከል በቁልፍ ቃል ድግግሞሽ ውስጥ ትልቁ ልዩነቶች

የሚቀጥለው ትልቁ ዝላይ ከስፓርክ ጋር ነበር - የዳታ ኢንጂነር ብዙ ጊዜ በትልቁ ዳታ መስራት አለበት። ካፋካ በተጨማሪም በ 20% ማለትም በመረጃ ሳይንቲስቶች ክፍት የስራ ቦታዎች ላይ ከተገኘው ውጤት ጋር ሲነፃፀር አራት ጊዜ ያህል አድጓል። የመረጃ ልውውጥ የአንድ ዳታ መሐንዲስ ቁልፍ ኃላፊነቶች አንዱ ነው። በመጨረሻም የተጠቀሰው ቁጥር በጃቫ፣ ኖSQL፣ Redshift፣ SQL እና Hadoop በመረጃ ምህንድስና በ15% ከፍ ያለ ነበር።

በመረጃ ምህንድስና ውስጥ ብዙም ታዋቂነት ያለው

አሁን የትኞቹ ቴክኖሎጂዎች በመረጃ መሐንዲስ ስራዎች ውስጥ ብዙ ታዋቂ እንዳልሆኑ እንይ።
ከመረጃ ሳይንስ መስክ ጋር ሲነፃፀር በጣም ከፍተኛው ውድቀት የተከሰተው እ.ኤ.አ R: እዚያ በግምት 56% ክፍት የሥራ ቦታዎች ታየ ፣ እዚህ - በ 17% ውስጥ ብቻ። አስደናቂ። R በሳይንቲስቶች እና በስታቲስቲክስ ባለሙያዎች ዘንድ ተወዳጅ የሆነ የፕሮግራም ቋንቋ ነው, እንዲሁም በአስፈሪ ቋንቋዎች ደረጃ ስምንተኛ ደረጃ ላይ ይገኛል.

SAS እንዲሁም ለዳታ መሐንዲስ ቦታ ክፍት በሆኑ ቦታዎች ላይ በጣም ብዙ ጊዜ ተገኝቷል - ልዩነቱ 14% ነው። SAS ከስታቲስቲክስ እና ከመረጃ ጋር ለመስራት የተነደፈ የባለቤትነት ቋንቋ ነው። አንድ አስደሳች ነጥብ: በውጤቶቹ መመዘን ለዳታ ሳይንቲስቶች የእኔ ሥራ ምርምር፣ ከቅርብ ጊዜ ወዲህ መሬት አጥቷል - ከማንኛውም ቴክኖሎጂ የበለጠ።

በሁለቱም በዳታ ኢንጂነሪንግ እና በዳታ ሳይንስ ውስጥ ተፈላጊ

በሁለቱም ስብስቦች ውስጥ ከመጀመሪያዎቹ አስር ቦታዎች ውስጥ ስምንቱ ተመሳሳይ መሆናቸውን ልብ ሊባል ይገባል. SQL፣ Python፣ Spark፣ AWS፣ Java፣ Hadoop፣ Hive፣ እና Scala ለዳታ ኢንጂነሪንግ እና ዳታ ሳይንስ ምርጥ አስር ሆነዋል። ከታች ባለው ግራፍ ላይ ለዳታ ኢንጂነሮች አሰሪዎች አስራ አምስት በጣም ተወዳጅ ቴክኖሎጂዎችን ማየት ይችላሉ, እና ከእነሱ ቀጥሎ ለዳታ ሳይንቲስቶች የስራ ልኬት አላቸው.

በመረጃ መሐንዲስ ሙያ ውስጥ በጣም ተፈላጊ ችሎታዎች

ምክሮች

ዳታ ኢንጂነሪንግ ለመስራት ከፈለጉ የሚከተሉትን ቴክኖሎጂዎች በደንብ እንዲያውቁ እመክርዎታለሁ - በቅደም ተከተል በቅደም ተከተል እዘረዝራለሁ ።

SQL ይማሩ። ወደ PostgreSQL እያዘንኩ ነው ምክንያቱም ክፍት ምንጭ፣ በማህበረሰብ ውስጥ በጣም ታዋቂ እና በእድገት ደረጃ ላይ ነው። ቋንቋውን እንዴት መጠቀም እንደሚቻል My Memorable SQL በሚለው መጽሃፍ ውስጥ ይገኛል - የእሱ አብራሪ ስሪት አለ እዚህ.

ማስተር ፓይዘን፣ ምንም እንኳን በጣም ሃርድኮር ደረጃ ባይሆንም። My Memorable Python የተባለው መጽሐፍ የተነደፈው ለጀማሪዎች ብቻ ነው። ላይ ሊገዛ ይችላል። አማዞን፣ የመረጡት የኤሌክትሮኒክ ቅጂ ወይም አካላዊ ቅጂ ፣ ወይም በ pdf ወይም epub ቅርጸት ያውርዱ በዚህ ጣቢያ ላይ.

አንዴ ፓይዘንን በደንብ ካወቁ በኋላ ወደ ፓንዳስ ይሂዱ፣ የፓይዘን ቤተ-መጽሐፍት ለመረጃ ማጽዳት እና ማጭበርበር ጥቅም ላይ ይውላል። በፓይዘን ውስጥ የመፃፍ ችሎታ በሚፈልግ ኩባንያ ውስጥ ሥራ ለማግኘት እየፈለጉ ከሆነ (ብዙው ነው) ፣ የፓንዳዎች እውቀት በነባሪነት እንደሚወሰድ እርግጠኛ መሆን ይችላሉ። በአሁኑ ጊዜ ከፓንዳዎች ጋር ለመስራት የመግቢያ አጋዥ ስልጠና እየጨረስኩ ነው - ትችላለህ ይመዝገቡየመውጫውን ጊዜ እንዳያመልጥዎት።

ማስተር AWS. የውሂብ መሐንዲስ ለመሆን ከፈለጉ በጓሮዎ ውስጥ ያለ የደመና መድረክ ማድረግ አይችሉም ፣ እና AWS በጣም ታዋቂው ነው። ኮርሶቹ በጣም ረድተውኛል. ሊኑክስ አካዳሚበምማርበት ጊዜ በ Google ክላውድ ላይ የውሂብ ምህንድስና፣ በAWS ላይ ጥሩ ቁሳቁሶችም እንዳላቸው አስባለሁ።

ይህን ሙሉ ዝርዝር አስቀድመው በደንብ ከተቆጣጠሩት እና እንደ ዳታ መሐንዲስ በአሠሪዎች ዓይን የበለጠ ማደግ ከፈለጉ፣ ከትልቅ ውሂብ ጋር ለመስራት Apache Spark ን ማከልን እጠቁማለሁ። በዳታ ሳይንስ ክፍት የስራ ቦታዎች ላይ ያደረግኩት ጥናት የፍላጎት ማሽቆልቆሉን ቢያሳይም፣ ለዳታ መሐንዲሶች አሁንም በእያንዳንዱ ሴኮንድ ክፍት ቦታ ላይ ብልጭ ድርግም ይላል።

በመጨረሻ

ይህ የመረጃ መሐንዲሶች በጣም የሚፈለጉ ቴክኖሎጂዎች አጠቃላይ እይታ ጠቃሚ ሆኖ እንዳገኙት ተስፋ አደርጋለሁ። በተንታኝ ክፍት ቦታዎች ላይ ምን እየሆነ እንዳለ እያሰቡ ከሆነ ያንብቡ የእኔ ሌላ መጣጥፍ. የተሳካ ምህንድስና!

ምንጭ: hab.com

አስተያየት ያክሉ