ప్రకారం
నేను జనవరి 2020లో ఉన్నందున డేటా ఇంజనీర్ పదవికి సంబంధించిన ఖాళీలను విశ్లేషించాను, ఏ సాంకేతిక నైపుణ్యాలు అత్యంత ప్రాచుర్యం పొందాయో అర్థం చేసుకోవడానికి. అప్పుడు నేను డేటా సైంటిస్ట్ స్థానం కోసం ఖాళీల గణాంకాలతో ఫలితాలను పోల్చాను - మరియు కొన్ని ఆసక్తికరమైన తేడాలు ఉద్భవించాయి.
చాలా ఉపోద్ఘాతం లేకుండా, ఉద్యోగ పోస్టింగ్లలో ఎక్కువగా ప్రస్తావించబడే టాప్ టెన్ టెక్నాలజీలు ఇక్కడ ఉన్నాయి:
2020లో డేటా ఇంజనీర్ స్థానానికి సంబంధించిన ఖాళీలలో సాంకేతికతల ప్రస్తావన
డేటా ఇంజనీర్ యొక్క బాధ్యతలు
ఈ రోజు, డేటా ఇంజనీర్లు చేసే పని సంస్థలకు చాలా ముఖ్యమైనది - సమాచారాన్ని నిల్వ చేయడానికి మరియు ఇతర ఉద్యోగులు దానితో పని చేయగల అటువంటి రూపంలోకి తీసుకురావడానికి బాధ్యత వహించే వ్యక్తులు. డేటా ఇంజనీర్లు బహుళ మూలాల నుండి డేటాను ప్రసారం చేయడానికి లేదా బ్యాచ్ చేయడానికి పైప్లైన్లను నిర్మిస్తారు. పైప్లైన్లు అప్పుడు వెలికితీత, పరివర్తన మరియు లోడింగ్ కార్యకలాపాలను నిర్వహిస్తాయి (ఇతర మాటలలో, ETL ప్రక్రియలు), తదుపరి ఉపయోగం కోసం డేటాను మరింత అనుకూలంగా చేస్తుంది. దీని తరువాత, లోతైన ప్రాసెసింగ్ కోసం డేటా విశ్లేషకులు మరియు డేటా శాస్త్రవేత్తలకు సమర్పించబడుతుంది. చివరగా, డాష్బోర్డ్లు, నివేదికలు మరియు మెషిన్ లెర్నింగ్ మోడల్లలో డేటా తన ప్రయాణాన్ని ముగించింది.
ప్రస్తుతానికి డేటా ఇంజనీర్ పనిలో ఏ సాంకేతికతలకు ఎక్కువ డిమాండ్ ఉంది అనే దాని గురించి నిర్ధారణ చేయడానికి నన్ను అనుమతించే సమాచారం కోసం నేను వెతుకుతున్నాను.
పద్ధతులు
నేను మూడు ఉద్యోగ శోధన సైట్ల నుండి సమాచారాన్ని సేకరించాను -
ప్రతి కీవర్డ్ కోసం, నేను ప్రతి సైట్లోని మొత్తం టెక్స్ట్ల నుండి హిట్ల శాతాన్ని విడిగా లెక్కించాను, ఆపై మూడు మూలాధారాల సగటును లెక్కించాను.
Результаты
మూడు జాబ్ సైట్లలో అత్యధిక స్కోర్లతో ముప్పై సాంకేతిక డేటా ఇంజనీరింగ్ నిబంధనలు క్రింద ఉన్నాయి.
మరియు ఇక్కడ అదే సంఖ్యలు ఉన్నాయి, కానీ పట్టిక రూపంలో అందించబడ్డాయి:
క్రమంలో వెళ్దాం.
ఫలితాల సమీక్ష
SQL మరియు పైథాన్ రెండూ సమీక్షించబడిన ఉద్యోగ అవకాశాలలో మూడింట రెండు వంతుల కంటే ఎక్కువ కనిపిస్తాయి. ఈ రెండు సాంకేతికతలే మొదట అధ్యయనం చేయడం అర్ధవంతం.
స్పార్క్ దాదాపు సగం ఖాళీలలో ప్రస్తావించబడింది.
AWS దాదాపు 45% జాబ్ పోస్టింగ్లలో కనిపిస్తుంది. ఇది అమెజాన్ చేత తయారు చేయబడిన క్లౌడ్ కంప్యూటింగ్ ప్లాట్ఫారమ్; ఇది అన్ని క్లౌడ్ ప్లాట్ఫారమ్లలో అతిపెద్ద మార్కెట్ వాటాను కలిగి ఉంది.
తర్వాత జావా మరియు హడూప్ వస్తాయి - వారి సోదరుడికి 40% కంటే కొంచెం ఎక్కువ.
ఇది టైమ్ మెషీన్లో ప్రయాణించడం లాంటిది
అప్పుడు మేము హైవ్, స్కాలా, కాఫ్కా మరియు NoSQLలను చూస్తాము - ఈ సాంకేతికతల్లో ప్రతి ఒక్కటి సమర్పించిన ఖాళీలలో నాలుగింట ఒక వంతులో పేర్కొనబడింది. Apache Hive అనేది డేటా వేర్హౌస్ సాఫ్ట్వేర్, ఇది "SQLని ఉపయోగించి పంపిణీ చేయబడిన స్టోర్లలో నివసించే పెద్ద డేటాసెట్లను చదవడం, వ్రాయడం మరియు నిర్వహించడం సులభం చేస్తుంది."
డేటా సైంటిస్ట్ ఖాళీలలో నిబంధనలతో పోలిక
డేటా సైన్స్ యజమానులలో అత్యంత సాధారణమైన ముప్పై సాంకేతిక పదాలు ఇక్కడ ఉన్నాయి. నేను డేటా ఇంజనీరింగ్ కోసం పైన వివరించిన విధంగానే ఈ జాబితాను పొందాను.
2020లో డేటా సైంటిస్ట్ స్థానానికి సంబంధించిన ఖాళీలలో సాంకేతికత ప్రస్తావనలు
మేము మొత్తం సంఖ్య గురించి మాట్లాడినట్లయితే, గతంలో పరిగణించబడిన రిక్రూట్మెంట్తో పోలిస్తే, 28% ఎక్కువ ఖాళీలు ఉన్నాయి (12 వర్సెస్ 013). డేటా ఇంజనీర్ల కంటే డేటా సైంటిస్టుల ఖాళీలలో ఏ సాంకేతికతలు తక్కువగా ఉంటాయో చూద్దాం.
డేటా ఇంజనీరింగ్లో మరింత ప్రజాదరణ పొందింది
దిగువ గ్రాఫ్ 10% కంటే ఎక్కువ లేదా -10% కంటే తక్కువ సగటు తేడాతో కీలకపదాలను చూపుతుంది.
డేటా ఇంజనీర్ మరియు డేటా సైంటిస్ట్ మధ్య కీవర్డ్ ఫ్రీక్వెన్సీలో అతిపెద్ద తేడాలు
AWS అత్యంత ముఖ్యమైన పెరుగుదలను చూపుతుంది: డేటా ఇంజనీరింగ్లో ఇది డేటా సైన్స్ కంటే 25% ఎక్కువగా కనిపిస్తుంది (మొత్తం ఖాళీల సంఖ్యలో వరుసగా 45% మరియు 20%). తేడా గమనించదగినది!
ఇక్కడ కొద్దిగా భిన్నమైన ప్రెజెంటేషన్లో అదే డేటా ఉంది - గ్రాఫ్లో, డేటా ఇంజనీర్ మరియు డేటా సైంటిస్ట్ పోస్టుల ఖాళీలలో ఒకే కీవర్డ్కు సంబంధించిన ఫలితాలు పక్కపక్కనే ఉన్నాయి.
డేటా ఇంజనీర్ మరియు డేటా సైంటిస్ట్ మధ్య కీవర్డ్ ఫ్రీక్వెన్సీలో అతిపెద్ద తేడాలు
నేను గుర్తించిన తదుపరి అతిపెద్ద జంప్ స్పార్క్లో ఉంది - డేటా ఇంజనీర్ తరచుగా పెద్ద డేటాతో పని చేయాల్సి ఉంటుంది.
డేటా ఇంజనీరింగ్లో తక్కువ ప్రజాదరణ పొందింది
డేటా ఇంజనీర్ ఖాళీలలో ఏ టెక్నాలజీలు తక్కువ ప్రజాదరణ పొందాయో ఇప్పుడు చూద్దాం.
డేటా సైన్స్ సెక్టార్తో పోలిస్తే తీవ్ర క్షీణత సంభవించింది
డేటా ఇంజనీరింగ్ మరియు డేటా సైన్స్ రెండింటిలోనూ డిమాండ్ ఉంది
రెండు సెట్లలో మొదటి పది స్థానాల్లో ఎనిమిది ఒకే విధంగా ఉండటం గమనించాలి. SQL, Python, Spark, AWS, Java, Hadoop, Hive మరియు Scala డేటా ఇంజనీరింగ్ మరియు డేటా సైన్స్ పరిశ్రమలు రెండింటికీ మొదటి పది స్థానాల్లోకి వచ్చాయి. దిగువ గ్రాఫ్లో మీరు డేటా ఇంజనీర్ యజమానులలో అత్యంత ప్రాచుర్యం పొందిన పదిహేను సాంకేతికతలను చూడవచ్చు మరియు వాటి ప్రక్కన డేటా శాస్త్రవేత్తల కోసం వారి ఖాళీ రేటు ఉంది.
సిఫార్సులు
మీరు డేటా ఇంజనీరింగ్లోకి ప్రవేశించాలనుకుంటే, కింది సాంకేతికతలను ప్రావీణ్యం చేసుకోవాలని నేను మీకు సలహా ఇస్తాను - నేను వాటిని సుమారు ప్రాధాన్యత క్రమంలో జాబితా చేస్తాను.
SQL నేర్చుకోండి. నేను PostgreSQL వైపు మొగ్గు చూపుతున్నాను ఎందుకంటే ఇది ఓపెన్ సోర్స్, కమ్యూనిటీలో బాగా ప్రాచుర్యం పొందింది మరియు వృద్ధి దశలో ఉంది. మీరు నా మెమోరబుల్ SQL పుస్తకం నుండి భాషను ఎలా ఉపయోగించాలో తెలుసుకోవచ్చు - దాని పైలట్ వెర్షన్ అందుబాటులో ఉంది
మాస్టర్ పైథాన్, చాలా హార్డ్కోర్ స్థాయిలో లేకపోయినా. నా మెమోరబుల్ పైథాన్ ప్రారంభకులకు ప్రత్యేకంగా రూపొందించబడింది. వద్ద కొనుగోలు చేయవచ్చు
మీరు పైథాన్ గురించి తెలుసుకున్న తర్వాత, డేటా క్లీనింగ్ మరియు ప్రాసెసింగ్ కోసం ఉపయోగించే పైథాన్ లైబ్రరీ అయిన పాండాస్కి వెళ్లండి. మీరు పైథాన్లో వ్రాయగల సామర్థ్యం అవసరమయ్యే కంపెనీలో పని చేయాలని లక్ష్యంగా పెట్టుకున్నట్లయితే (మరియు ఇది వాటిలో ఎక్కువ భాగం), పాండాల పరిజ్ఞానం డిఫాల్ట్గా ఊహించబడుతుందని మీరు అనుకోవచ్చు. నేను ప్రస్తుతం పాండాలతో పని చేయడానికి పరిచయ గైడ్ని పూర్తి చేస్తున్నాను - మీరు చేయగలరు
మాస్టర్ AWS. మీరు డేటా ఇంజనీర్ కావాలనుకుంటే, మీరు స్టాష్లో క్లౌడ్ ప్లాట్ఫారమ్ లేకుండా చేయలేరు మరియు వాటిలో AWS అత్యంత ప్రజాదరణ పొందింది. కోర్సులు నాకు చాలా సహాయపడ్డాయి
మీరు ఇప్పటికే ఈ మొత్తం జాబితాను పూర్తి చేసి, డేటా ఇంజనీర్గా యజమానుల దృష్టిలో మరింతగా ఎదగాలని కోరుకుంటే, పెద్ద డేటాతో పని చేయడానికి Apache Sparkని జోడించమని నేను సూచిస్తున్నాను. డేటా సైంటిస్ట్ ఖాళీలపై నా పరిశోధన ఆసక్తి క్షీణించినప్పటికీ, డేటా ఇంజనీర్లలో ఇది దాదాపు ప్రతి రెండవ ఖాళీలో కనిపిస్తుంది.
చివరికి
డేటా ఇంజనీర్ల కోసం అత్యంత డిమాండ్ ఉన్న టెక్నాలజీల యొక్క ఈ అవలోకనం మీకు ఉపయోగకరంగా ఉందని నేను ఆశిస్తున్నాను. విశ్లేషకుల ఉద్యోగాలు ఎలా ఉన్నాయో మీరు ఆలోచిస్తున్నట్లయితే, చదవండి
మూలం: www.habr.com