Согласно
Ich habe die offenen Stellen für die Position des Dateningenieurs im Januar 2020 analysiert, um zu verstehen, welche Technologiekompetenzen am beliebtesten sind. Dann habe ich die Ergebnisse mit Statistiken zu offenen Stellen für die Stelle als Data Scientist verglichen – und es kamen einige interessante Unterschiede zum Vorschein.
Hier sind ohne große Einleitung die Top-Ten-Technologien, die in Stellenausschreibungen am häufigsten erwähnt werden:
Erwähnung von Technologien in offenen Stellen für die Position des Dateningenieurs im Jahr 2020
Aufgaben eines Dateningenieurs
Heutzutage ist die Arbeit von Dateningenieuren für Unternehmen von großer Bedeutung – sie sind dafür verantwortlich, Informationen zu speichern und in eine Form zu bringen, damit andere Mitarbeiter damit arbeiten können. Dateningenieure erstellen Pipelines, um Daten aus mehreren Quellen zu streamen oder zu stapeln. Pipelines führen dann Extraktions-, Transformations- und Ladevorgänge (mit anderen Worten ETL-Prozesse) durch, wodurch die Daten für die weitere Verwendung besser geeignet werden. Anschließend werden die Daten zur tiefergehenden Verarbeitung an Analysten und Datenwissenschaftler übermittelt. Schließlich beenden die Daten ihre Reise in Dashboards, Berichten und Modellen für maschinelles Lernen.
Ich war auf der Suche nach Informationen, die mir einen Rückschluss darüber ermöglichen, welche Technologien in der Arbeit eines Dateningenieurs derzeit am meisten nachgefragt sind.
Methoden
Ich habe Informationen von drei Stellensuchseiten gesammelt −
Für jedes Keyword habe ich den Prozentsatz der Treffer aus der Gesamtzahl der Texte auf jeder Website separat berechnet und dann den Durchschnitt für die drei Quellen berechnet.
Ergebnisse
Nachfolgend finden Sie die dreißig technischen Datentechnikbegriffe mit den höchsten Bewertungen auf allen drei Jobbörsen.
Und hier sind die gleichen Zahlen, aber in Tabellenform dargestellt:
Gehen wir in Ordnung.
Ergebnisübersicht
Sowohl SQL als auch Python kommen in mehr als zwei Dritteln der überprüften Stellenangebote vor. Es ist sinnvoll, diese beiden Technologien zuerst zu studieren.
Spark wird in etwa der Hälfte der offenen Stellen erwähnt.
AWS erscheint in etwa 45 % der Stellenausschreibungen. Es handelt sich um eine von Amazon hergestellte Cloud-Computing-Plattform. Es hat den größten Marktanteil unter allen Cloud-Plattformen.
Als nächstes kommen Java und Hadoop – etwas mehr als 40 % für ihren Bruder.
Es ist, als würde man in einer Zeitmaschine fahren
Dann sehen wir Hive, Scala, Kafka und NoSQL – jede dieser Technologien wird in einem Viertel der eingereichten Stellenangebote erwähnt. Apache Hive ist eine Data-Warehouse-Software, die „das Lesen, Schreiben und Verwalten großer Datensätze in verteilten Speichern mithilfe von SQL vereinfacht“.
Vergleich mit Begriffen in Stellenangeboten für Datenwissenschaftler
Hier sind dreißig Technologiebegriffe, die bei Arbeitgebern im Bereich Datenwissenschaft am häufigsten vorkommen. Ich habe diese Liste auf die gleiche Weise erhalten, wie oben für das Data Engineering beschrieben.
Erwähnungen von Technologie in offenen Stellen für die Position des Datenwissenschaftlers im Jahr 2020
Betrachtet man die Gesamtzahl, so gab es im Vergleich zur zuvor betrachteten Rekrutierung 28 % mehr offene Stellen (12 gegenüber 013). Schauen wir uns an, welche Technologien bei Stellenangeboten für Data Scientists weniger verbreitet sind als für Data Engineers.
Beliebter in der Datentechnik
Die folgende Grafik zeigt Keywords mit einer durchschnittlichen Differenz von mehr als 10 % oder weniger als -10 %.
Die größten Unterschiede in der Keyword-Häufigkeit zwischen Dateningenieur und Datenwissenschaftler
Den deutlichsten Anstieg verzeichnet AWS: Im Data Engineering erscheint es 25 % häufiger als im Data Science (ca. 45 % bzw. 20 % der Gesamtzahl der offenen Stellen). Der Unterschied ist spürbar!
Hier sind die gleichen Daten in einer etwas anderen Darstellung – in der Grafik sind die Ergebnisse für das gleiche Keyword in den Stellenangeboten für die Position Data Engineer und Data Scientist nebeneinander angeordnet.
Die größten Unterschiede in der Keyword-Häufigkeit zwischen Dateningenieur und Datenwissenschaftler
Der nächstgrößere Sprung, den ich bemerkte, war bei Spark – ein Dateningenieur muss oft mit großen Datenmengen arbeiten.
Weniger beliebt in der Datentechnik
Sehen wir uns nun an, welche Technologien bei Stellenangeboten als Dateningenieur weniger beliebt sind.
Der stärkste Rückgang im Vergleich zum Data-Science-Sektor erfolgte im Jahr
Gefragt sowohl im Data Engineering als auch in der Data Science
Es ist zu beachten, dass acht der ersten zehn Positionen in beiden Sätzen gleich sind. SQL, Python, Spark, AWS, Java, Hadoop, Hive und Scala haben es sowohl in der Data-Engineering- als auch in der Data-Science-Branche in die Top Ten geschafft. In der Grafik unten sehen Sie die fünfzehn beliebtesten Technologien bei Arbeitgebern im Bereich Dateningenieure und daneben die Quote der offenen Stellen für Datenwissenschaftler.
Empfehlungen
Wenn Sie in die Datentechnik einsteigen möchten, würde ich Ihnen raten, die folgenden Technologien zu beherrschen – ich liste sie in der Reihenfolge ihrer ungefähren Priorität auf.
Lernen Sie SQL. Ich bevorzuge PostgreSQL, weil es Open Source ist, in der Community sehr beliebt ist und sich in einer Wachstumsphase befindet. Den Umgang mit der Sprache erfahren Sie im Buch My Memorable SQL – die Pilotversion ist verfügbar
Beherrschen Sie Python, wenn auch nicht auf dem Hardcore-Niveau. My Memorable Python wurde speziell für Anfänger entwickelt. Es kann bei erworben werden
Sobald Sie mit Python vertraut sind, wechseln Sie zu Pandas, einer Python-Bibliothek, die zur Datenbereinigung und -verarbeitung verwendet wird. Wenn Sie beabsichtigen, in einem Unternehmen zu arbeiten, das Python-Schreibfähigkeiten erfordert (und das sind die meisten davon), können Sie sicher sein, dass Kenntnisse über Pandas standardmäßig vorausgesetzt werden. Ich arbeite gerade an einer Einführung in die Arbeit mit Pandas – das können Sie
Meistern Sie AWS. Wenn Sie Dateningenieur werden möchten, können Sie nicht auf eine Cloud-Plattform verzichten, und AWS ist die beliebteste davon. Die Kurse haben mir sehr geholfen
Wenn Sie diese gesamte Liste bereits abgeschlossen haben und in den Augen der Arbeitgeber als Dateningenieur weiter wachsen möchten, schlage ich vor, Apache Spark für die Arbeit mit Big Data hinzuzufügen. Obwohl meine Recherchen zu Stellenangeboten für Datenwissenschaftler einen Rückgang des Interesses zeigten, taucht es bei Dateningenieuren immer noch in fast jeder zweiten Stelle auf.
Endlich
Ich hoffe, Sie fanden diesen Überblick über die gefragtesten Technologien für Dateningenieure hilfreich. Wenn Sie sich fragen, wie sich die Jobs als Analyst entwickeln, lesen Sie hier
Source: habr.com