Die gefragtesten Fähigkeiten im Beruf des Dateningenieurs

Согласно Statistik 2019, Dateningenieur ist derzeit ein Beruf, dessen Nachfrage schneller wächst als jeder andere. Ein Dateningenieur spielt eine entscheidende Rolle in einer Organisation – er erstellt und pflegt Pipelines und Datenbanken, die zur Verarbeitung, Transformation und Speicherung von Daten verwendet werden. Welche Fähigkeiten benötigen Vertreter dieses Berufsstandes überhaupt? Unterscheidet sich die Liste von den Anforderungen an Datenwissenschaftler? All das erfahren Sie in meinem Artikel.

Ich habe die offenen Stellen für die Position des Dateningenieurs im Januar 2020 analysiert, um zu verstehen, welche Technologiekompetenzen am beliebtesten sind. Dann habe ich die Ergebnisse mit Statistiken zu offenen Stellen für die Stelle als Data Scientist verglichen – und es kamen einige interessante Unterschiede zum Vorschein.

Hier sind ohne große Einleitung die Top-Ten-Technologien, die in Stellenausschreibungen am häufigsten erwähnt werden:

Die gefragtesten Fähigkeiten im Beruf des Dateningenieurs

Erwähnung von Technologien in offenen Stellen für die Position des Dateningenieurs im Jahr 2020

Lass uns verstehen.

Aufgaben eines Dateningenieurs

Heutzutage ist die Arbeit von Dateningenieuren für Unternehmen von großer Bedeutung – sie sind dafür verantwortlich, Informationen zu speichern und in eine Form zu bringen, damit andere Mitarbeiter damit arbeiten können. Dateningenieure erstellen Pipelines, um Daten aus mehreren Quellen zu streamen oder zu stapeln. Pipelines führen dann Extraktions-, Transformations- und Ladevorgänge (mit anderen Worten ETL-Prozesse) durch, wodurch die Daten für die weitere Verwendung besser geeignet werden. Anschließend werden die Daten zur tiefergehenden Verarbeitung an Analysten und Datenwissenschaftler übermittelt. Schließlich beenden die Daten ihre Reise in Dashboards, Berichten und Modellen für maschinelles Lernen.

Ich war auf der Suche nach Informationen, die mir einen Rückschluss darüber ermöglichen, welche Technologien in der Arbeit eines Dateningenieurs derzeit am meisten nachgefragt sind.

Methoden

Ich habe Informationen von drei Stellensuchseiten gesammelt − SimplyHired, Tatsächlich и Monster und schaute, welche Schlüsselwörter im Zusammenhang mit „Data Engineer“ in den Texten von Stellenangeboten auftauchen, die sich an US-Bürger richten. Für diese Aufgabe habe ich zwei Python-Bibliotheken verwendet − Anfragen и Schöne Suppe. Zu den Schlüsselwörtern habe ich sowohl diejenigen hinzugefügt, die in der vorherigen Liste zur Analyse von Stellenangeboten für die Position des Datenwissenschaftlers enthalten waren, als auch diejenigen, die ich beim Lesen von Stellenangeboten für Dateningenieure manuell ausgewählt habe. LinkedIn wurde nicht in die Quellenliste aufgenommen, da ich dort nach meinem letzten Versuch der Datenerhebung gesperrt wurde.

Für jedes Keyword habe ich den Prozentsatz der Treffer aus der Gesamtzahl der Texte auf jeder Website separat berechnet und dann den Durchschnitt für die drei Quellen berechnet.

Ergebnisse

Nachfolgend finden Sie die dreißig technischen Datentechnikbegriffe mit den höchsten Bewertungen auf allen drei Jobbörsen.

Die gefragtesten Fähigkeiten im Beruf des Dateningenieurs

Und hier sind die gleichen Zahlen, aber in Tabellenform dargestellt:

Die gefragtesten Fähigkeiten im Beruf des Dateningenieurs

Gehen wir in Ordnung.

Ergebnisübersicht

Sowohl SQL als auch Python kommen in mehr als zwei Dritteln der überprüften Stellenangebote vor. Es ist sinnvoll, diese beiden Technologien zuerst zu studieren. Python ist eine sehr beliebte Programmiersprache, die zum Arbeiten mit Daten, zum Erstellen von Websites und zum Schreiben von Skripten verwendet wird. SQL steht für Structured Query Language; Dabei handelt es sich um einen von einer Gruppe von Sprachen implementierten Standard, der zum Abrufen von Daten aus relationalen Datenbanken verwendet wird. Es ist schon vor langer Zeit aufgetaucht und hat sich als äußerst widerstandsfähig erwiesen.

Spark wird in etwa der Hälfte der offenen Stellen erwähnt. Apache Funken ist eine „einheitliche Big-Data-Analyse-Engine mit integrierten Modulen für Streaming, SQL, maschinelles Lernen und Diagrammverarbeitung“. Es ist besonders beliebt bei denen, die mit großen Datenbanken arbeiten.

AWS erscheint in etwa 45 % der Stellenausschreibungen. Es handelt sich um eine von Amazon hergestellte Cloud-Computing-Plattform. Es hat den größten Marktanteil unter allen Cloud-Plattformen.
Als nächstes kommen Java und Hadoop – etwas mehr als 40 % für ihren Bruder. Javac ist eine weit verbreitete, kampferprobte Sprache Stack Overflow-Entwicklerumfrage 2019 wurde mit dem zehnten Platz unter den Sprachen ausgezeichnet, die bei Programmierern für Entsetzen sorgen. Im Gegensatz dazu war Python die zweitbeliebteste Sprache. Die Java-Sprache wird von Oracle betrieben und alles, was Sie darüber wissen müssen, können Sie diesem Screenshot der offiziellen Seite vom Januar 2020 entnehmen.

Die gefragtesten Fähigkeiten im Beruf des Dateningenieurs

Es ist, als würde man in einer Zeitmaschine fahren
Apache Hadoop nutzt das MapReduce-Programmiermodell mit Serverclustern für Big Data. Nun wird dieses Modell zunehmend aufgegeben.

Dann sehen wir Hive, Scala, Kafka und NoSQL – jede dieser Technologien wird in einem Viertel der eingereichten Stellenangebote erwähnt. Apache Hive ist eine Data-Warehouse-Software, die „das Lesen, Schreiben und Verwalten großer Datensätze in verteilten Speichern mithilfe von SQL vereinfacht“. Scala – eine Programmiersprache, die bei der Arbeit mit Big Data aktiv eingesetzt wird. Insbesondere wurde Spark in Scala erstellt. Im bereits erwähnten Ranking der gefürchteten Sprachen belegt Scala den elften Platz. Apache Kafka – eine verteilte Plattform zur Verarbeitung von Streaming-Nachrichten. Sehr beliebt als Mittel zum Streamen von Daten.

NoSQL-Datenbanken vergleichen Sie sich mit SQL. Sie unterscheiden sich dadurch, dass sie nicht relational, unstrukturiert und horizontal skalierbar sind. NoSQL erfreut sich einiger Beliebtheit, aber die Begeisterung für diesen Ansatz scheint vorbei zu sein, sogar bis hin zu Prophezeiungen, dass er SQL als vorherrschendes Speicherparadigma ablösen wird.

Vergleich mit Begriffen in Stellenangeboten für Datenwissenschaftler

Hier sind dreißig Technologiebegriffe, die bei Arbeitgebern im Bereich Datenwissenschaft am häufigsten vorkommen. Ich habe diese Liste auf die gleiche Weise erhalten, wie oben für das Data Engineering beschrieben.

Die gefragtesten Fähigkeiten im Beruf des Dateningenieurs

Erwähnungen von Technologie in offenen Stellen für die Position des Datenwissenschaftlers im Jahr 2020

Betrachtet man die Gesamtzahl, so gab es im Vergleich zur zuvor betrachteten Rekrutierung 28 % mehr offene Stellen (12 gegenüber 013). Schauen wir uns an, welche Technologien bei Stellenangeboten für Data Scientists weniger verbreitet sind als für Data Engineers.

Beliebter in der Datentechnik

Die folgende Grafik zeigt Keywords mit einer durchschnittlichen Differenz von mehr als 10 % oder weniger als -10 %.

Die gefragtesten Fähigkeiten im Beruf des Dateningenieurs

Die größten Unterschiede in der Keyword-Häufigkeit zwischen Dateningenieur und Datenwissenschaftler

Den deutlichsten Anstieg verzeichnet AWS: Im Data Engineering erscheint es 25 % häufiger als im Data Science (ca. 45 % bzw. 20 % der Gesamtzahl der offenen Stellen). Der Unterschied ist spürbar!

Hier sind die gleichen Daten in einer etwas anderen Darstellung – in der Grafik sind die Ergebnisse für das gleiche Keyword in den Stellenangeboten für die Position Data Engineer und Data Scientist nebeneinander angeordnet.

Die gefragtesten Fähigkeiten im Beruf des Dateningenieurs

Die größten Unterschiede in der Keyword-Häufigkeit zwischen Dateningenieur und Datenwissenschaftler

Der nächstgrößere Sprung, den ich bemerkte, war bei Spark – ein Dateningenieur muss oft mit großen Datenmengen arbeiten. Kafkaeske Zustände ebenfalls um 20 % gestiegen, also fast um das Vierfache im Vergleich zum Ergebnis für offene Stellen im Bereich Data Scientists. Die Datenübertragung ist eine der Hauptaufgaben eines Dateningenieurs. Schließlich war die Zahl der Erwähnungen im Bereich Data Engineering für Java, NoSQL, Redshift, SQL und Hadoop um 15 % höher.

Weniger beliebt in der Datentechnik

Sehen wir uns nun an, welche Technologien bei Stellenangeboten als Dateningenieur weniger beliebt sind.
Der stärkste Rückgang im Vergleich zum Data-Science-Sektor erfolgte im Jahr R: Dort war er in etwa 56 % der offenen Stellen vertreten, hier nur in 17 %. Beeindruckend. R ist eine von Wissenschaftlern und Statistikern bevorzugte Programmiersprache und steht auf Platz acht der am meisten gefürchteten Sprachen der Welt.

SAS Auch bei Stellenausschreibungen für die Stelle des Data Engineers findet sich deutlich seltener – der Unterschied beträgt 14 %. SAS ist eine proprietäre Sprache, die für die Arbeit mit Statistiken und Daten entwickelt wurde. Interessanter Punkt: Den Ergebnissen nach zu urteilen meine Recherche zu Stellenangeboten für Datenwissenschaftler, sie hat in letzter Zeit stark an Boden verloren – mehr als jede andere Technologie.

Gefragt sowohl im Data Engineering als auch in der Data Science

Es ist zu beachten, dass acht der ersten zehn Positionen in beiden Sätzen gleich sind. SQL, Python, Spark, AWS, Java, Hadoop, Hive und Scala haben es sowohl in der Data-Engineering- als auch in der Data-Science-Branche in die Top Ten geschafft. In der Grafik unten sehen Sie die fünfzehn beliebtesten Technologien bei Arbeitgebern im Bereich Dateningenieure und daneben die Quote der offenen Stellen für Datenwissenschaftler.

Die gefragtesten Fähigkeiten im Beruf des Dateningenieurs

Empfehlungen

Wenn Sie in die Datentechnik einsteigen möchten, würde ich Ihnen raten, die folgenden Technologien zu beherrschen – ich liste sie in der Reihenfolge ihrer ungefähren Priorität auf.

Lernen Sie SQL. Ich bevorzuge PostgreSQL, weil es Open Source ist, in der Community sehr beliebt ist und sich in einer Wachstumsphase befindet. Den Umgang mit der Sprache erfahren Sie im Buch My Memorable SQL – die Pilotversion ist verfügbar hier.

Beherrschen Sie Python, wenn auch nicht auf dem Hardcore-Niveau. My Memorable Python wurde speziell für Anfänger entwickelt. Es kann bei erworben werden Amazon, elektronische oder physische Kopie Ihrer Wahl oder Download im PDF- oder Epub-Format auf dieser Seite.

Sobald Sie mit Python vertraut sind, wechseln Sie zu Pandas, einer Python-Bibliothek, die zur Datenbereinigung und -verarbeitung verwendet wird. Wenn Sie beabsichtigen, in einem Unternehmen zu arbeiten, das Python-Schreibfähigkeiten erfordert (und das sind die meisten davon), können Sie sicher sein, dass Kenntnisse über Pandas standardmäßig vorausgesetzt werden. Ich arbeite gerade an einer Einführung in die Arbeit mit Pandas – das können Sie Zeichnenum den Moment der Veröffentlichung nicht zu verpassen.

Meistern Sie AWS. Wenn Sie Dateningenieur werden möchten, können Sie nicht auf eine Cloud-Plattform verzichten, und AWS ist die beliebteste davon. Die Kurse haben mir sehr geholfen Linux-Akademieals ich studierte Datentechnik auf Google CloudIch denke, dass sie auch gute Materialien auf AWS haben werden.

Wenn Sie diese gesamte Liste bereits abgeschlossen haben und in den Augen der Arbeitgeber als Dateningenieur weiter wachsen möchten, schlage ich vor, Apache Spark für die Arbeit mit Big Data hinzuzufügen. Obwohl meine Recherchen zu Stellenangeboten für Datenwissenschaftler einen Rückgang des Interesses zeigten, taucht es bei Dateningenieuren immer noch in fast jeder zweiten Stelle auf.

Endlich

Ich hoffe, Sie fanden diesen Überblick über die gefragtesten Technologien für Dateningenieure hilfreich. Wenn Sie sich fragen, wie sich die Jobs als Analyst entwickeln, lesen Sie hier mein anderer Artikel. Viel Spaß beim Engineering!

Source: habr.com

Kommentar hinzufügen