Wien sinn Dateningenieuren, a wéi gitt Dir een?

Moien nach eng Kéier! Den Titel vum Artikel schwätzt fir sech. An der Erwaardung vum Start vum Cours Daten Ingenieur Mir proposéieren Iech ze verstoen wien Dateningenieuren sinn. Et gi vill nëtzlech Linken am Artikel. Glécklech Liesung.

Wien sinn Dateningenieuren, a wéi gitt Dir een?

En einfache Guide fir wéi Dir d'Daten Engineering Welle fangt an net loosse se Iech an den Ofgrond zéien.

Et schéngt wéi wann jiddereen dës Deeg en Datewëssenschaftler wëllt ginn. Awer wat iwwer Data Engineering? Weesentlechen ass dëst eng Zort Hybrid vun engem Datenanalytiker an engem Datewëssenschaftler; En Dateingenieur ass typesch verantwortlech fir d'Gestioun vun Workflows, d'Veraarbechtung vu Pipelines, an ETL Prozesser. Wéinst der Wichtegkeet vun dëse Funktiounen ass dëst de Moment en anere populäre professionnelle Jargon deen aktiv Dynamik kritt.

Héich Paien a grouss Nofro sinn nëmmen e klengen Deel vun deem wat dës Aarbecht extrem attraktiv mécht! Wann Dir wëllt an d'Ränge vun den Helden bäitrieden, ass et ni ze spéit fir unzefänken ze léieren. An dësem Post hunn ech all déi néideg Informatioun gesammelt fir Iech ze hëllefen Är éischt Schrëtt ze huelen.

Also loosst eis ufänken!

Wat ass Data Engineering?

Éierlech gesot, et gëtt keng besser Erklärung wéi dëst:

"E Wëssenschaftler kann en neie Stär entdecken, awer hien kann een net kreéieren. Hie muss en Ingenieur froen fir et fir hien ze maachen.

-Gordon Lindsay Glegg

Also ass d'Roll vun engem Dateningenieur zimlech bedeitend.

Wéi den Numm et scho seet, ass d'Datentechnik mat Daten beschäftegt, nämlech hir Liwwerung, Lagerung a Veraarbechtung. Deementspriechend ass d'Haaptaufgab vun den Ingenieuren eng zouverlässeg Infrastruktur fir Daten ze bidden. Wa mir d'AI Hierarchie vu Bedierfnesser kucken, besetzt d'Datentechnik déi éischt 2-3 Etappen: Sammlung, Beweegung a Lagerung, Datepräparatioun.

Wien sinn Dateningenieuren, a wéi gitt Dir een?

Wat mécht en Dateingenieur?

Mam Opkomme vu Big Data huet den Ëmfang vun der Verantwortung dramatesch geännert. Wann virdru dës Experten grouss SQL Ufroen an destilléiert Daten geschriwwen hunn mat Tools wéi Informatica ETL, Pentaho ETL, Talend, elo sinn d'Ufuerderunge fir Dateningenieuren eropgaang.

Déi meescht Firmen mat oppe Vakanzen fir d'Positioun vum Dateingenieur hunn déi folgend Ufuerderungen:

  • Excellent Wëssen iwwer SQL a Python.
  • Erfahrung mat Cloud Plattformen, besonnesch Amazon Web Services.
  • Wësse vu Java / Scala bevorzugt.
  • Gutt Verständnis vu SQL an NoSQL Datenbanken (Datemodelléierung, Datelagerung).

Denkt drun, dëst sinn nëmmen déi wesentlech. Aus dëser Lëscht kann et ugeholl ginn datt Dateningenieuren Spezialisten am Beräich vun der Softwareentwécklung a Backend sinn.
Zum Beispill, wann eng Firma ufänkt eng grouss Quantitéit un Daten aus verschiddene Quellen ze generéieren, ass Är Aufgab als Dateingenieur d'Informatiounssammlung, d'Veraarbechtung an d'Lagerung ze organiséieren.

D'Lëscht vun Tools, déi an dësem Fall benotzt ginn, kënnen ënnerschiddlech sinn, alles hänkt vum Volume vun dësen Donnéeën, der Geschwindegkeet vun der Empfang an der Heterogenitéit of. Déi meescht Firmen këmmeren sech guer net mat Big Data, also als zentraliséierte Repository, e sougenannten Datewarehouse, kënnt Dir eng SQL Datebank benotzen (PostgreSQL, MySQL, etc.) d'Lager.

IT Risen wéi Google, Amazon, Facebook oder Dropbox hunn méi héich Ufuerderungen: Wëssen iwwer Python, Java oder Scala.

  • Erfahrung mat Big Data: Hadoop, Spark, Kafka.
  • Wësse vun Algorithmen an Datestrukturen.
  • D'Grondlage vun verdeelt Systemer verstoen.
  • D'Erfahrung mat Datenvisualiséierungsinstrumenter wéi Tableau oder ElasticSearch wäert e Plus sinn.

Dat ass, et gëtt eng kloer Verréckelung Richtung Big Data, nämlech a senger Veraarbechtung ënner héich Laascht. Dës Firmen hunn Ufuerderunge fir System Feeler Toleranz erhéicht.

Daten Ingenieuren vs. daten Wëssenschaftler

Wien sinn Dateningenieuren, a wéi gitt Dir een?
Okay, dat war en einfachen a witzege Verglach (näischt perséinlech), awer a Wierklechkeet ass et vill méi komplizéiert.

Als éischt sollt Dir wëssen datt et vill Ambiguititéit an der Ofgrenzung vun de Rollen a Fäegkeete vun engem Datewëssenschaftler an engem Dateingenieur ass. Dat ass, Dir kënnt einfach duerchernee sinn iwwer wéi eng Fäegkeeten gebraucht ginn fir en erfollegräichen Dateingenieur ze sinn. Natierlech ginn et gewësse Fäegkeeten déi mat béide Rollen iwwerlappen. Mä et ginn och eng Rei vun diametrically Géigendeel Kompetenzen.

Datewëssenschaft ass e seriöse Geschäft, awer mir plënneren an eng Welt vu funktionneller Datewëssenschaft wou Praktiker fäeg sinn hir eege Analysen ze maachen. Fir Datepipelines an integréiert Datestrukturen z'erméiglechen, braucht Dir Dateningenieuren, net Datewëssenschaftler.

Ass en Dateingenieur méi gefrot wéi en Datewëssenschaftler?

- Jo, well ier Dir Karrottkuchen ka maachen, musst Dir fir d'éischt Muerten sammelen, schielen a stockéieren!

En Dateingenieur versteet d'Programméierung besser wéi all Datewëssenschaftler, awer wann et ëm Statistike kënnt, ass de Géigendeel wouer.

Awer hei ass de Virdeel vun engem Dateningenieur:

Ouni hien / hatt ass de Wäert vum Prototypmodell, meeschtens aus engem Stéck schreckleche Qualitéitscode an enger Python-Datei, vun engem Datewëssenschaftler kritt an iergendwéi e Resultat produzéiert, tendéiert op Null.

Ouni en Dateingenieur wäert dëse Code ni e Projet ginn a kee Geschäftsproblem gëtt effektiv geléist. Den Dateingenieur probéiert dëst alles an e Produkt ze maachen.

Basis Informatioun en Dateingenieur soll wëssen

Wien sinn Dateningenieuren, a wéi gitt Dir een?

Also, wann dës Aarbecht d'Liicht an Iech bréngt an Dir sidd begeeschtert - Dir kënnt et léieren, Dir kënnt all déi néideg Fäegkeeten beherrschen an e richtege Rockstar am Beräich vun der Datetechnik ginn. An, jo, Dir kënnt dëst och ouni Programméierungsfäegkeeten oder aner technesch Wëssen ofzéien. Et ass schwéier, awer méiglech!

Wat sinn déi éischt Schrëtt?

Dir sollt eng allgemeng Iddi hunn wat ass wat.

Als éischt bezitt Data Engineering op Informatik. Méi spezifesch musst Dir effizient Algorithmen an Datestrukturen verstoen. Zweetens, well Dateningenieuren mat Daten schaffen, ass et néideg d'Prinzipien vun Datenbanken ze verstoen an d'Strukturen déi hinnen ënnersträichen.

Zum Beispill baséieren konventionell B-Tree SQL-Datebanken op der B-Tree-Datenstruktur, wéi och, a modernen verdeelt Repositories, LSM-Tree an aner Ännerunge vun Hash-Tabellen.

* Dës Schrëtt baséieren op engem super Artikel Adilya Khashtamova. Also, wann Dir Russesch kennt, ënnerstëtzt dësen Auteur a liest säi Post.

1. Algorithmen an Daten Strukturen

D'Benotzung vun der richteger Datestruktur kann d'Performance vun engem Algorithmus wesentlech verbesseren. Idealerweis sollte mir all iwwer Datestrukturen an Algorithmen an eise Schoule léieren, awer dëst gëtt selten iwwerdeckt. Op jidde Fall ass et ni ze spéit fir sech kennenzeléieren.
Also hei sinn meng Liiblings gratis Coursen fir Datenstrukturen an Algorithmen ze léieren:

Plus vergiesst net iwwer dem Thomas Corman seng klassesch Aarbecht iwwer Algorithmen - Aféierung an Algorithmen. Dëst ass déi perfekt Referenz wann Dir Är Erënnerung muss erfrëschen.

  • Fir Är Fäegkeeten ze verbesseren, benotzt Leetcode.

Dir kënnt och an d'Welt vun den Datenbanken tauchen mat erstaunlech Videoe vun der Carnegie Mellon University op Youtube:

2. Léiert SQL

Eist ganzt Liewen ass daten . A fir dës Donnéeën aus der Datebank ze extrahieren, musst Dir mat der selwechter Sprooch "schwätzen".

SQL (Structured Query Language) ass d'Sprooch vun der Kommunikatioun am Dateberäich. Egal wat iergendeen seet, SQL huet gelieft, ass lieweg a wäert fir eng ganz laang Zäit liewen.

Wann Dir eng laang Zäit an der Entwécklung war, hutt Dir wahrscheinlech gemierkt datt Rumeuren iwwer den bevirsteet Doud vu SQL periodesch optrieden. D'Sprooch gouf an de fréie 70er Joren entwéckelt an ass nach ëmmer ganz populär bei Analysten, Entwéckler an einfach Enthusiaster.
Ouni Wësse vu SQL gëtt et näischt an der Datetechnik ze maachen, well Dir wäert zwangsleefeg Ufroen erstellen fir Daten ze recuperéieren. All modern grouss Datenlager ënnerstëtzen SQL:

  • Amazon RedShift
  • HP Vertica
  • entscheet
  • SQL Server

... a vill anerer.

Fir eng grouss Schicht vun Daten ze analyséieren, déi a verdeelt Systemer wéi HDFS gespäichert sinn, goufen SQL-Motoren erfonnt: Apache Hive, Impala, etc. Kuckt, et geet néierens.

Wéi léieren ech SQL? Maacht et einfach an der Praxis.

Fir dëst ze maachen, géif ech recommandéieren en exzellenten Tutorial ze kucken, deen iwwregens gratis ass Modus Analytics.

  1. Mëttelméisseg SQL
  2. Uschléissen Daten an SQL

Wat dës Coursen speziell mécht ass datt se en interaktivt Ëmfeld hunn wou Dir SQL Ufroen direkt an Ärem Browser schreiwen a lafen kann. Ressource Modern SQL wäert net iwwerflësseg ginn. An Dir kënnt dëst Wëssen applizéieren Leetcode Aufgaben an der Datebank Sektioun.

3. Programméiere am Python an Java / Scala

Firwat sollt Dir d'Python Programmiersprache léieren, hunn ech schonn am Artikel geschriwwen Python vs R. Wielt dat Bescht Tool fir AI, ML an Data Science. Wann et ëm Java a Scala kënnt, sinn déi meescht Tools fir enorm Quantitéiten un Daten ze späicheren an ze veraarbecht an dëse Sprooche geschriwwe ginn. Zum Beispill:

  • Apache Kafka (Scala)
  • Hadoop, HDFS (Java)
  • Apache Spark (Scala)
  • Apache Cassandra (Java)
  • HBase (Java)
  • Apache Hive (Java)

Fir ze verstoen wéi dës Tools funktionnéieren, musst Dir d'Sprooche kennen an deenen se geschriwwe sinn. Dem Scala seng funktionell Approche erlaabt Iech effektiv parallel Datenveraarbechtungsproblemer ze léisen. Python, leider, kann net mat Vitesse a parallel Veraarbechtung bretzen. Allgemeng ass d'Wësse vu verschiddene Sproochen a Programméierungsparadigmen gutt fir d'Breet vun Approche fir Probleemer ze léisen.

Fir an d'Scala Sprooch ze tauchen, kënnt Dir liesen Programméiere an Scala vum Auteur vun der Sprooch. Twitter huet och e gudden Aféierungsguide publizéiert - Scala Schoul.

Wat Python ugeet, gleewen ech Fléissend Python beschte Mëttelstuf Buch.

4. Tools fir mat groussen Daten ze schaffen

Hei ass eng Lëscht vun de populäersten Tools an der Welt vu Big Data:

  • Apache Spark
  • Apache Kafka
  • Apache Hadoop (HDFS, HBase, Hive)
  • Apache cassandra

Dir kënnt méi Informatiounen iwwer grouss Dateblocken opbauen an dësem erstaunlechen interaktiv Ëmwelt. Déi populärste Tools sinn Spark a Kafka. Si sinn definitiv derwäert ze studéieren, et ass ubruecht ze verstoen wéi se vu bannen funktionnéieren. De Jay Kreps (Co-Auteur vu Kafka) huet 2013 e monumentalt Wierk publizéiert De Log: Wat all Software Entwéckler soll wëssen iwwer Echtzäit Data Aggregatioun AbstraktiounIwwregens goufen d'Haaptideeën aus dësem Talmud benotzt fir den Apache Kafka ze kreéieren.

5. Cloud Plattformen

Wien sinn Dateningenieuren, a wéi gitt Dir een?

Wëssen vun op d'mannst eng Cloud Plattform ass op der Lëscht vun Basis Ufuerderunge fir Bewerberinnen fir d'Positioun vun Daten Ingenieur. D'Patronen léiwer Amazon Web Services, mat der Google Cloud Plattform op der zweeter Plaz a Microsoft Azure déi Top dräi ofschléissen.

Dir musst gutt Wëssen iwwer Amazon EC2, AWS Lambda, Amazon S3, DynamoDB hunn.

6. Verdeelt Systemer

Schafft mat Big Data implizéiert d'Präsenz vu Stärekéip vun onofhängege Betribscomputer, tëscht deenen d'Kommunikatioun iwwer engem Netz duerchgefouert gëtt. Wat méi grouss de Stärekoup ass, dest méi grouss ass d'Wahrscheinlechkeet vum Ausfall vu senge Membernoden. Fir e groussen Datewëssenschaftler ze ginn, musst Dir d'Problemer an existent Léisunge fir verdeelt Systemer verstoen. Dëse Beräich ass al a komplex.

Den Andrew Tanenbaum gëllt als Pionéier an dësem Beräich. Fir déi, déi keng Theorie Angscht hunn, recommandéieren ech säi Buch "Verdeelt Systemer", Et kann beängschtegend schéngen fir Ufänger, awer et wäert Iech wierklech hëllefen Är Fäegkeeten ze zéien.

Ech mengen Designing Data-Intensive Applications vum Martin Kleppmann beschte Aféierung Buch. Iwwregens, Martin huet eng wonnerbar блог. Seng Aarbecht wäert hëllefen d'Wëssen iwwer d'Konstruktioun vun enger moderner Infrastruktur fir d'Späicheren an d'Veraarbechtung vun Big Data systematiséieren.
Fir déi, déi gär Videoe kucken, gëtt et e Cours op Youtube Verdeelt Computer Systemer.

7. Daten Pipelines

Wien sinn Dateningenieuren, a wéi gitt Dir een?

Datepipelines sinn eppes ouni ouni als Dateningenieur.

Déi meescht vun der Zäit baut en Dateingenieur eng sougenannt Datepipeline, dat heescht, hien erstellt e Prozess fir Daten vun enger Plaz op déi aner ze liwweren. Dëst kéinte personaliséiert Scripte sinn, déi an d'API vun engem externen Service goen oder eng SQL Ufro maachen, d'Donnéeën vergréisseren, an se an en zentraliséierte Buttek (Datelager) oder en onstrukturéierten Dategeschäft (Dataséi) setzen.

Zesummefaassend: d'Basischecklëscht fir en Dateingenieur

Wien sinn Dateningenieuren, a wéi gitt Dir een?

Fir ze resuméieren, ass e gutt Verständnis vun de folgende néideg:

  • Informatiounssystemer;
  • Software Entwécklung (Agile, DevOps, Design Techniques, SOA);
  • Verdeelt Systemer a parallel programméiere;
  • Datebank Fundamentals - Planung, Design, Operatioun an Troubleshooting;
  • Design vun Experimenter - A / B Tester fir Konzepter ze beweisen, Zouverlässegkeet, Systemleistung ze bestëmmen, an zouverlässeg Weeër z'entwéckelen fir gutt Léisunge séier ze liwweren.

Dëst sinn nëmmen e puer vun den Ufuerderunge fir en Dateingenieur ze ginn, also léiert a versteet Datensystemer, Informatiounssystemer, kontinuéierlech Liwwerung / Deployment / Integratioun, Programméierungssproochen an aner Informatik Themen (net all Fachberäicher).

An zum Schluss, déi lescht awer ganz wichteg Saach wëll ech soen.

De Wee fir Data Engineering ze ginn ass net sou einfach wéi et schéngt. Hien verzeien net, hien frustréiert, an Dir musst dofir virbereet sinn. E puer Momenter op dëser Rees kënnen Iech drécken fir opzeginn. Awer dëst ass richteg Aarbecht an e Léierprozess.

Just Zockercoat et net vun Ufank un. De ganze Punkt vum Rees ass sou vill wéi méiglech ze léieren a prett fir nei Erausfuerderungen ze sinn.
Hei ass eng super Foto, déi ech fonnt hunn, déi dëse Punkt gutt illustréiert:

Wien sinn Dateningenieuren, a wéi gitt Dir een?

A jo, erënnert un Burnout a Rescht ze vermeiden. Dëst ass och ganz wichteg. Vill Gléck!

Wat haalt dir vum Artikel, Frënn? Mir invitéieren Iech op fräi webinar, déi haut um 20.00 Auer stattfënnt. Wärend dem Webinar wäerte mir diskutéieren wéi een en effektiven a skalierbare Dateveraarbechtungssystem fir eng kleng Firma oder Startup op minimale Käschten bauen. Als Praxis wäerte mir mat Google Cloud Datenveraarbechtungstools kennen léieren. Bis geschwënn!

Source: will.com

Setzt e Commentaire