Min huma inġiniera tad-dejta, u kif issir wieħed?

Hello mill-ġdid! It-titlu tal-artiklu jitkellem waħdu. B'antiċipazzjoni tal-bidu tal-kors Inġinier tad-Data Nissuġġerixxu li tifhem min huma l-inġiniera tad-dejta. Hemm ħafna links utli fl-artiklu. Qari t-tajjeb.

Min huma inġiniera tad-dejta, u kif issir wieħed?

Gwida sempliċi dwar kif taqbad il-mewġa tal-Inġinerija tad-Data u ma tħallihiex tkaxkark fl-abbiss.

Jidher li kulħadd irid isir Xjentist tad-Data f'dawn il-jiem. Imma xi ngħidu dwar l-Inġinerija tad-Data? Essenzjalment, dan huwa tip ta 'ibridu ta' analista tad-dejta u xjenzat tad-dejta; Inġinier tad-dejta huwa tipikament responsabbli għall-ġestjoni tal-flussi tax-xogħol, il-pipelines tal-ipproċessar, u l-proċessi ETL. Minħabba l-importanza ta 'dawn il-funzjonijiet, bħalissa dan huwa lingwaġġ professjonali popolari ieħor li qed jikseb momentum b'mod attiv.

Salarji għoljin u domanda kbira huma biss parti żgħira minn dak li jagħmel dan ix-xogħol estremament attraenti! Jekk trid tingħaqad mal-gradi tal-eroj, qatt mhu tard wisq biex tibda titgħallem. F'din il-kariga, ġbart l-informazzjoni kollha meħtieġa biex ngħinek tieħu l-ewwel passi tiegħek.

Allura, ejja nibdew!

X'inhi l-Inġinerija tad-Data?

Onestament, m'hemm l-ebda spjegazzjoni aħjar minn din:

“Xjentist jistaʼ jiskopri stilla ġdida, imma ma jistax joħloq waħda. Ikollu jitlob lil inġinier biex jagħmel dan għalih.”

–Gordon Lindsay Glegg

Għalhekk, ir-rwol ta 'inġinier tad-dejta huwa pjuttost sinifikanti.

Kif jissuġġerixxi l-isem, l-inġinerija tad-dejta hija kkonċernata mad-dejta, jiġifieri l-kunsinna, il-ħażna u l-ipproċessar tagħha. Għaldaqstant, il-kompitu ewlieni tal-inġiniera huwa li jipprovdu infrastruttura affidabbli għad-dejta. Jekk inħarsu lejn il-ġerarkija tal-ħtiġijiet tal-AI, l-inġinerija tad-dejta tokkupa l-ewwel 2-3 stadji: ġbir, moviment u ħażna, preparazzjoni tad-data.

Min huma inġiniera tad-dejta, u kif issir wieħed?

X'jagħmel inġinier tad-dejta?

Bil-miġja tal-big data, l-ambitu tar-responsabbiltà nbidel b'mod drammatiku. Jekk qabel dawn l-esperti kitbu mistoqsijiet SQL kbar u dejta distillata bl-użu ta 'għodod bħal Informatica ETL, Pentaho ETL, Talend, issa r-rekwiżiti għall-inġiniera tad-dejta żdiedu.

Ħafna kumpaniji b'postijiet vakanti miftuħa għall-pożizzjoni ta 'inġinier tad-dejta għandhom ir-rekwiżiti li ġejjin:

  • Għarfien eċċellenti ta 'SQL u Python.
  • Esperjenza bi pjattaformi cloud, partikolarment Amazon Web Services.
  • Għarfien ta' Java/Scala preferut.
  • Fehim tajjeb tad-databases SQL u NoSQL (immudellar tad-dejta, ħażna tad-dejta).

Żomm f'moħħok, dawn huma biss l-essenzjali. Minn din il-lista, wieħed jista' jassumi li l-inġiniera tad-dejta huma speċjalisti fil-qasam tal-iżvilupp tas-softwer u l-backend.
Pereżempju, jekk kumpanija tibda tiġġenera ammont kbir ta 'dejta minn sorsi varji, il-kompitu tiegħek bħala inġinier tad-dejta huwa li torganizza l-ġbir ta' informazzjoni, l-ipproċessar u l-ħażna tagħha.

Il-lista ta 'għodod użati f'dan il-każ tista' tvarja, dan kollu jiddependi fuq il-volum ta 'din id-dejta, il-veloċità tal-wasla tagħha u l-eteroġeneità. Il-biċċa l-kbira tal-kumpaniji ma jittrattaw l-ebda dejta kbira, għalhekk bħala repożitorju ċentralizzat, l-hekk imsejjaħ maħżen tad-dejta, tista 'tuża database SQL (PostgreSQL, MySQL, eċċ.) b'sett żgħir ta' skripts li jdaħħlu d-dejta f' il-maħżen.

Ġganti tal-IT bħal Google, Amazon, Facebook jew Dropbox għandhom rekwiżiti ogħla: għarfien ta 'Python, Java jew Scala.

  • Esperjenza b'dejta kbira: Hadoop, Spark, Kafka.
  • Għarfien ta' algoritmi u strutturi tad-dejta.
  • Nifhmu l-baŜi ta 'sistemi distribwiti.
  • Esperjenza b'għodod ta' viżwalizzazzjoni tad-dejta bħal Tableau jew ElasticSearch se tkun ta' vantaġġ.

Jiġifieri, hemm bidla ċara lejn il-big data, jiġifieri fl-ipproċessar tagħha taħt tagħbijiet għoljin. Dawn il-kumpaniji żiedu r-rekwiżiti għat-tolleranza tal-ħsarat tas-sistema.

Inġiniera tad-Data Vs. xjenzati tad-data

Min huma inġiniera tad-dejta, u kif issir wieħed?
Tajjeb, dak kien paragun sempliċi u umoristiku (xejn personali), imma fir-realtà huwa ħafna aktar ikkumplikat.

L-ewwel, għandek tkun taf li hemm ħafna ambigwità fid-delineazzjoni tar-rwoli u l-ħiliet ta 'xjenzat tad-dejta u inġinier tad-dejta. Jiġifieri, tista 'faċilment tkun konfuż dwar liema ħiliet huma meħtieġa biex tkun inġinier tad-dejta ta' suċċess. Naturalment, hemm ċerti ħiliet li jikkoinċidu maż-żewġ rwoli. Iżda hemm ukoll għadd ta' ħiliet dijametrikament opposti.

Ix-xjenza tad-dejta hija negozju serju, iżda qed nimxu lejn dinja tax-xjenza tad-dejta funzjonali fejn il-prattikanti jkunu jistgħu jagħmlu l-analiżi tagħhom stess. Biex tippermetti pipelines tad-dejta u strutturi tad-dejta integrati, għandek bżonn inġiniera tad-dejta, mhux xjenzati tad-dejta.

Inġinier tad-dejta huwa aktar mitlub minn xjenzat tad-dejta?

- Iva, għax qabel ma tkun tista 'tagħmel kejk tal-karrotti, l-ewwel trid tiġbor, tqaxxar u taħżen il-karrotti!

Inġinier tad-dejta jifhem l-ipprogrammar aħjar minn kwalunkwe xjenzat tad-dejta, iżda meta niġu għall-istatistika, l-oppost huwa minnu.

Iżda hawnhekk huwa l-vantaġġ ta 'inġinier tad-dejta:

Mingħajrha, il-valur tal-mudell prototip, ħafna drabi li jikkonsisti f'biċċa kodiċi ta 'kwalità terribbli f'fajl Python, miksub minn xjenzat tad-dejta u b'xi mod jipproduċi riżultat, għandu t-tendenza għal żero.

Mingħajr inġinier tad-dejta, dan il-kodiċi qatt mhu se jsir proġett u l-ebda problema tan-negozju ma tiġi solvuta b'mod effettiv. L-inġinier tad-dejta qed jipprova jibdel dan kollu fi prodott.

Informazzjoni bażika li inġinier tad-dejta għandu jkun jaf

Min huma inġiniera tad-dejta, u kif issir wieħed?

Allura, jekk dan ix-xogħol joħroġ id-dawl fik u int entużjast - tista 'titgħallemha, tista' tikkontrolla l-ħiliet kollha meħtieġa u ssir star rock reali fil-qasam tal-inġinerija tad-dejta. U, iva, tista 'tiġbed dan anki mingħajr ħiliet ta' programmar jew għarfien tekniku ieħor. Huwa diffiċli, imma possibbli!

X'inhuma l-ewwel passi?

Għandu jkollok idea ġenerali ta' x'inhu dak.

L-ewwelnett, l-Inġinerija tad-Data tirreferi għax-xjenza tal-kompjuter. B'mod aktar speċifiku, trid tifhem algoritmi effiċjenti u strutturi tad-dejta. It-tieni nett, peress li l-inġiniera tad-dejta jaħdmu bid-dejta, huwa meħtieġ li wieħed jifhem il-prinċipji tad-databases u l-istrutturi li huma bbażati fuqhom.

Per eżempju, databases konvenzjonali B-Tree SQL huma bbażati fuq l-istruttura tad-dejta B-Tree, kif ukoll, f'repożitorji distribwiti moderni, LSM-Tree u modifiki oħra ta 'tabelli hash.

*Dawn il-passi huma bbażati fuq artiklu kbir Adilya Khashtamova. Allura, jekk taf ir-Russu, appoġġ lil dan l-awtur u aqra il-kariga tiegħu.

1. Algoritmi u strutturi tad-dejta

L-użu tal-istruttura tad-dejta t-tajba jista 'jtejjeb b'mod sinifikanti l-prestazzjoni ta' algoritmu. Idealment, ilkoll għandna nkunu qed nitgħallmu dwar l-istrutturi tad-dejta u l-algoritmi fl-iskejjel tagħna, iżda dan rarament ikun kopert. Fi kwalunkwe każ, qatt mhu tard wisq biex issir familjari.
Allura hawn huma l-korsijiet favoriti tiegħi b'xejn għat-tagħlim tal-istrutturi tad-dejta u l-algoritmi:

Barra minn hekk, tinsiex ix-xogħol klassiku ta' Thomas Corman fuq l-algoritmi - Introduzzjoni għall-Algoritmi. Din hija r-referenza perfetta meta jkollok bżonn li jġedded il-memorja tiegħek.

  • Biex ittejjeb il-ħiliet tiegħek, uża Leetcode.

Tista 'wkoll tgħaddas fid-dinja tad-databases b'vidjows aqwa mill-Università Carnegie Mellon fuq Youtube:

2. Tgħallem SQL

Il-ħajja kollha tagħna hija data. U sabiex tiġi estratta din id-dejta mid-database, għandek bżonn "titkellem" l-istess lingwa magħha.

SQL (Structured Query Language) hija l-lingwa tal-komunikazzjoni fid-dominju tad-dejta. Irrispettivament minn dak li xi ħadd jgħid, SQL għex, huwa ħaj, u se jgħix għal żmien twil ħafna.

Jekk inti kont qed tiżviluppa għal żmien twil, inti probabilment ndunat li rumors dwar il-mewt imminenti ta 'SQL pop up perjodikament. Il-lingwa ġiet żviluppata fil-bidu tas-snin 70 u għadha popolari ħafna fost l-analisti, l-iżviluppaturi u sempliċiment dilettanti.
Mingħajr għarfien tal-SQL m'hemm xejn x'tagħmel fl-inġinerija tad-dejta peress li inevitabbilment ikollok toħloq mistoqsijiet biex tirkupra d-dejta. L-imħażen moderni kollha tad-dejta kbira jappoġġjaw SQL:

  • Amazon RedShift
  • HP Vertica
  • Oracle
  • SQL Server

... u ħafna oħrajn.

Biex tanalizza saff kbir ta 'dejta maħżuna f'sistemi distribwiti bħal HDFS, ġew ivvintati magni SQL: Apache Hive, Impala, eċċ Ara, mhux sejjer imkien.

Kif titgħallem l-SQL? Agħmel biss fil-prattika.

Biex tagħmel dan, nirrakkomanda li tiċċekkja tutorja eċċellenti, li, mill-mod, hija ħielsa, minn Modalità Analitika.

  1. SQL intermedju
  2. Tgħaqqad Data fl-SQL

Dak li jagħmel dawn il-korsijiet speċjali huwa li għandhom ambjent interattiv fejn tista 'tikteb u tmexxi mistoqsijiet SQL dritt fil-browser tiegħek. Riżorsa SQL Moderna mhux se jkun superfluwu. U tista 'tapplika dan l-għarfien għal Ħidmiet Leetcode fit-taqsima Databases.

3. Programmazzjoni f'Python u Java/Scala

Għaliex għandek titgħallem il-lingwa ta 'programmar Python, diġà ktibt fl-artiklu Python vs R. Choosing the Best Tool for AI, ML and Data Science. Fejn jidħlu Java u Scala, ħafna mill-għodod għall-ħażna u l-ipproċessar ta 'ammonti kbar ta' dejta huma miktuba f'dawn il-lingwi. Pereżempju:

  • Apache Kafka (Scala)
  • Hadoop, HDFS (Java)
  • Apache Spark (Scala)
  • Apache Cassandra (Java)
  • HBase (Java)
  • Apache Doqqajs (Java)

Biex tifhem kif jaħdmu dawn l-għodod, trid tkun taf il-lingwi li fihom huma miktuba. L-approċċ funzjonali ta' Scala jippermettilek issolvi b'mod effettiv il-problemi paralleli tal-ipproċessar tad-dejta. Python, sfortunatament, ma jistax jiftaħar bil-veloċità u l-ipproċessar parallel. B'mod ġenerali, l-għarfien ta 'diversi lingwi u paradigmi ta' programmar huwa tajjeb għall-wisa 'ta' approċċi għas-soluzzjoni tal-problemi.

Biex tgħaddas fil-lingwa Scala, tista 'taqra Programmazzjoni fi Scala mill-awtur tal-lingwa. Twitter ippubblika wkoll gwida introduttorja tajba - Skola tal-Iskala.

Fir-rigward ta 'Python, nemmen Python fluwenti l-aqwa ktieb tal-livell medju.

4. Għodod biex taħdem ma 'big data

Hawnhekk hawn lista tal-għodod l-aktar popolari fid-dinja tal-big data:

  • Apache Spark
  • Apache Kafka
  • Apache Hadoop (HDFS, HBase, Doqqajs)
  • Apache cassandra

Tista 'ssib aktar informazzjoni dwar il-bini ta' blokki ta 'dejta kbar f'dan l-aqwa ambjent interattiv. L-aktar għodod popolari huma Spark u Kafka. Żgur li jiswew li jiġu studjati, huwa rakkomandabbli li tifhem kif jaħdmu minn ġewwa. Jay Kreps (ko-awtur ta' Kafka) ippubblika xogħol monumentali fl-2013 Il-Logg: X'Għandu Jaf Kull Żviluppatur tas-Software Dwar l-Astrazzjoni tal-Aggregazzjoni tad-Data f'Ħin RealMill-mod, l-ideat ewlenin minn dan it-Talmud intużaw biex jinħoloq Apache Kafka.

5. Pjattaformi tas-sħab

Min huma inġiniera tad-dejta, u kif issir wieħed?

L-għarfien ta’ mill-inqas pjattaforma waħda tal-cloud jinsab fil-lista ta’ rekwiżiti bażiċi għall-applikanti għall-pożizzjoni ta’ inġinier tad-dejta. Dawk li jħaddmu jippreferu Amazon Web Services, bil-pjattaforma tal-cloud ta’ Google fit-tieni post u l-Microsoft Azure li jqarrbu l-aqwa tlieta.

Irid ikollok għarfien tajjeb ta' Amazon EC2, AWS Lambda, Amazon S3, DynamoDB.

6. Sistemi distribwiti

Il-ħidma ma 'dejta kbira timplika l-preżenza ta' gruppi ta 'kompjuters li joperaw b'mod indipendenti, li l-komunikazzjoni bejniethom titwettaq fuq netwerk. Iktar ma jkun kbir il-cluster, akbar tkun il-probabbiltà ta' falliment tan-nodi membri tagħha. Biex issir xjenzat kbir tad-dejta, trid tifhem il-problemi u s-soluzzjonijiet eżistenti għal sistemi distribwiti. Din iż-żona hija antika u kumplessa.

Andrew Tanenbaum huwa meqjus bħala pijunier f'dan il-qasam. Għal dawk li ma jibżgħux mit-teorija, nirrakkomanda l-ktieb tiegħu "Sistemi distribwiti", jista 'jidher qtigħ il-qalb għal dawk li jibdew, iżda tassew jgħinek ttejjeb il-ħiliet tiegħek.

naħseb Disinn ta' Applikazzjonijiet Intensivi ta' Data minn Martin Kleppmann l-aqwa ktieb introduttorju. Mill-mod, Martin għandu wunderbare blog. Ix-xogħol tiegħu se jgħin biex jissistematizza l-għarfien dwar il-bini ta’ infrastruttura moderna għall-ħażna u l-ipproċessar ta’ big data.
Għal dawk li jħobbu jaraw filmati, hemm kors fuq Youtube Sistemi tal-kompjuter distribwiti.

7. Pipelines tad-dejta

Min huma inġiniera tad-dejta, u kif issir wieħed?

Il-pipelines tad-dejta huma xi ħaġa li ma tistax tgħix mingħajrha bħala inġinier tad-dejta.

Ħafna mill-ħin, inġinier tad-dejta jibni l-hekk imsejjaħ pipeline tad-dejta, jiġifieri joħloq proċess biex iwassal id-dejta minn post għall-ieħor. Dawn jistgħu jkunu skripts tad-dwana li jmorru għall-API ta 'servizz estern jew jagħmlu mistoqsija SQL, iżidu d-dejta, u jpoġġuha f'maħżen ċentralizzat (maħżen tad-dejta) jew f'maħżen tad-dejta mhux strutturat (lagi tad-dejta).

Fil-qosor: il-lista ta' kontroll bażika għal inġinier tad-dejta

Min huma inġiniera tad-dejta, u kif issir wieħed?

Fil-qosor, huwa meħtieġ fehim tajjeb ta 'dan li ġej:

  • Sistemi ta' Informazzjoni;
  • Żvilupp ta' softwer (Aġili, DevOps, Tekniki tad-Disinn, SOA);
  • Sistemi distribwiti u programmar parallel;
  • Fundamenti tad-Database - Ippjanar, Disinn, Operazzjoni u Soluzzjoni ta' Problemi;
  • Disinn ta 'esperimenti - testijiet A/B biex jipprovaw kunċetti, jiddeterminaw l-affidabbiltà, il-prestazzjoni tas-sistema, u jiżviluppaw mogħdijiet affidabbli biex iwasslu soluzzjonijiet tajbin malajr.

Dawn huma biss ftit mir-rekwiżiti biex issir inġinier tad-dejta, għalhekk titgħallem u tifhem is-sistemi tad-dejta, is-sistemi tal-informazzjoni, il-kunsinna / l-iskjerament / l-integrazzjoni kontinwa, il-lingwi tal-ipprogrammar, u suġġetti oħra tax-xjenza tal-kompjuter (mhux l-oqsma tas-suġġetti kollha).

U fl-aħħarnett, l-aħħar imma importanti ħafna irrid ngħid.

It-triq biex issir Inġinerija tad-Data mhix sempliċi daqs kemm jista’ jidher. Hu ma jaħfirx, jiffrustra, u trid tkun ippreparat għal dan. Xi mumenti f’dan il-vjaġġ jistgħu jimbuttawk biex tagħti qalbek. Iżda dan huwa xogħol reali u proċess ta’ tagħlim.

Biss m'għandekx tiżrobha mill-bidu. Il-punt kollu tal-ivvjaġġar huwa li titgħallem kemm jista 'jkun u tkun lest għal sfidi ġodda.
Hawn stampa kbira li ltqajt magħha li turi dan il-punt tajjeb:

Min huma inġiniera tad-dejta, u kif issir wieħed?

U iva, ftakar li tevita burnout u mistrieħ. Dan huwa wkoll importanti ħafna. Ix-xorti t-tajba!

X'taħseb dwar l-artiklu, ħbieb? Nistednuk biex webinar b'xejn, li se ssir illum fit-20.00. Matul il-webinar, ser niddiskutu kif nibnu sistema effettiva u skalabbli għall-ipproċessar tad-dejta għal kumpanija żgħira jew startup bi spiża minima. Bħala prattika, aħna se nkunu familjari mal-għodod tal-ipproċessar tad-dejta tal-Google Cloud. Narak!

Sors: www.habr.com

Żid kumment