Iza ireo injeniera data, ary ahoana no hahatongavanao ho iray?

Miarahaba indray! Miteny ho azy ny lohatenin’ilay lahatsoratra. Eo am-piandrasana ny fanombohan'ny fampianarana Data Engineer Manoro hevitra anao izahay hahatakatra hoe iza no injeniera data. Misy rohy mahasoa maro ao amin'ny lahatsoratra. Faly mamaky.

Iza ireo injeniera data, ary ahoana no hahatongavanao ho iray?

Torolàlana tsotra momba ny fomba fisamborana ny onjan'ny Data Engineering ary tsy avelany hitarika anao any amin'ny lavaka mangitsokitsoka.

Toa te ho lasa mpahay siansa momba ny angona ny rehetra amin'izao fotoana izao. Fa ahoana ny momba ny Data Engineering? Amin'ny ankapobeny, karazana hybrid an'ny mpandinika angon-drakitra sy siantifika data; Ny injeniera data dia tompon'andraikitra amin'ny fitantanana ny workflows, ny fanodinana fantsona ary ny fizotran'ny ETL. Noho ny maha-zava-dehibe ireo asa ireo, ity dia teny malaza matihanina iray hafa izay miha-mahazo vahana.

Ny karama ambony sy ny fitakiana goavana dia ampahany kely amin'ny mahasarika ity asa ity! Raha te hanatevin-daharana ny laharan'ny mahery fo ianao dia tsy mbola tara ny manomboka mianatra. Amin'ity lahatsoratra ity, nanangona ny fampahalalana ilaina rehetra aho mba hanampiana anao hanao ny dingana voalohany.

Noho izany, andao hanomboka!

Inona no atao hoe Data Engineering?

Raha ny marina, tsy misy fanazavana tsara kokoa noho ity:

“Afaka mahita kintana vaovao ny mpahay siansa, nefa tsy afaka mamorona kintana iray izy. Tsy maintsy mangataka injeniera izy hanao izany ho azy. "

-Gordon Lindsay Glegg

Noho izany, ny andraikitry ny injeniera data dia tena manan-danja.

Araka ny soso-kevitry ny anarana, ny engineering data dia mahakasika ny angon-drakitra, izany hoe ny fandefasana azy, ny fitahirizana ary ny fanodinana azy. Araka izany, ny asa lehibe ataon'ny injeniera dia ny manome fotodrafitrasa azo antoka ho an'ny angona. Raha mijery ny ambaratongan'ny filana AI isika, ny injeniera data dia manana ny dingana 2-3 voalohany: fanangonana, hetsika ary fitahirizana, fanomanana ny angona.

Iza ireo injeniera data, ary ahoana no hahatongavanao ho iray?

Inona no ataon'ny injeniera data?

Miaraka amin'ny fahatongavan'ny angon-drakitra lehibe dia niova tanteraka ny sahan'ny andraikitra. Raha teo aloha ireo manam-pahaizana ireo dia nanoratra fanontaniana SQL lehibe sy angon-drakitra distilled mampiasa fitaovana toy ny Informatica ETL, Pentaho ETL, Talend, ankehitriny dia nitombo ny fepetra takiana ho an'ny injeniera data.

Ny ankamaroan'ny orinasa manana fahabangan-toerana misokatra ho an'ny toeran'ny injeniera data dia manana ireto fepetra manaraka ireto:

  • Fahalalana tsara momba ny SQL sy Python.
  • Ny traikefa amin'ny sehatra rahona, indrindra ny Amazon Web Services.
  • Ny fahalalana Java/Scala no tiana.
  • Fahatakarana tsara ny angon-drakitra SQL sy NoSQL (modely angona, fanatobiana data).

Ataovy ao an-tsaina fa ireo ihany no tena ilaina. Avy amin'ity lisitra ity dia azo heverina fa ny injeniera data dia manam-pahaizana manokana amin'ny sehatry ny fampivoarana rindrambaiko sy backend.
Ohatra, raha manomboka mamorona angon-drakitra betsaka avy amin'ny loharano isan-karazany ny orinasa iray, ny andraikitrao amin'ny maha-injeniera data anao dia ny mandamina ny fanangonana vaovao, ny fanodinana ary ny fitahirizana azy.

Ny lisitry ny fitaovana ampiasaina amin'ity tranga ity dia mety ho samy hafa, izany rehetra izany dia miankina amin'ny habetsaky ny angon-drakitra, ny hafainganam-pandeha ny fandraisana sy ny heterogeneity. Ny ankamaroan'ny orinasa dia tsy miraharaha angon-drakitra lehibe mihitsy, ka amin'ny maha-repository afovoany, antsoina hoe trano fitehirizam-baovao, dia afaka mampiasa angona SQL ianao (PostgreSQL, MySQL, sns.) miaraka amin'ny andian-tsoratra kely izay mamahana ny angon-drakitra. ny trano fanatobiana entana.

Ireo goavambe IT toa an'i Google, Amazon, Facebook na Dropbox dia manana fepetra ambony kokoa: fahalalana momba ny Python, Java na Scala.

  • Ny traikefa amin'ny angon-drakitra lehibe: Hadoop, Spark, Kafka.
  • Fahalalana ny algorithm sy ny rafitra angona.
  • Fahatakarana ny fototry ny rafitra mizara.
  • Ny traikefa amin'ny fitaovana fijerena angona toy ny Tableau na ElasticSearch dia ho fanampiny.

Izany hoe, misy fiovana mazava mankany amin'ny angona lehibe, izany hoe amin'ny fanodinana azy amin'ny enta-mavesatra be. Ireo orinasa ireo dia nampitombo ny fepetra takiana amin'ny fandeferana ny fahadisoan'ny rafitra.

Data Engineers vs. mpahay siansa momba ny data

Iza ireo injeniera data, ary ahoana no hahatongavanao ho iray?
Okay, fampitahana tsotra sy mahatsikaiky izany (tsy misy manokana), fa raha ny marina dia sarotra kokoa izany.

Voalohany, tokony ho fantatrao fa be dia be ny manjavozavo amin'ny famaritana ny andraikitra sy ny fahaiza-manaon'ny mpahay siansa momba ny data sy ny injeniera data. Izany hoe, mora very hevitra ianao momba ny fahaiza-manao ilaina mba ho injeniera data mahomby. Mazava ho azy fa misy ny fahaiza-manao sasany mifanindry amin'ireo andraikitra roa ireo. Saingy misy ihany koa ny fahaiza-manao maromaro mifanohitra.

Orinasa matotra ny siansa data, saingy mizotra mankany amin'ny tontolon'ny siansa momba ny data miasa izay ahafahan'ny mpitsabo manao analyse azy manokana. Mba ahafahan'ny fantsona data sy rafitra data mitambatra dia mila injeniera data ianao fa tsy mpahay siansa data.

Injeniera momba ny data ve no tadiavina kokoa noho ny mpahay siansa momba ny data?

- Eny, satria alohan'ny hanaovanao mofomamy karaoty dia mila mijinja sy manadio ary mitahiry karaoty aloha ianao!

Ny injeniera data dia mahatakatra ny fandaharana tsara kokoa noho ny mpahay siansa momba ny data, fa raha ny antontan'isa no resahina dia ny mifanohitra amin'izany no marina.

Fa izao ny tombony amin'ny injeniera data:

Raha tsy misy azy, ny sandan'ny maodely prototype, izay matetika ahitana sombin-kaody ratsy kalitao amin'ny rakitra Python, azo avy amin'ny siantifika data ary mamokatra vokatra, dia mirona ho aotra.

Raha tsy misy injeniera data dia tsy ho lasa tetikasa velively ity code ity ary tsy hisy olana ara-barotra ho voavaha amin'ny fomba mahomby. Ny injeniera data dia miezaka mamadika izany rehetra izany ho vokatra.

Fampahalalana fototra tokony ho fantatry ny injeniera data

Iza ireo injeniera data, ary ahoana no hahatongavanao ho iray?

Noho izany, raha ity asa ity dia mamoaka ny hazavana ao anatinao ary mazoto ianao - afaka mianatra izany ianao, afaka mahafehy ny fahaiza-manao ilaina rehetra ianao ary ho lasa kintana rock tena izy eo amin'ny sehatry ny injeniera data. Ary, eny, azonao atao ny manala izany na dia tsy manana fahaiza-manao fandaharana na fahalalana ara-teknika hafa aza. Sarotra nefa azo atao!

Inona avy ireo dingana voalohany?

Tokony hanana hevitra ankapobeny momba ny inona ianao.

Voalohany indrindra, ny Data Engineering dia manondro ny siansa informatika. Amin'ny ankapobeny, tsy maintsy mahazo ny algorithm mahomby sy ny rafitra angon-drakitra ianao. Faharoa, satria miasa miaraka amin'ny angon-drakitra ny injeniera data, dia ilaina ny mahatakatra ny fitsipiky ny angon-drakitra sy ny rafitra izay iorenan'izy ireo.

Ohatra, ny angon-drakitra SQL B-tree mahazatra dia mifototra amin'ny firafitry ny angon-drakitra B-Tree, ary koa, ao amin'ny tahiry voazara maoderina, LSM-Tree ary fanovana hafa amin'ny tabilao hash.

* Ireo dingana ireo dia mifototra amin'ny lahatsoratra lehibe Adilya Khashtamova. Noho izany, raha mahay teny Rosiana ianao, tohano ity mpanoratra ity ary vakio ny lahatsorany.

1. Algorithm sy rafitra angona

Ny fampiasana ny firafitry ny angon-drakitra mety dia mety hanatsara ny fahombiazan'ny algorithm iray. Raha ny tokony ho izy dia tokony hianatra momba ny rafitry ny angona sy ny algorithm ao amin'ny sekolintsika isika rehetra, saingy zara raha voarakotra izany. Na izany na tsy izany, tsy mbola tara ny fifankazarana.
Ka ireto ny taranja maimaim-poana ankafiziko indrindra amin'ny fianarana ny rafitry ny angona sy ny algorithm:

Ary aza adino ny asa mahazatra nataon'i Thomas Corman momba ny algorithm - Fampidirana ny Algorithms. Ity no reference tonga lafatra rehefa mila mamelombelona ny fahatsiarovanao ianao.

  • Mba hanatsarana ny fahaizanao dia ampiasao Leetcode.

Azonao atao ihany koa ny mitsoraka ao amin'ny tontolon'ny angon-drakitra miaraka amin'ireo horonan-tsary mahavariana avy amin'ny Oniversite Carnegie Mellon ao amin'ny Youtube:

2. Mianara SQL

Data ny fiainantsika manontolo. Ary mba hanesorana an'io angona io avy amin'ny angon-drakitra dia mila "miteny" amin'ny fiteny mitovy aminy ianao.

SQL (Structured Query Language) no fitenin'ny serasera ao amin'ny sehatra data. Na inona na inona lazain'ny olona, ​​SQL dia velona, ​​velona ary ho velona mandritra ny fotoana maharitra.

Raha efa ela ianao no teo amin'ny fampandrosoana, dia mety ho hitanao fa mipoitra tsindraindray ny tsaho momba ny fahafatesan'ny SQL. Ny fiteny dia novolavolaina tany am-piandohan'ireo taona 70 ary mbola malaza be amin'ny mpandinika, mpamorona ary mpankafy tsotra.
Raha tsy misy fahalalana ny SQL dia tsy misy na inona na inona atao amin'ny injeniera data satria tsy maintsy mamorona fanontaniana ianao haka angon-drakitra. Ny trano fanatobiana data lehibe maoderina rehetra dia manohana ny SQL:

  • Amazon Hafaingana radiala
  • HP Vertica
  • Oracle
  • SQL Server

... sy ny maro hafa.

Mba handinihana soso-kevitra lehibe voatahiry ao amin'ny rafitra mizara toy ny HDFS, dia noforonina ny motera SQL: Apache Hive, Impala, sns. Jereo fa tsy mandeha na aiza na aiza.

Ahoana ny fianarana SQL? Ataovy fotsiny amin'ny fampiharana izany.

Mba hanaovana izany, dia manoro hevitra aho hanamarina fampianarana tena tsara, izay, raha ny marina, dia maimaim-poana, avy amin'ny Mode Analytics.

  1. SQL intermediate
  2. Ampidiro ny data amin'ny SQL

Ny mampiavaka an'ireo fampianarana ireo dia ny fisian'ny tontolo iainan'izy ireo izay ahafahanao manoratra sy mampandeha ireo fanontaniana SQL ao amin'ny navigateur anao. loharano Modern SQL tsy ho tafahoatra. Ary azonao ampiharina izany fahalalana izany Leetcode asa ao amin'ny fizarana Databases.

3. Fandaharana amin'ny Python sy Java/Scala

Nahoana ianao no tokony hianatra ny fiteny fandaharana Python, efa nosoratako tao amin'ny lahatsoratra Python vs R. Mifidy ny fitaovana tsara indrindra ho an'ny AI, ML ary Data Science. Raha mikasika ny Java sy Scala, ny ankamaroan'ny fitaovana fitahirizana sy fanodinana angona be dia be dia voasoratra amin'ireo fiteny ireo. Ohatra:

  • Apache Kafka (Scala)
  • Hadoop, HDFS (Java)
  • Apache Spark (Scala)
  • Apache Cassandra (Java)
  • HBase (Java)
  • Apache Hive (Java)

Mba hahatakarana ny fomba fiasan'ireo fitaovana ireo dia mila mahafantatra ny fiteny nanoratana azy ianao. Ny fomba fiasa ampiasain'i Scala dia ahafahanao mamaha amin'ny fomba mahomby ireo olana momba ny fanodinana angon-drakitra. Python, indrisy, tsy afaka mirehareha amin'ny hafainganam-pandeha sy ny fanodinana parallèle. Amin'ny ankapobeny, ny fahalalana ny fiteny maro sy ny paradigma fandaharana dia tsara ho an'ny halehiben'ny fomba famahana olana.

Raha te hiditra amin'ny fiteny Scala ianao dia afaka mamaky Fandaharana amin'ny Scala avy amin'ny mpanoratra ny fiteny. Namoaka torolàlana fampidirana tsara ihany koa ny Twitter - Sekoly Scala.

Raha ny momba an'i Python dia mino aho Python fluent boky ambaratonga antonony tsara indrindra.

4. Fitaovana miasa amin'ny angona lehibe

Ity ny lisitry ny fitaovana malaza indrindra amin'ny tontolon'ny angona lehibe:

  • Apache Spark
  • Apache Kafka
  • Apache Hadoop (HDFS, HBase, Hive)
  • Apache cassandra

Afaka mahita fampahalalana bebe kokoa momba ny fananganana sakana data lehibe ianao amin'ity mahagaga ity tontolo iainana interactive. Ny fitaovana malaza indrindra dia Spark sy Kafka. Tena mendrika ny hianarana izy ireo, tsara ny mahatakatra ny fomba fiasan'izy ireo avy ao anatiny. Jay Kreps (mpiara-manoratra ny Kafka) dia namoaka asa goavana tamin'ny 2013 Ny Log: Izay tokony ho fantatry ny mpamorona rindrambaiko rehetra momba ny fanangonam-bokatra amin'ny fotoana tena izyRaha ny marina, ny hevi-dehibe avy amin'ity Talmud ity dia nampiasaina mba hamoronana Apache Kafka.

5. Sehatra rahona

Iza ireo injeniera data, ary ahoana no hahatongavanao ho iray?

Ny fahalalana momba ny sehatra rahona iray farafahakeliny dia ao amin'ny lisitry ny fepetra fototra ho an'ny mpangataka amin'ny toeran'ny injeniera data. Tian'ny mpampiasa ny Amazon Web Services, miaraka amin'ny sehatra rahona Google eo amin'ny toerana faharoa ary ny Microsoft Azure no manenika ny telo voalohany.

Tsy maintsy manana fahalalana tsara momba ny Amazon EC2, AWS Lambda, Amazon S3, DynamoDB ianao.

6. Rafitra fizarana

Ny fiasana amin'ny angon-drakitra lehibe dia midika ny fisian'ny vondron'ny solosaina miasa tsy miankina, ny fifandraisana eo amin'izy ireo dia atao amin'ny tambajotra. Ny lehibe kokoa ny cluster, ny lehibe kokoa ny mety ho tsy fahombiazana ny mpikambana nodes. Mba ho lasa mpahay siansa momba ny angona, mila mahatakatra ny olana sy ny vahaolana efa misy ho an'ny rafitra mizara. Efa antitra sy be pitsiny io faritra io.

Andrew Tanenbaum dia heverina ho mpisava lalana amin’io sehatra io. Ho an'ireo izay tsy matahotra ny teoria, manoro hevitra ny bokiny aho "System Distributed", mety ho toa mampatahotra ho an'ireo vao manomboka izany, saingy tena hanampy anao hanatsara ny fahaizanao izany.

Mino aho Famolavolana rindranasa data-intensive nataon'i Martin Kleppmann boky fampidiran-dresaka tsara indrindra. Raha ny marina, i Martin dia manana toetra mahafinaritra блог. Ny asany dia hanampy amin'ny fandrindrana fahalalana momba ny fananganana fotodrafitrasa maoderina amin'ny fitehirizana sy fanodinana angona lehibe.
Ho an'ireo izay tia mijery horonan-tsary dia misy fampianarana ao amin'ny Youtube Rafitra informatika zaraina.

7. fantsona fantsona

Iza ireo injeniera data, ary ahoana no hahatongavanao ho iray?

Ny fantsona angon-drakitra dia zavatra tsy azonao iainana raha tsy misy injeniera data.

Amin'ny ankamaroan'ny fotoana, ny injeniera data dia manangana antsoina hoe fantsona data, izany hoe, mamorona dingana amin'ny fandefasana data avy amin'ny toerana iray mankany amin'ny iray hafa. Ireo dia mety ho script manokana izay mandeha amin'ny API an'ny serivisy ivelany na manao fangatahana SQL, mampitombo ny angon-drakitra, ary mametraka izany ao amin'ny fivarotana afovoany (trano fanatobiana data) na fivarotana data tsy misy rafitra (farihy data).

Raha fintinina: ny lisitry ny fanamarinana fototra ho an'ny injeniera data

Iza ireo injeniera data, ary ahoana no hahatongavanao ho iray?

Raha fintinina dia ilaina ny fahatakarana tsara ireto manaraka ireto:

  • Information Systems;
  • Famolavolana rindrambaiko (Agile, DevOps, Design Techniques, SOA);
  • Rafitra fizarana sy fandaharana parallèle;
  • Fototry ny angon-drakitra - Fandrindrana, famolavolana, fampandehanana ary famahana olana;
  • Famolavolana andrana - Andrana A/B hanaporofoana hevitra, hamaritana ny fahamendrehana, ny fahombiazan'ny rafitra, ary ny famolavolana lalana azo itokisana mba hanomezana vahaolana tsara haingana.

Vitsivitsy amin'ny fepetra takiana ho lasa injeniera data ireo, koa mianara sy mahatakatra ny rafitra angon-drakitra, ny rafitra fampahalalana, ny fanaterana/fametrahana/fampidirana mitohy, ny fiteny fandaharana, ary ny lohahevitra momba ny siansa informatika hafa (fa tsy ny sehatra rehetra).

Ary farany, ny zavatra farany nefa tena manan-danja tiako holazaina.

Ny lalana mankany amin'ny Data Engineering dia tsy tsotra araka ny mety ho hita. Tsy mamela heloka izy, diso fanantenana, ary tsy maintsy miomana amin’izany ianao. Mety hanosika anao hilavo lefona ny fotoana sasany amin'ity dia ity. Fa asa tena izy sy dingana fianarana izany.

Aza asiana siramamy hatrany am-boalohany. Ny tanjona rehetra amin'ny dia dia ny mianatra araka izay tratra ary miomana amin'ny fanamby vaovao.
Ity misy sary mahafinaritra hitako izay mampiseho tsara an'io hevitra io:

Iza ireo injeniera data, ary ahoana no hahatongavanao ho iray?

Ary eny, tadidio ny misoroka ny fahamaizana sy ny fitsaharana. Tena zava-dehibe koa izany. Mirary anao ho tsara vintana!

Ahoana ny hevitrao momba ilay lahatsoratra, ry namana? Manasa anao izahay webinar maimaim-poana, izay hatao anio amin'ny 20.00. Mandritra ny webinar dia hiresaka momba ny fomba hananganana rafitra fanodinana angon-drakitra mahomby sy azo ekena ho an'ny orinasa madinika na fanombohana amin'ny vidiny faran'izay kely. Ho fanazaran-tena dia hifankazatra amin'ny fitaovana fanodinana angona Google Cloud isika. Mandrapihaona!

Source: www.habr.com

Add a comment