Baenjineri ba data ke bo-mang, 'me u ba e mong oa bona joang?

Lumela hape! Sehlooho sa sehlooho se ipuella. Ka tebello ea ho qala thupelo Moenjiniere oa Boitsebiso Re khothaletsa hore u utloisise hore na lienjineri tsa data ke bo-mang. Ho na le li-link tse ngata tsa bohlokoa sehloohong sena. Ho bala ho thabisang.

Baenjineri ba data ke bo-mang, 'me u ba e mong oa bona joang?

Tataiso e bonolo ea ho ts'oara leqhubu la Boenjineri ba data mme o se e lumelle hore e u hulele ka mohohlong.

Ho bonahala eka motho e mong le e mong o batla ho ba Setsebi sa data matsatsing ana. Empa ho thoe'ng ka Data Engineering? Ha e le hantle, ena ke mofuta oa lebasetere la mohlahlobi oa data le rasaense oa data; Moenjineri oa data hangata o ikarabella bakeng sa ho laola phallo ea mosebetsi, lipeipi tsa ho sebetsa, le lits'ebetso tsa ETL. Ka lebaka la bohlokoa ba mesebetsi ena, hona joale ena ke puo e 'ngoe e tsebahalang ea setsebi e ntseng e eketseha ka mafolofolo.

Meputso e phahameng le tlhokahalo e kholo ke karolo e nyane feela ea se etsang hore mosebetsi ona o be motle haholo! Haeba u batla ho kenela maemo a bahale, ha ho morao haholo hore u ka qala ho ithuta. Ka poso ena, ke bokelletse lintlha tsohle tse hlokahalang ho u thusa ho nka mehato ea hau ea pele.

Kahoo, a re qaleng!

Data Engineering ke Eng?

Ka 'nete, ha ho na tlhaloso e ntle ho feta ena:

“Rasaense a ka sibolla naleli e ncha, empa a ke ke a e bōpa. O tla tlameha ho kopa moenjiniere hore a mo etsetse."

- Gordon Lindsay Glegg

Kahoo, karolo ea moenjiniere oa data e bohlokoa haholo.

Joalo ka ha lebitso le fana ka maikutlo, boenjiniere ba data bo amehile ka data, e leng ho tsamaisoa, ho boloka le ho sebetsa. Ka hona, mosebetsi o ka sehloohong oa baenjiniere ke ho fana ka lisebelisoa tse tšepahalang tsa data. Haeba re sheba sehlopha sa AI sa litlhoko, boenjiniere ba data bo nka mekhahlelo ea pele ea 2-3: pokello, motsamao le polokelo, tokiso ya data.

Baenjineri ba data ke bo-mang, 'me u ba e mong oa bona joang?

Moenjiniere oa data o etsa eng?

Ka ho fihla ha data e kholo, boholo ba boikarabello bo fetohile haholo. Haeba pejana litsebi tsena li ne li ngola lipotso tse kholo tsa SQL le data e silafalitsoeng ka lisebelisoa tse kang Informatica ETL, Pentaho ETL, Talend, joale litlhoko tsa baenjiniere ba data li eketsehile.

Likhamphani tse ngata tse nang le likheo tse bulehileng bakeng sa boemo ba moenjiniere oa data li na le litlhoko tse latelang:

  • Tsebo e ntle ea SQL le Python.
  • Boiphihlelo ka li-platform tsa maru, haholo-holo Amazon Web Services.
  • Tsebo ea Java/Scala e ratoa.
  • Kutloisiso e ntle ea li-database tsa SQL le NoSQL (mohlala oa data, polokelo ea data).

Hopola, tsena ke tsa bohlokoa feela. Ho tsoa lethathamong lena, ho ka nahanoa hore baenjiniere ba data ke litsebi lefapheng la nts'etsopele ea software le backend.
Ka mohlala, haeba k'hamphani e qala ho hlahisa boitsebiso bo bongata bo tsoang mehloling e fapaneng, mosebetsi oa hau joaloka moenjiniere oa data ke ho hlophisa pokello ea tlhahisoleseding, ts'ebetso ea eona le polokelo.

Lethathamo la lisebelisoa tse sebelisoang tabeng ena le ka 'na la fapana, tsohle li itšetlehile ka boholo ba data ena, lebelo la ho e fumana le ho fapana. Lik'hamphani tse ngata ha li sebetsane le data e kholo ho hang, joalo ka polokelo e bohareng, sebaka seo ho thoeng ke polokelo ea data, u ka sebelisa database ea SQL (PostgreSQL, MySQL, joalo-joalo) ka sete e nyane ea lingoloa tse fepang data ho. ntlo ea polokelo.

Li-giants tsa IT tse kang Google, Amazon, Facebook kapa Dropbox li na le litlhoko tse phahameng: tsebo ea Python, Java kapa Scala.

  • Boiphihlelo ka data e kholo: Hadoop, Spark, Kafka.
  • Tsebo ea li-algorithms le libopeho tsa data.
  • Ho utloisisa metheo ea litsamaiso tse ajoang.
  • Boiphihlelo ka lisebelisoa tsa pono ea data joalo ka Tableau kapa ElasticSearch e tla ba tlatsetso.

Ke hore, ho na le phetoho e hlakileng ho data e kholo, e leng ts'ebetsong ea eona tlas'a meroalo e phahameng. Lik'hamphani tsena li na le litlhoko tse eketsehileng tsa ho mamella liphoso tsa tsamaiso.

Baenjiniere ba Lintlha Vs. bo-rasaense ba data

Baenjineri ba data ke bo-mang, 'me u ba e mong oa bona joang?
Ho lokile, eo e ne e le papiso e bonolo le e qabolang (ha ho letho la motho), empa ha e le hantle e rarahane le ho feta.

Taba ea pele, u lokela ho tseba hore ho na le lintho tse ngata tse sa hlakang ha ho hlalosoa mesebetsi le litsebo tsa rasaense oa data le moenjiniere oa data. Ke hore, o ka ferekanngoa habonolo mabapi le hore na ho hlokahala litsebo life ho ba moenjiniere ea atlehileng oa data. Ehlile, ho na le litsebo tse itseng tse tsamaisanang le likarolo tseo ka bobeli. Empa ho boetse ho na le litsebo tse ngata tse hanyetsanang le diametrically.

Mahlale a data ke khoebo e tebileng, empa re ntse re lebile lefats'eng la mahlale a data a sebetsang moo litsebi li khonang ho iketsetsa li-analytics. Ho nolofalletsa lipeipi tsa data le libopeho tse kopantsoeng tsa data, o hloka baenjiniere ba data, eseng bo-rasaense ba data.

Na moenjiniere oa data o batloa ho feta rasaense oa data?

- E, hobane pele u ka etsa kuku ea rantipole, u lokela ho qala ho bokella, ho ebola le lihoete tsa stock!

Moenjineri oa data o utloisisa lenaneo ho feta rasaense leha e le ofe oa data, empa ha ho tluoa tabeng ea lipalo-palo, se fapaneng ke 'nete.

Empa mona ke molemo oa moenjiniere oa data:

Kantle ho eena, boleng ba mohlala oa mohlala, hangata o nang le sengoathoana sa khoutu ea boleng bo tšabehang faeleng ea Python, e fumanoeng ho setsebi sa data mme ka tsela e itseng e hlahisa sephetho, e atisa ho ba zero.

Ntle le moenjiniere oa data, khoutu ena e ke ke ea fetoha morero mme ha ho bothata ba khoebo bo tla rarolloa ka nepo. Moenjiniere oa data o leka ho fetola sena sohle hore e be sehlahisoa.

Lintlha tsa mantlha tseo moenjiniere oa data a lokelang ho li tseba

Baenjineri ba data ke bo-mang, 'me u ba e mong oa bona joang?

Kahoo, haeba mosebetsi ona o hlahisa leseli ho uena 'me u cheseha - u ka ithuta eona, u ka khona ho tseba litsebo tsohle tse hlokahalang' me u be naleli ea 'nete ea rock lefapheng la boenjiniere ba data. Mme, ee, o ka hula sena ntle le litsebo tsa mananeo kapa tsebo e 'ngoe ea tekheniki. Ho thata, empa hoa khoneha!

Mehato ea pele ke efe?

U lokela ho ba le mohopolo o akaretsang oa hore na ke eng.

Pele ho tsohle, Data Engineering e bua ka mahlale a khomphutha. Haholo-holo, o tlameha ho utloisisa li-algorithms tse sebetsang hantle le libopeho tsa data. Taba ea bobeli, kaha lienjineri tsa data li sebetsa ka data, hoa hlokahala ho utloisisa melao-motheo ea li-database le libopeho tse li tšehetsang.

Ka mohlala, li-database tse tloaelehileng tsa B-tree SQL li thehiloe holim'a sebopeho sa data sa B-Tree, hammoho le, libakeng tsa morao-rao tse ajoang, LSM-Tree le liphetoho tse ling tsa litafole tsa hash.

* Mehato ena e ipapisitse le sengoloa se seholo Adilya Khashtamova. Kahoo, haeba u tseba Serussia, tšehetsa mongoli enoa 'me u bale poso ea hae.

1. Li-algorithms le libopeho tsa data

Ho sebelisa sebopeho se nepahetseng sa data ho ka ntlafatsa haholo ts'ebetso ea algorithm. Ka nepo, kaofela ha rona re lokela ho ithuta ka meralo ea datha le li-algorithms likolong tsa rona, empa sena ha se hangata se buuoang. Leha ho le joalo, ha ho mohla e leng morao haholo ho tloaelana.
Kahoo ke tsena lithuto tseo ke li ratang tsa mahala tsa ho ithuta meralo ea data le li-algorithms:

Hape u se ke oa lebala ka mosebetsi oa khale oa Thomas Corman mabapi le li-algorithms - Selelekela ho Algorithms. Ena ke tšupiso e phethahetseng ha o hloka ho nchafatsa mohopolo oa hau.

  • Ho ntlafatsa tsebo ea hau, sebelisa Leetcode.

U ka boela ua ikakhela lefatšeng la li-database tse nang le livideo tse makatsang tse tsoang Univesithing ea Carnegie Mellon ho Youtube:

2. Ithute SQL

Bophelo bohle ba rona ke data. 'Me e le hore u ntše lintlha tsena ho database, u lokela ho "bua" puo e tšoanang le eona.

SQL (Structured Query Language) ke puo ea puisano sebakeng sa data. Ho sa tsotelehe seo mang kapa mang a se buang, SQL e phetse, e phela, 'me e tla phela nako e telele haholo.

Haeba esale u le nts'etsopele ka nako e telele, mohlomong u hlokometse hore menyenyetsi ea lefu le haufi la SQL e hlaha nako le nako. Puo e ile ea ntlafatsoa mathoasong a lilemo tsa bo-70 'me e ntse e tumme haholo har'a bahlahlobisisi, bahlahisi le ba chesehelang feela.
Ntle le tsebo ea SQL ha ho na letho leo u ka le etsang ho boenjiniere ba data kaha u tla tlameha ho etsa lipotso ho fumana lintlha. Libaka tsohle tsa sejoale-joale tse kholo tsa polokelo li tšehetsa SQL:

  • Redshift ea Amazon
  • HP Vertica
  • oracle
  • SQL Server

... le ba bang ba bangata.

Ho sekaseka lera le leholo la data e bolokiloeng lits'ebetsong tse ajoang joalo ka HDFS, lienjineri tsa SQL li ile tsa qaptjoa: Apache Hive, Impala, joalo-joalo Bona, ha e ea kae kapa kae.

Joang ho ithuta SQL? Etsa feela ka ts'ebetso.

Ho etsa sena, ke khothaletsa ho hlahloba thuto e ntle haholo, eo, ka tsela, e sa lefelloeng, ho tloha Mode Analytics.

  1. SQL e mahareng
  2. Ho kopanya Data ho SQL

Se etsang hore lithuto tsena e be tse ikhethang ke hore li na le tikoloho e sebelisanang moo u ka ngolang le ho tsamaisa lipotso tsa SQL ho sebatli sa hau. Mohlodi SQL ea sejoale-joale e ke ke ea e-ba e feteletseng. 'Me u ka sebelisa tsebo ena ho Mesebetsi ea leetcode karolong ea Databases.

3. Lenaneo ho Python le Java / Scala

Ke hobane'ng ha u lokela ho ithuta puo ea lenaneo la Python, ke se ke ngotse sehloohong sena Python vs R. Ho Khetha Sesebelisoa se Molemohali sa AI, ML le Data Science. Ha ho tluoa ho Java le Scala, lisebelisoa tse ngata tsa ho boloka le ho sebetsana le lintlha tse ngata li ngotsoe ka lipuo tsena. Ka mohlala:

  • Apache Kafka (Scala)
  • Hadoop, HDFS (Java)
  • Apache Spark (Scala)
  • Apache Cassandra (Java)
  • HBase (Java)
  • Apache Hive (Java)

Ho utloisisa hore na lisebelisoa tsena li sebetsa joang, o hloka ho tseba lipuo tseo li ngotsoeng ka tsona. Mokhoa oa ts'ebetso oa Scala o u lumella ho rarolla mathata a ts'ebetso e ts'oanang ea data. Python, ka bomalimabe, e ke ke ea ithorisa ka lebelo le ts'ebetso e ts'oanang. Ka kakaretso, tsebo ea lipuo tse 'maloa le li-paradigms tsa lenaneo li molemo bakeng sa bophara ba mekhoa ea ho rarolla mathata.

Ho ikakhela ka setotsoana puong ea Scala, u ka bala Lenaneo la Scala ho tsoa ho mongoli oa puo. Twitter e boetse e phatlalalitse tataiso e ntle ea selelekela - Sekolo sa Scala.

Ha e le Python, kea lumela Python e Bohlale buka e ntle ka ho fetisisa ea boemo bo bohareng.

4. Lisebelisoa tsa ho sebetsa ka data e kholo

Mona ke lenane la lisebelisoa tse tsebahalang haholo lefatšeng la data e kholo:

  • Apache Spark
  • Apache Kafka
  • Apache Hadoop (HDFS, HBase, Hive)
  • Apache cassandra

U ka fumana leseli le eketsehileng mabapi le ho haha ​​​​li-blocks tse kholo tsa data ho sena se makatsang tikoloho e sebedisanang. Lisebelisoa tse tsebahalang haholo ke Spark le Kafka. Ka sebele ba bohlokoa ho ithutoa, ho bohlokoa ho utloisisa hore na ba sebetsa joang ho tsoa kahare. Jay Kreps (sengoli-'moho le Kafka) o phatlalalitse mosebetsi oa bohlokoahali ka 2013 The Log: Seo Moqapi e mong le e mong oa Software a Lokelang ho se Tseba ka Nako ea 'Nete ea Aggregation AbstractionKa tsela, mehopolo ea mantlha e tsoang ho Talmud ena e ile ea sebelisoa ho theha Apache Kafka.

5. Leru platforms

Baenjineri ba data ke bo-mang, 'me u ba e mong oa bona joang?

Tsebo ea bonyane sethala se le seng sa maru se lethathamong la litlhoko tsa mantlha bakeng sa bakopi bakeng sa boemo ba moenjiniere oa data. Bahiri ba khetha Amazon Web Services, ka sethala sa maru sa Google sebakeng sa bobeli le Microsoft Azure e tlatsa tse tharo tse holimo.

U lokela ho ba le tsebo e ntle ea Amazon EC2, AWS Lambda, Amazon S3, DynamoDB.

6. Litsamaiso tse ajoang

Ho sebetsa ka data e kholo ho bolela ho ba teng ha lihlopha tsa lik'homphieutha tse ikemetseng, puisano pakeng tsa eona e etsoang holim'a marang-rang. Ha sehlopha se le seholo, ho na le monyetla o moholo oa ho hloleha ha litho tsa oona. Ho ba rasaense ea hloahloa oa data, o hloka ho utloisisa mathata le tharollo e teng bakeng sa litsamaiso tse ajoang. Sebaka sena ke sa khale ebile se rarahane.

Andrew Tanenbaum o nkoa e le pula-maliboho tšimong ena. Bakeng sa ba sa tšabe khopolo, ke khothaletsa buka ea hae "Sistimi e abuoang", ho ka bonahala ho le thata ho ba qalang, empa ho hlile ho tla u thusa ho ntlafatsa tsebo ea hau.

ke nahana Ho Rala Lits'ebetso tse Matlafatsang Lintlha ka Martin Kleppmann buka e ntle ka ho fetisisa ea selelekela. Ha e le hantle, Martin o na le ntho e makatsang blog. Mosebetsi oa hae o tla thusa ho hlophisa tsebo mabapi le ho aha meaho ea sejoale-joale bakeng sa ho boloka le ho sebetsana le data e kholo.
Bakeng sa ba ratang ho shebella livideo, ho na le thupelo ho Youtube Litsamaiso tsa khomphutha tse ajoang.

7. Liphaephe tsa data

Baenjineri ba data ke bo-mang, 'me u ba e mong oa bona joang?

Liphaephe tsa data ke ntho eo u ke keng ua phela ntle le eona joalo ka moenjiniere oa data.

Boholo ba nako, moenjiniere oa data o haha ​​​​seo ho thoeng ke pipeline ea data, ke hore, o etsa mokhoa oa ho fana ka data ho tloha sebakeng se seng ho ea ho se seng. Tsena e ka ba mangolo a tloaelo a eang ho API ea ts'ebeletso ea kantle kapa ho botsa SQL, ho eketsa data, le ho e beha lebenkeleng le bohareng (bobolokelo ba data) kapa lebenkeleng le sa hlophisoang la data (matša a data).

Ho akaretsa: lethathamo la mantlha la moenjiniere oa data

Baenjineri ba data ke bo-mang, 'me u ba e mong oa bona joang?

Ho akaretsa, ho hlokahala kutloisiso e ntle ea lintlha tse latelang:

  • Mekhoa ea Boitsebiso;
  • Nts'etsopele ea software (Agile, DevOps, Design Techniques, SOA);
  • Litsamaiso tse ajoang le mananeo a tšoanang;
  • Lintlha tsa motheo tsa Database - Moralo, Moralo, Ts'ebetso le Tharollo ea Mathata;
  • Moralo oa liteko - Liteko tsa A/B ho paka mehopolo, ho tseba ho ts'epahala, ts'ebetso ea sistimi, le ho nts'etsapele litsela tse tšepahalang tsa ho fana ka litharollo tse ntle kapele.

Tsena ke tse ling tsa litlhoko tsa ho ba moenjineri oa data, kahoo ithute le ho utloisisa lits'ebetso tsa data, litsamaiso tsa tlhahisoleseling, phepelo e tsoelang pele / thomello / kopanyo, lipuo tsa mananeo, le lihlooho tse ling tsa mahlale a khomphutha (eseng likarolo tsohle tsa thuto).

'Me qetellong, ntho ea ho qetela empa e le ea bohlokoa haholo eo ke batlang ho e bua.

Tsela ea ho ba Data Engineering ha e bonolo joalokaha e ka bonahala. Ha a tšoarele, oa ferekanya, 'me u tlameha ho itokisetsa sena. Linako tse ling leetong lena li ka 'na tsa u qobella hore u tele. Empa ona ke mosebetsi oa sebele le mokhoa oa ho ithuta.

Feela u se ke ua e tlotsa ka tsoekere ho tloha qalong. Ntlha eohle ea ho tsamaea ke ho ithuta ka hohle kamoo ho ka khonehang le ho itokisetsa mathata a macha.
Mona ke setšoantšo se setle seo ke se boneng se hlalosang ntlha ena hantle:

Baenjineri ba data ke bo-mang, 'me u ba e mong oa bona joang?

'Me e, hopola ho qoba ho khathala le ho phomola. Sena le sona se bohlokoa haholo. Mahlohonolo!

Le nahana'ng ka sengoloa, metsoalle? Re u mema hore u mahala webinar, e tla etsahala kajeno ka 20.00. Nakong ea webinar, re tla tšohla mokhoa oa ho haha ​​​​sistimi e sebetsang le e ka senyehang ea ts'ebetso ea data bakeng sa k'hamphani e nyane kapa ho qala ka litšenyehelo tse tlase. Joalo ka tloaelo, re tla tloaelana le lisebelisoa tsa ts'ebetso ea data ea Google Cloud. Ke tla u bona!

Source: www.habr.com

Eketsa ka tlhaloso