Tani awọn ẹlẹrọ data, ati bawo ni o ṣe di ọkan?

Hello lẹẹkansi! Awọn akọle ti awọn article soro fun ara rẹ. Ni ifojusona ti awọn ibere ti awọn dajudaju Data ẹlẹrọ A daba pe o loye tani awọn ẹlẹrọ data jẹ. Ọpọlọpọ awọn ọna asopọ to wulo ni nkan naa. Idunnu kika.

Tani awọn ẹlẹrọ data, ati bawo ni o ṣe di ọkan?

Itọsọna ti o rọrun lori bii o ṣe le yẹ igbi Imọ-ẹrọ Data ati pe ko jẹ ki o fa ọ sinu abyss.

O dabi pe gbogbo eniyan fẹ lati di Onimọ-jinlẹ data ni awọn ọjọ wọnyi. Ṣugbọn kini nipa Imọ-ẹrọ Data? Ni pataki, eyi jẹ iru arabara ti oluyanju data ati onimọ-jinlẹ data; Onimọ-ẹrọ data jẹ deede lodidi fun ṣiṣakoso ṣiṣan iṣẹ, awọn opo gigun ti epo, ati awọn ilana ETL. Nitori pataki ti awọn iṣẹ wọnyi, eyi jẹ lọwọlọwọ jargon ọjọgbọn olokiki miiran ti o n ni ipa ni itara.

Awọn owo osu giga ati ibeere nla jẹ apakan kekere ti ohun ti o jẹ ki iṣẹ yii jẹ ẹwa pupọ julọ! Ti o ba fẹ darapọ mọ awọn ipo ti awọn akọni, ko pẹ ju lati bẹrẹ ikẹkọ. Ninu ifiweranṣẹ yii, Mo ti gba gbogbo alaye pataki lati ṣe iranlọwọ fun ọ lati ṣe awọn igbesẹ akọkọ rẹ.

Nitorinaa, jẹ ki a bẹrẹ!

Kini Imọ-ẹrọ Data?

Nitootọ, ko si alaye to dara ju eyi lọ:

“Onímọ̀ sáyẹ́ǹsì lè ṣàwárí ìràwọ̀ tuntun, ṣùgbọ́n kò lè dá ọ̀kan. Oun yoo ni lati beere fun ẹlẹrọ lati ṣe fun u.”

– Gordon Lindsay Glegg

Nitorinaa, ipa ti ẹlẹrọ data jẹ pataki pupọ.

Gẹgẹbi orukọ ṣe daba, imọ-ẹrọ data jẹ ibakcdun pẹlu data, eyun ifijiṣẹ rẹ, ibi ipamọ ati sisẹ. Nitorinaa, iṣẹ akọkọ ti awọn onimọ-ẹrọ ni lati pese awọn amayederun igbẹkẹle fun data. Ti a ba wo awọn ilana AI ti awọn iwulo, imọ-ẹrọ data wa ni awọn ipele 2-3 akọkọ: gbigba, gbigbe ati ibi ipamọ, igbaradi data.

Tani awọn ẹlẹrọ data, ati bawo ni o ṣe di ọkan?

Kini ẹlẹrọ data ṣe?

Pẹlu dide ti data nla, ipari ti ojuse ti yipada ni iyalẹnu. Ti tẹlẹ awọn amoye wọnyi kowe awọn ibeere SQL nla ati data distilled nipa lilo awọn irinṣẹ bii Informatica ETL, Pentaho ETL, Talend, bayi awọn ibeere fun awọn onimọ-ẹrọ data ti pọ si.

Pupọ awọn ile-iṣẹ pẹlu awọn aye ṣiṣi fun ipo ẹlẹrọ data ni awọn ibeere wọnyi:

  • O tayọ imo ti SQL ati Python.
  • Ni iriri pẹlu awọn iru ẹrọ awọsanma, paapaa Awọn iṣẹ wẹẹbu Amazon.
  • Imọ ti Java / Scala fẹ.
  • Oye to dara ti awọn apoti isura infomesonu SQL ati NoSQL (awoṣe data, ipamọ data).

Ni lokan, iwọnyi jẹ awọn nkan pataki nikan. Lati atokọ yii, a le ro pe awọn onimọ-ẹrọ data jẹ alamọja ni aaye ti idagbasoke sọfitiwia ati ẹhin.
Fun apẹẹrẹ, ti ile-iṣẹ kan ba bẹrẹ lati ṣe agbejade iye nla ti data lati awọn orisun oriṣiriṣi, iṣẹ-ṣiṣe rẹ bi ẹlẹrọ data ni lati ṣeto akojọpọ alaye, sisẹ ati ibi ipamọ rẹ.

Atokọ awọn irinṣẹ ti a lo ninu ọran yii le yatọ, gbogbo rẹ da lori iwọn didun ti data yii, iyara ti gbigba rẹ ati iyatọ. Pupọ awọn ile-iṣẹ ko ṣe pẹlu data nla rara, nitorinaa bi ibi ipamọ aarin, ohun ti a pe ni ile itaja data, o le lo ibi ipamọ data SQL kan (PostgreSQL, MySQL, ati bẹbẹ lọ) pẹlu eto kekere ti awọn iwe afọwọkọ ti o jẹ ifunni data sinu. ile ise.

Awọn omiran IT gẹgẹbi Google, Amazon, Facebook tabi Dropbox ni awọn ibeere ti o ga julọ: imọ ti Python, Java tabi Scala.

  • Iriri pẹlu data nla: Hadoop, Spark, Kafka.
  • Imọ ti awọn algoridimu ati awọn ẹya data.
  • Agbọye awọn ipilẹ ti awọn ọna ṣiṣe pinpin.
  • Iriri pẹlu awọn irinṣẹ iworan data gẹgẹbi Tableau tabi ElasticSearch yoo jẹ afikun.

Iyẹn ni, iyipada ti o han gbangba wa si data nla, eyun ni sisẹ rẹ labẹ awọn ẹru giga. Awọn ile-iṣẹ wọnyi ni awọn ibeere ti o pọ si fun ifarada ẹbi eto.

Data Engineers Vs. data sayensi

Tani awọn ẹlẹrọ data, ati bawo ni o ṣe di ọkan?
O dara, iyẹn jẹ lafiwe ti o rọrun ati alarinrin (ko si ohun ti ara ẹni), ṣugbọn ni otitọ o jẹ idiju pupọ sii.

Ni akọkọ, o yẹ ki o mọ pe aibikita pupọ wa ninu sisọ awọn ipa ati awọn ọgbọn ti onimọ-jinlẹ data ati ẹlẹrọ data kan. Iyẹn ni, o le ni irọrun ni idamu nipa kini awọn ọgbọn ti o nilo lati jẹ ẹlẹrọ data aṣeyọri. Nitoribẹẹ, awọn ọgbọn kan wa ti o ni lqkan pẹlu awọn ipa mejeeji. Ṣugbọn awọn nọmba kan tun wa ti awọn ọgbọn atako diametrically.

Imọ-jinlẹ data jẹ iṣowo to ṣe pataki, ṣugbọn a nlọ si agbaye ti imọ-jinlẹ data iṣẹ nibiti awọn oṣiṣẹ ti ni anfani lati ṣe awọn atupale tiwọn. Lati mu awọn opo gigun ti data ṣiṣẹ ati awọn ẹya data iṣọpọ, o nilo awọn ẹlẹrọ data, kii ṣe awọn onimọ-jinlẹ data.

Njẹ ẹlẹrọ data diẹ sii ni ibeere ju onimọ-jinlẹ data lọ?

- Bẹẹni, nitori ṣaaju ki o to le ṣe akara oyinbo karọọti, o nilo lati ikore akọkọ, peeli ati awọn Karooti iṣura!

Onimọ ẹrọ data loye siseto dara julọ ju eyikeyi onimọ-jinlẹ data, ṣugbọn nigbati o ba de awọn iṣiro, idakeji jẹ otitọ.

Ṣugbọn eyi ni anfani ti ẹlẹrọ data kan:

Laisi rẹ / rẹ, iye ti awoṣe Afọwọkọ, nigbagbogbo ti o ni nkan ti koodu didara ẹru ninu faili Python kan, ti a gba lati ọdọ onimọ-jinlẹ data ati bakan ti n ṣe abajade, duro si odo.

Laisi ẹlẹrọ data, koodu yii kii yoo di iṣẹ akanṣe ati pe ko si iṣoro iṣowo ti yoo yanju ni imunadoko. Ẹlẹrọ data n gbiyanju lati yi gbogbo eyi pada si ọja kan.

Alaye ipilẹ ti ẹlẹrọ data yẹ ki o mọ

Tani awọn ẹlẹrọ data, ati bawo ni o ṣe di ọkan?

Nitorinaa, ti iṣẹ yii ba mu imọlẹ jade ninu rẹ ati pe o ni itara - o le kọ ẹkọ, o le ṣakoso gbogbo awọn ọgbọn pataki ati di irawọ apata gidi ni aaye imọ-ẹrọ data. Ati, bẹẹni, o le fa eyi kuro paapaa laisi awọn ọgbọn siseto tabi imọ-ẹrọ imọ-ẹrọ miiran. O nira, ṣugbọn o ṣee ṣe!

Kini awọn igbesẹ akọkọ?

O yẹ ki o ni imọran gbogbogbo ti kini kini.

Ni akọkọ, Imọ-ẹrọ Data tọka si imọ-ẹrọ kọnputa. Ni pataki diẹ sii, o gbọdọ loye awọn algoridimu daradara ati awọn ẹya data. Ni ẹẹkeji, niwọn igba ti awọn onimọ-ẹrọ data n ṣiṣẹ pẹlu data, o jẹ dandan lati loye awọn ipilẹ ti awọn apoti isura data ati awọn ẹya ti o wa labẹ wọn.

Fun apẹẹrẹ, awọn apoti isura infomesonu B-igi SQL da lori ilana data B-Igi, bakannaa, ni awọn ibi ipamọ ti a pin kaakiri, LSM-Igi ati awọn iyipada miiran ti awọn tabili hash.

* Awọn igbesẹ wọnyi da lori nkan nla kan Adilya Khashtamova. Nitorinaa, ti o ba mọ Russian, ṣe atilẹyin onkọwe yii ki o ka ifiweranṣẹ rẹ.

1. Awọn alugoridimu ati awọn ẹya data

Lilo eto data ti o tọ le ṣe ilọsiwaju iṣẹ ṣiṣe ti algorithm kan. Bi o ṣe yẹ, o yẹ ki gbogbo wa kọ ẹkọ nipa awọn ẹya data ati awọn algoridimu ni awọn ile-iwe wa, ṣugbọn eyi ko ṣọwọn ni aabo. Ni eyikeyi idiyele, ko pẹ ju lati ni ibatan.
Nitorinaa eyi ni awọn iṣẹ ọfẹ ayanfẹ mi fun kikọ awọn ẹya data ati awọn algoridimu:

Ni afikun maṣe gbagbe nipa iṣẹ Ayebaye Thomas Corman lori awọn algoridimu - Ifihan to alugoridimu. Eyi ni itọkasi pipe nigbati o nilo lati sọ iranti rẹ sọtun.

  • Lati mu awọn ọgbọn rẹ pọ si, lo Leetcode.

O tun le besomi sinu agbaye ti awọn data data pẹlu awọn fidio iyalẹnu lati Ile-ẹkọ giga Carnegie Mellon lori Youtube:

2. Kọ SQL

Gbogbo aye wa ni data. Ati pe lati le yọ data yii jade lati ibi ipamọ data, o nilo lati “sọ” ede kanna pẹlu rẹ.

SQL (Ede Ibeere Ti a Tito) jẹ ede ibaraẹnisọrọ ni aaye data. Laibikita ohun ti ẹnikẹni ba sọ, SQL ti wa laaye, o wa laaye, yoo si wa laaye fun igba pipẹ pupọ.

Ti o ba ti wa ni idagbasoke fun igba pipẹ, o ti ṣe akiyesi pe awọn agbasọ ọrọ nipa iku ti o sunmọ ti SQL yoo jade lorekore. Ede naa ti ni idagbasoke ni ibẹrẹ awọn ọdun 70 ati pe o tun jẹ olokiki pupọ laarin awọn atunnkanka, awọn idagbasoke ati awọn alara lasan.
Laisi imọ ti SQL ko si nkankan lati ṣe ni imọ-ẹrọ data bi o ṣe le ṣee ṣe lati ṣẹda awọn ibeere lati gba data pada. Gbogbo awọn ile itaja data nla ti ode oni ṣe atilẹyin SQL:

  • Redshift Amazon
  • HP Vertica
  • Ebora
  • Asise SQL

... ati ọpọlọpọ awọn miran.

Lati ṣe itupalẹ ipele nla ti data ti o fipamọ sinu awọn ọna ṣiṣe pinpin bii HDFS, awọn ẹrọ SQL ti ṣẹda: Apache Hive, Impala, ati bẹbẹ lọ Wo, ko lọ nibikibi.

Bawo ni lati kọ SQL? O kan ṣe ni iṣe.

Lati ṣe eyi, Emi yoo ṣeduro ṣayẹwo jade ikẹkọ ti o dara julọ, eyiti, nipasẹ ọna, jẹ ọfẹ, lati Awọn atupale ipo.

  1. SQL agbedemeji
  2. Darapọ mọ Data ni SQL

Ohun ti o jẹ ki awọn iṣẹ ikẹkọ wọnyi jẹ pataki ni pe wọn ni agbegbe ibaraenisepo nibiti o le kọ ati ṣiṣe awọn ibeere SQL ni aṣawakiri rẹ. Awọn orisun Modern SQL kii yoo jẹ superfluous. Ati pe o le lo imọ yii si Awọn iṣẹ-ṣiṣe Leetcode ni apakan Databases.

3. Siseto ni Python ati Java / Scala

Kini idi ti o yẹ ki o kọ ede siseto Python, Mo ti kọ tẹlẹ ninu nkan naa Python vs R. Yiyan Ọpa Ti o dara julọ fun AI, ML ati Imọ-jinlẹ data. Nigbati o ba de Java ati Scala, pupọ julọ awọn irinṣẹ fun titoju ati sisẹ data lọpọlọpọ ni a kọ sinu awọn ede wọnyi. Fun apere:

  • Apache Kafka (Scala)
  • Hadoop, HDFS (Java)
  • Apache Spark (Scala)
  • Apache Cassandra (Java)
  • HBase (Java)
  • Ile Agbon Apache (Java)

Lati loye bi awọn irinṣẹ wọnyi ṣe n ṣiṣẹ, o nilo lati mọ awọn ede ti a kọ wọn. Ọna iṣẹ ṣiṣe Scala gba ọ laaye lati yanju awọn iṣoro sisẹ data ni afiwe. Python, laanu, ko le ṣogo ti iyara ati sisẹ ni afiwe. Ni gbogbogbo, imọ ti awọn ede pupọ ati awọn ilana siseto jẹ dara fun iwọn awọn ọna lati yanju awọn iṣoro.

Lati besomi sinu ede Scala, o le ka Siseto ni Scala lati onkọwe ede naa. Twitter tun ṣe atẹjade itọsọna ifọrọwerọ to dara - Ile-iwe Scala.

Bi fun Python, Mo gbagbọ Fluent Python ti o dara ju arin ipele iwe.

4. Awọn irinṣẹ fun ṣiṣẹ pẹlu data nla

Eyi ni atokọ ti awọn irinṣẹ olokiki julọ ni agbaye ti data nla:

  • Agbejade Afun
  • Afun Kafka
  • Apache Hadoop (HDFS, HBase, Ile Agbon)
  • Apache cassandra

O le wa alaye diẹ sii nipa kikọ awọn bulọọki data nla ni iyalẹnu yii ibanisọrọ ayika. Awọn irinṣẹ olokiki julọ jẹ Spark ati Kafka. Dajudaju wọn tọsi ikẹkọ, o ni imọran lati ni oye bi wọn ṣe n ṣiṣẹ lati inu. Jay Kreps (alakowe ti Kafka) ṣe atẹjade iṣẹ nla kan ni ọdun 2013 Wọle: Ohun ti Gbogbo Olùgbéejáde sọfitiwia yẹ ki o Mọ Nipa Abstraction Akopọ Data Akoko-gidiNipa ọna, awọn ero akọkọ lati Talmud yii ni a lo lati ṣẹda Apache Kafka.

5. Awọn iru ẹrọ awọsanma

Tani awọn ẹlẹrọ data, ati bawo ni o ṣe di ọkan?

Imọ ti o kere ju Syeed awọsanma kan wa lori atokọ ti awọn ibeere ipilẹ fun awọn olubẹwẹ fun ipo ẹlẹrọ data. Awọn agbanisiṣẹ fẹran Awọn iṣẹ Oju opo wẹẹbu Amazon, pẹlu pẹpẹ awọsanma Google ni aaye keji ati Microsoft Azure yika awọn mẹta ti o ga julọ.

O gbọdọ ni oye to dara ti Amazon EC2, AWS Lambda, Amazon S3, DynamoDB.

6. Pinpin awọn ọna šiše

Nṣiṣẹ pẹlu data nla tumọ si wiwa awọn iṣupọ ti awọn kọnputa ti n ṣiṣẹ ni ominira, ibaraẹnisọrọ laarin eyiti o ṣee ṣe lori nẹtiwọọki kan. Ti iṣupọ naa ba tobi, o pọju iṣeeṣe ikuna ti awọn apa ẹgbẹ rẹ. Lati di onimọ-jinlẹ data nla, o nilo lati loye awọn iṣoro ati awọn solusan ti o wa fun awọn eto pinpin. Agbegbe yi jẹ atijọ ati eka.

Andrew Tanenbaum jẹ aṣaaju-ọna ni aaye yii. Fun awọn ti ko bẹru ti ẹkọ, Mo ṣeduro iwe rẹ "Awọn ọna ṣiṣe pinpin", o le dabi ohun ìdàláàmú fun olubere, ṣugbọn o yoo gan ran o hone rẹ ogbon.

Mo ro pe Ṣiṣeto Awọn ohun elo Ikilọ Data nipasẹ Martin Kleppmann ti o dara ju iforo iwe. Nipa ọna, Martin ni iyanu bulọọgi. Iṣẹ rẹ yoo ṣe iranlọwọ eto eto imọ nipa kikọ awọn amayederun ode oni fun titoju ati sisẹ data nla.
Fun awọn ti o nifẹ lati wo awọn fidio, ẹkọ kan wa lori Youtube Pinpin kọmputa awọn ọna šiše.

7. Data pipelines

Tani awọn ẹlẹrọ data, ati bawo ni o ṣe di ọkan?

Awọn pipeline data jẹ nkan ti o ko le gbe laisi bi ẹlẹrọ data.

Ni ọpọlọpọ igba, ẹlẹrọ data kan kọ ohun ti a pe ni opo gigun ti data, iyẹn ni, o ṣẹda ilana kan fun jiṣẹ data lati ibi kan si ibomiiran. Iwọnyi le jẹ awọn iwe afọwọkọ aṣa ti o lọ si API iṣẹ ita tabi ṣe ibeere SQL kan, mu data pọ si, ki o si fi sii sinu ile itaja ti aarin (ibi ipamọ data) tabi ile itaja data ti ko ṣeto (awọn adagun data).

Lati ṣe akopọ: atokọ ayẹwo ipilẹ fun ẹlẹrọ data

Tani awọn ẹlẹrọ data, ati bawo ni o ṣe di ọkan?

Lati ṣe akopọ, oye to dara ti atẹle ni a nilo:

  • Awọn ọna Alaye;
  • Idagbasoke sọfitiwia (Agile, DevOps, Awọn ilana Oniru, SOA);
  • Awọn ọna ṣiṣe pinpin ati siseto ti o jọra;
  • Awọn ipilẹ aaye data - Eto, Apẹrẹ, Ṣiṣẹ ati Laasigbotitusita;
  • Apẹrẹ ti awọn adanwo - Awọn idanwo A/B lati jẹri awọn imọran, pinnu igbẹkẹle, iṣẹ ṣiṣe eto, ati idagbasoke awọn ipa ọna igbẹkẹle lati fi awọn ojutu to dara han ni iyara.

Iwọnyi jẹ diẹ ninu awọn ibeere lati di ẹlẹrọ data, nitorinaa kọ ẹkọ ati loye awọn eto data, awọn eto alaye, ifijiṣẹ ilọsiwaju / imuṣiṣẹ / isọpọ, awọn ede siseto, ati awọn akọle imọ-ẹrọ kọnputa miiran (kii ṣe gbogbo awọn agbegbe koko-ọrọ).

Ati nikẹhin, ohun ti o kẹhin ṣugbọn pataki pupọ Mo fẹ sọ.

Ọna lati di Imọ-ẹrọ Data kii ṣe rọrun bi o ti le dabi. Ko dariji, o ni ibanujẹ, ati pe o gbọdọ wa ni imurasilẹ fun eyi. Awọn akoko diẹ ninu irin-ajo yii le fa ọ lati juwọ silẹ. Ṣugbọn eyi jẹ iṣẹ gidi ati ilana ikẹkọ.

O kan ma ṣe sugarcoat lati ibẹrẹ. Gbogbo aaye ti irin-ajo ni lati kọ ẹkọ bi o ti ṣee ṣe ki o ṣetan fun awọn italaya tuntun.
Eyi ni aworan nla kan ti Mo rii ti o ṣapejuwe aaye yii daradara:

Tani awọn ẹlẹrọ data, ati bawo ni o ṣe di ọkan?

Ati bẹẹni, ranti lati yago fun sisun ati isinmi. Eyi tun ṣe pataki pupọ. Orire daada!

Kini o ro nipa nkan naa, awọn ọrẹ? A pe o lati free webinar, eyi ti yoo waye loni ni 20.00. Lakoko webinar, a yoo jiroro bi o ṣe le kọ eto imuṣiṣẹ data ti o munadoko ati iwọn fun ile-iṣẹ kekere tabi ibẹrẹ ni idiyele kekere. Gẹgẹbi iṣe, a yoo ni oye pẹlu awọn irinṣẹ ṣiṣe data Google Cloud. Wo e!

orisun: www.habr.com

Fi ọrọìwòye kun