Cé hiad innealtóirí sonraí, agus conas a thagann tú chun bheith i do dhuine amháin?

Dia duit arís! Labhraíonn teideal an ailt ar a shon féin. Ag súil le tús an chúrsa Innealtóir Sonraí Molaimid go dtuigeann tú cé hiad na hinnealtóirí sonraí. Tá go leor naisc úsáideacha san alt. Léamh sona.

Cé hiad innealtóirí sonraí, agus conas a thagann tú chun bheith i do dhuine amháin?

Treoir shimplí ar conas an tonn Innealtóireachta Sonraí a ghabháil agus gan ligean dó tú a tharraingt isteach sa duibheagán.

Is cosúil go bhfuil gach duine ag iarraidh a bheith ina Eolaí Sonraí na laethanta seo. Ach cad faoi Innealtóireacht Sonraí? Go bunúsach, is cineál hibrideach é seo idir anailísí sonraí agus eolaí sonraí; Is gnách go mbíonn innealtóir sonraí freagrach as sreafaí oibre, píblínte próiseála, agus próisis ETL a bhainistiú. Mar gheall ar thábhacht na bhfeidhmeanna seo, is béarlagair gairmiúil eile é seo a bhfuil an-tóir air agus atá ag dul i méid go gníomhach.

Níl sna tuarastail arda agus an t-éileamh ollmhór ach cuid bheag den obair a dhéanann an post seo thar a bheith tarraingteach! Más mian leat a bheith páirteach i ngrád na laochra, ní bhíonn sé ró-dhéanach riamh tosú ar an bhfoghlaim. Sa phost seo, tá an fhaisnéis riachtanach go léir bailithe agam chun cabhrú leat do chéad chéimeanna a ghlacadh.

Mar sin, tosaímid!

Cad is Innealtóireacht Sonraí ann?

Go hionraic, níl aon mhíniú níos fearr ná seo:

“Is féidir le heolaí réalta nua a aimsiú, ach ní féidir leis réalta a chruthú. Beidh air iarraidh ar innealtóir é a dhéanamh dó."

– Gordon Lindsay Glegg

Mar sin, tá ról an innealtóra sonraí suntasach go leor.

Mar a thugann an t-ainm le tuiscint, baineann innealtóireacht sonraí le sonraí, eadhon a sheachadadh, a stóráil agus a phróiseáil. Dá réir sin, is é príomhthasc na n-innealtóirí bonneagar iontaofa sonraí a sholáthar. Má fhéachaimid ar ordlathas riachtanas AI, tá an chéad 2-3 chéim ag innealtóireacht sonraí: bailiú, gluaiseacht agus stóráil, ullmhú sonraí.

Cé hiad innealtóirí sonraí, agus conas a thagann tú chun bheith i do dhuine amháin?

Cad a dhéanann innealtóir sonraí?

Le teacht na sonraí móra, tá athrú mór tagtha ar raon feidhme na freagrachta. Más rud é roimhe seo scríobh na saineolaithe seo ceisteanna móra SQL agus rinne siad sonraí driogtha ag baint úsáide as uirlisí mar Informatica ETL, Pentaho ETL, Talend, anois tá na ceanglais maidir le hinnealtóirí sonraí méadaithe.

Tá na ceanglais seo a leanas ag formhór na gcuideachtaí a bhfuil folúntais oscailte acu don phost mar innealtóir sonraí:

  • Eolas den scoth ar SQL agus Python.
  • Taithí le hardáin scamall, go háirithe Seirbhísí Gréasáin Amazon.
  • Is fearr eolas ar Java/Scal.
  • Tuiscint mhaith ar bhunachair shonraí SQL agus NoSQL (samhaltú sonraí, trádstóráil sonraí).

Coinnigh i gcuimhne, nach bhfuil iontu seo ach na bunghnéithe. Ón liosta seo, is féidir glacadh leis gur speisialtóirí iad innealtóirí sonraí i réimse na forbartha bogearraí agus an t-inneall.
Mar shampla, má thosaíonn cuideachta ag giniúint cuid mhór sonraí ó fhoinsí éagsúla, is é an tasc atá agat mar innealtóir sonraí ná bailiú faisnéise, a phróiseáil agus a stóráil a eagrú.

Féadfaidh liosta na n-uirlisí a úsáidtear sa chás seo a bheith difriúil, braitheann sé go léir ar mhéid na sonraí seo, luas a fháil agus ilchineálacht. Ní dhéileálann formhór na gcuideachtaí le sonraí móra ar chor ar bith, mar sin mar stór láraithe, stóras sonraí mar a thugtar air, is féidir leat bunachar sonraí SQL (PostgreSQL, MySQL, etc.) a úsáid le sraith bheag scripteanna a chuireann na sonraí isteach. an stóras.

Tá riachtanais níos airde ag fathaigh TF ar nós Google, Amazon, Facebook nó Dropbox: eolas ar Python, Java nó Scala.

  • Taithí le sonraí móra: Hadoop, Spark, Kafka.
  • Eolas ar halgartaim agus struchtúir sonraí.
  • Bunús na gcóras dáilte a thuiscint.
  • Is buntáiste a bheidh sa taithí ar uirlisí léirshamhlaithe sonraí ar nós Tableau nó ElasticSearch.

Is é sin, tá aistriú soiléir i dtreo sonraí móra, eadhon ina phróiseáil faoi ualaí arda. Tá ceanglais mhéadaithe ag na cuideachtaí seo maidir le lamháltas lochtanna córais.

Innealtóirí Sonraí Vs. eolaithe sonraí

Cé hiad innealtóirí sonraí, agus conas a thagann tú chun bheith i do dhuine amháin?
Ceart go leor, ba chomparáid shimplí agus ghreannmhar a bhí ann (rud ar bith pearsanta), ach i ndáiríre tá sé i bhfad níos casta.

Ar an gcéad dul síos, ba chóir go mbeadh a fhios agat go bhfuil go leor débhrí ann maidir le róil agus scileanna eolaí sonraí agus innealtóra sonraí a leagan amach. Is é sin, is féidir go mbeadh mearbhall ort go héasca faoi na scileanna atá de dhíth le bheith i do innealtóir sonraí rathúil. Ar ndóigh, tá scileanna áirithe ann a fhorluíonn leis an dá ról. Ach tá roinnt scileanna trastomhaiste ann freisin.

Is gnó tromchúiseach í eolaíocht sonraí, ach táimid ag bogadh i dtreo domhan eolaíochta sonraí feidhme ina bhfuil cleachtóirí in ann a gcuid anailísíochta féin a dhéanamh. Chun píblínte sonraí agus struchtúir sonraí chomhtháite a chumasú, ní mór duit innealtóirí sonraí, ní eolaithe sonraí.

An bhfuil níos mó éileamh ar innealtóir sonraí ná ar eolaí sonraí?

- Sea, mar sular féidir leat císte cairéad a dhéanamh, ní mór duit cairéid a bhailiú, a craiceann agus a stocáil ar dtús!

Tuigeann innealtóir sonraí cláir níos fearr ná aon eolaí sonraí, ach nuair a thagann sé le staitisticí, tá a mhalairt fíor.

Ach seo é an buntáiste a bhaineann le innealtóir sonraí:

Gan é/í, is gnách go mbíonn luach an mhúnla fréamhshamhail, arb é atá ann go minic ná píosa cód cáilíochta uafásach i gcomhad Python, a fhaightear ó eolaí sonraí agus a tháirgeann toradh ar bhealach éigin, go nialas.

Gan innealtóir sonraí, ní bheidh an cód seo ina thionscadal choíche agus ní dhéanfar aon fhadhb ghnó a réiteach go héifeachtach. Tá an t-innealtóir sonraí ag iarraidh é seo go léir a thiontú ina tháirge.

Eolas bunúsach ba chóir go mbeadh a fhios ag innealtóir sonraí

Cé hiad innealtóirí sonraí, agus conas a thagann tú chun bheith i do dhuine amháin?

Mar sin, má thugann an post seo amach an solas ionat agus go bhfuil tú díograiseach - is féidir leat é a fhoghlaim, is féidir leat na scileanna riachtanacha go léir a mháistir agus a bheith ina réalta carraig fíor i réimse na hinnealtóireachta sonraí. Agus, is féidir, is féidir leat é seo a bhaint fiú gan scileanna ríomhchláraithe nó eolas teicniúil eile. Tá sé deacair, ach is féidir!

Cad iad na chéad chéimeanna?

Ba cheart go mbeadh smaoineamh ginearálta agat ar cad é cad é.

Ar an gcéad dul síos, tagraíonn Innealtóireacht Sonraí don eolaíocht ríomhaireachta. Go sonrach, ní mór duit algartaim éifeachtacha agus struchtúir sonraí a thuiscint. Ar an dara dul síos, ós rud é go n-oibríonn innealtóirí sonraí le sonraí, is gá prionsabail na mbunachair sonraí agus na struchtúir atá mar bhonn leo a thuiscint.

Mar shampla, tá bunachair shonraí traidisiúnta B-crann SQL bunaithe ar an struchtúr sonraí B-Tree, chomh maith le, i stórtha dáilte nua-aimseartha, LSM-Tree agus modhnuithe eile ar tháblaí hash.

*Tá na céimeanna seo bunaithe ar alt iontach Adilya Khashtamov. Mar sin, má tá aithne agat ar Rúisis, tacaigh leis an údar seo agus léigh a phost.

1. Algartam agus struchtúir sonraí

Is féidir feabhas suntasach a chur ar fheidhmíocht algartam trí úsáid a bhaint as an struchtúr sonraí ceart. Go hidéalach, ba cheart dúinn go léir a bheith ag foghlaim faoi struchtúir sonraí agus algartaim inár scoileanna, ach is annamh a chlúdaítear é seo. In aon chás, ní bhíonn sé ró-dhéanach riamh dul i dtaithí.
Mar sin seo chugat na cúrsaí saor in aisce is fearr liom chun struchtúir sonraí agus halgartaim a fhoghlaim:

Ina theannta sin, ná déan dearmad faoi shaothar clasaiceach Thomas Corman ar algartaim - Réamhrá ar halgartaim. Is é seo an tagairt foirfe nuair is gá duit do chuimhne a athnuachan.

  • Chun do scileanna a fheabhsú, bain úsáid as Leetcode.

Is féidir leat dul isteach i saol na mbunachair shonraí freisin le físeáin iontacha ó Ollscoil Carnegie Mellon ar Youtube:

2. Foghlaim SQL

Is sonraí é ár saol iomlán. Agus chun na sonraí seo a bhaint as an mbunachar sonraí, ní mór duit an teanga chéanna a “labhairt” leis.

Is é SQL (Teanga Ceist Struchtúrtha) an teanga cumarsáide san fhearann ​​sonraí. Is cuma cad a deir duine ar bith, tá SQL ina chónaí, tá sé beo, agus beidh sé beo ar feadh tréimhse an-fhada.

Má tá tú ag forbairt le fada an lá, is dócha gur thug tú faoi deara go dtagann ráflaí faoi bhás SQL ar tí ó am go chéile. Forbraíodh an teanga go luath sna 70í agus tá an-tóir uirthi fós i measc anailísithe, forbróirí agus díograiseoirí go simplí.
Gan eolas ar SQL níl aon rud le déanamh san innealtóireacht sonraí mar beidh ort fiosrúcháin a chruthú chun sonraí a aisghabháil. Tacaíonn gach mórstóras sonraí nua-aimseartha le SQL:

  • Redshift Amazon
  • HP Vertica
  • Oracle
  • SQL Server

... agus go leor eile.

Chun anailís a dhéanamh ar shraith mhór sonraí atá stóráilte i gcórais dáilte cosúil le HDFS, cumadh innill SQL: Apache Hive, Impala, etc. Féach, níl sé ag dul in áit ar bith.

Conas SQL a fhoghlaim? Just a dhéanamh i gcleachtas.

Chun seo a dhéanamh, ba mhaith liom a mholadh seiceáil amach teagaisc den scoth, atá, dála an scéil, saor in aisce, ó Mód Analytics.

  1. SQL idirmheánach
  2. Sonraí a Chomhcheangal i SQL

Is é an rud a dhéanann na cúrsaí seo go speisialta ná go bhfuil timpeallacht idirghníomhach acu inar féidir leat ceisteanna SQL a scríobh agus a rith díreach i do bhrabhsálaí. Acmhainn SQL nua-aimseartha ní bheidh iomarcach. Agus is féidir leat an t-eolas seo a chur i bhfeidhm ar Tascanna leetcode sa rannóg Bunachair Sonraí.

3. Ríomhchlárú i Python agus Java/Scal

Cén fáth ar chóir duit an teanga cláir Python a fhoghlaim, scríobh mé cheana féin san alt Python vs R. Roghnú an Uirlis is Fearr le haghaidh AI, ML agus Eolaíocht Sonraí. Maidir le Java agus Scala, tá formhór na n-uirlisí chun méideanna ollmhóra sonraí a stóráil agus a phróiseáil scríofa sna teangacha seo. Mar shampla:

  • Apache Kafka (Scala)
  • Hadoop, HDFS (Java)
  • Apache Spark (Scala)
  • Apache Cassandra (Java)
  • HBase (Java)
  • Apache Hive (Java)

Chun tuiscint a fháil ar an gcaoi a n-oibríonn na huirlisí seo, ní mór duit fios a bheith agat ar na teangacha ina bhfuil siad scríofa. Ligeann cur chuige feidhmiúil Scala duit fadhbanna próiseála sonraí comhthreomhara a réiteach go héifeachtach. Ar an drochuair, ní féidir le Python boast de luas agus próiseáil chomhthreomhar. Go ginearálta, tá eolas ar theangacha éagsúla agus paraidímí ríomhchlárúcháin go maith maidir le fairsinge na gcur chuige chun fadhbanna a réiteach.

Chun tumadóireacht a dhéanamh isteach sa teanga Scala, is féidir leat léamh Clárú i Scala ó údar na teanga. D’fhoilsigh Twitter treoirleabhar maith tosaigh freisin - Scoil Scala.

Maidir le Python, creidim Python líofa Íoslódáil an leabhar is fearr meánleibhéal.

4. Uirlisí le haghaidh oibriú le sonraí móra

Seo liosta de na huirlisí is coitianta i saol na sonraí móra:

  • Apache Spark
  • Apache Kafka
  • Apache Hadoop (HDFS, HBase, Hive)
  • Apache Cassandra

Is féidir leat tuilleadh eolais a fháil maidir le bloic mhóra sonraí a thógáil san iontach seo timpeallacht idirghníomhach. Is iad na huirlisí is coitianta ná Spark agus Kafka. Is cinnte gur fiú staidéar a dhéanamh orthu, tá sé inmholta tuiscint a fháil ar an gcaoi a n-oibríonn siad ón taobh istigh. D’fhoilsigh Jay Kreps (comhúdar Kafka) saothar cuimhneacháin in 2013 An Loga: Rudaí Ar Chóir do Gach Forbróir Bogearraí a bheith ar Eolas Faoi Fhíor-Ama Asbhaint Comhiomlánaithe SonraíDála an scéil, baineadh úsáid as na príomh-smaointe ón Talmud seo chun Apache Kafka a chruthú.

5. Ardáin scamall

Cé hiad innealtóirí sonraí, agus conas a thagann tú chun bheith i do dhuine amháin?

Tá eolas ar ardán néil amháin ar a laghad ar liosta na mbunriachtanais d’iarratasóirí ar phost mar innealtóir sonraí. Is fearr le fostóirí Amazon Web Services, le hardán scamall Google sa dara háit agus Microsoft Azure ag slánú na dtrí cinn is fearr.

Caithfidh eolas maith a bheith agat ar Amazon EC2, AWS Lambda, Amazon S3, DynamoDB.

6. Córais dáilte

Ciallaíonn oibriú le sonraí móra go bhfuil braislí de ríomhairí a oibríonn go neamhspleách i láthair, a ndéantar cumarsáid eatarthu thar líonra. Dá mhéad an braisle, is mó an dóchúlacht go gclisfidh ar na nóid bhall. Chun a bheith i do eolaí sonraí iontach, ní mór duit na fadhbanna agus na réitigh atá ann do chórais dáilte a thuiscint. Tá an réimse seo sean agus casta.

Meastar go bhfuil Andrew Tanenbaum ina cheannródaí sa réimse seo. Dóibh siúd nach bhfuil eagla orthu roimh theoiric, molaim a leabhar "Córais Dáilte", d'fhéadfadh sé a bheith scanrúil do thosaitheoirí, ach cabhróidh sé go mór leat do scileanna a fheabhsú.

Ceapaim Ag Dearadh Feidhmchláir Diansonraí le Martin Kleppmann leabhar tosaigh is fearr. Dála an scéil, tá rud iontach ag Martin blog. Cabhróidh a chuid oibre le heolas a chórasú ar bhonneagar nua-aimseartha a thógáil chun sonraí móra a stóráil agus a phróiseáil.
Dóibh siúd ar mhaith leo féachaint ar fhíseáin, tá cúrsa ar Youtube Córais ríomhaireachta dáilte.

7. Píblínte sonraí

Cé hiad innealtóirí sonraí, agus conas a thagann tú chun bheith i do dhuine amháin?

Is rud é píblínte sonraí nach féidir leat maireachtáil gan mar innealtóir sonraí.

An chuid is mó den am, tógann innealtóir sonraí píblíne sonraí mar a thugtar air, is é sin, cruthaíonn sé próiseas chun sonraí a sheachadadh ó áit amháin go háit eile. D’fhéadfadh gur scripteanna saincheaptha iad a théann chuig API seirbhís sheachtrach nó a dhéanann ceist SQL, a mhéadaíonn na sonraí, agus a chuireann isteach i stór láraithe (stóras sonraí) nó i stór sonraí neamhstruchtúrtha (lochanna sonraí).

Mar achoimre: an seicliosta bunúsach d'innealtóir sonraí

Cé hiad innealtóirí sonraí, agus conas a thagann tú chun bheith i do dhuine amháin?

Mar achoimre, tá tuiscint mhaith ar na nithe seo a leanas ag teastáil:

  • Córais Faisnéise;
  • Forbairt bogearraí (Agile, DevOps, Design Techniques, SOA);
  • Córais dáilte agus ríomhchlárú comhthreomhar;
  • Bunús an Bhunachair Sonraí - Pleanáil, Dearadh, Oibriú agus Fabhtcheartú;
  • Dearadh turgnaimh - Trialacha A/B chun coincheapa a chruthú, iontaofacht, feidhmíocht an chórais a chinneadh, agus bealaí iontaofa a fhorbairt chun réitigh mhaithe a sheachadadh go tapa.

Níl iontu seo ach cuid de na riachtanais le bheith i do innealtóir sonraí, mar sin foghlaim agus tuiscint a fháil ar chórais sonraí, córais faisnéise, seachadadh/imscaradh/comhtháthú leanúnach, teangacha ríomhchlárúcháin, agus topaicí eile ríomheolaíocht (ní gach ábhar).

Agus ar deireadh, an rud deireanach ach an-tábhachtach ba mhaith liom a rá.

Níl an bealach chun bheith ina Innealtóireacht Sonraí chomh simplí agus a d'fhéadfadh sé a bheith cosúil. Ní dhéanann sé logh, cuireann sé frustrachas, agus ní mór duit a bheith ullamh dó seo. D'fhéadfadh roinnt chuimhneacháin sa turas seo tú a bhrú chun éirí as. Ach is fíorobair agus próiseas foghlama é seo.

Ná cuir cóta siúcra air ón tús. Is é an pointe taistil iomlán a fhoghlaim oiread agus is féidir agus a bheith réidh le haghaidh dúshláin nua.
Seo pictiúr iontach ar tháinig mé trasna air a léiríonn an pointe seo go maith:

Cé hiad innealtóirí sonraí, agus conas a thagann tú chun bheith i do dhuine amháin?

Agus tá, cuimhnigh a sheachaint burnout agus scíthe. Tá sé seo an-tábhachtach freisin. Ádh mór!

Cad a cheapann sibh den alt, a chairde? Tugaimid cuireadh duit a webinar saor in aisce, a bheidh ar siúl inniu ag 20.00. Le linn an webinar, déanfaimid plé ar conas córas próiseála sonraí éifeachtach agus Inscálaithe a thógáil do chuideachta bheag nó do ghnóthas tosaithe ar an gcostas íosta. Mar chleachtas, cuirfimid uirlisí próiseála sonraí Google Cloud i dtaithí. Féach leat!

Foinse: will.com

Add a comment