Pwy yw peirianwyr data, a sut ydych chi'n dod yn un?

Helo eto! Mae teitl yr erthygl yn siarad drosto'i hun. Gan ragweld dechrau'r cwrs Peiriannydd Data Rydym yn awgrymu eich bod yn deall pwy yw peirianwyr data. Mae yna lawer o ddolenni defnyddiol yn yr erthygl. Darllen hapus.

Pwy yw peirianwyr data, a sut ydych chi'n dod yn un?

Canllaw syml ar sut i ddal y don Peirianneg Data a pheidio â gadael iddi eich llusgo i'r affwys.

Mae'n ymddangos bod pawb eisiau dod yn Wyddonydd Data y dyddiau hyn. Ond beth am Beirianneg Data? Yn y bôn, mae hwn yn fath o hybrid o ddadansoddwr data a gwyddonydd data; Mae peiriannydd data fel arfer yn gyfrifol am reoli llifoedd gwaith, prosesu piblinellau, a phrosesau ETL. Oherwydd pwysigrwydd y swyddogaethau hyn, mae hwn ar hyn o bryd yn jargon proffesiynol poblogaidd arall sy'n ennill momentwm.

Dim ond rhan fach o'r hyn sy'n gwneud y swydd hon yn hynod ddeniadol yw cyflogau uchel a galw enfawr! Os ydych chi am ymuno â'r rhengoedd o arwyr, nid yw byth yn rhy hwyr i ddechrau dysgu. Yn y swydd hon, rwyf wedi casglu'r holl wybodaeth angenrheidiol i'ch helpu i gymryd eich camau cyntaf.

Felly gadewch i ni ddechrau!

Beth yw Peirianneg Data?

Yn onest, nid oes esboniad gwell na hyn:

“Gall gwyddonydd ddarganfod seren newydd, ond ni all greu un. Bydd yn rhaid iddo ofyn i beiriannydd wneud hynny iddo."

– Gordon Lindsay Glegg

Felly, mae rôl peiriannydd data yn eithaf arwyddocaol.

Fel y mae'r enw'n awgrymu, mae peirianneg data yn ymwneud â data, sef ei gyflenwi, ei storio a'i brosesu. Yn unol â hynny, prif dasg peirianwyr yw darparu seilwaith dibynadwy ar gyfer data. Os edrychwn ar hierarchaeth anghenion AI, mae peirianneg data yn cymryd y 2-3 cham cyntaf: casglu, symud a storio, paratoi data.

Pwy yw peirianwyr data, a sut ydych chi'n dod yn un?

Beth mae peiriannydd data yn ei wneud?

Gyda dyfodiad data mawr, mae cwmpas cyfrifoldeb wedi newid yn ddramatig. Os o'r blaen roedd yr arbenigwyr hyn yn ysgrifennu ymholiadau SQL mawr ac yn distyllu data gan ddefnyddio offer megis Informatica ETL, Pentaho ETL, Talend, nawr mae'r gofynion ar gyfer peirianwyr data wedi cynyddu.

Mae gan y rhan fwyaf o gwmnïau sydd â swyddi gwag agored ar gyfer swydd peiriannydd data y gofynion canlynol:

  • Gwybodaeth ardderchog o SQL a Python.
  • Profiad gyda llwyfannau cwmwl, yn enwedig Amazon Web Services.
  • Gwybodaeth o Java/Scala yn well.
  • Dealltwriaeth dda o gronfeydd data SQL a NoSQL (modelu data, warysau data).

Cofiwch, dim ond yr hanfodion yw'r rhain. O'r rhestr hon, gellir rhagdybio bod peirianwyr data yn arbenigwyr ym maes datblygu meddalwedd a chefndir.
Er enghraifft, os yw cwmni'n dechrau cynhyrchu llawer iawn o ddata o wahanol ffynonellau, eich tasg fel peiriannydd data yw trefnu casglu gwybodaeth, ei phrosesu a'i storio.

Gall y rhestr o offer a ddefnyddir yn yr achos hwn fod yn wahanol, mae'r cyfan yn dibynnu ar gyfaint y data hwn, cyflymder ei dderbyn a heterogenedd. Nid yw'r rhan fwyaf o gwmnïau'n delio â data mawr o gwbl, felly fel storfa ganolog, warws data fel y'i gelwir, gallwch ddefnyddio cronfa ddata SQL (PostgreSQL, MySQL, ac ati) gyda set fach o sgriptiau sy'n bwydo'r data i mewn. y warws.

Mae gan gewri TG fel Google, Amazon, Facebook neu Dropbox ofynion uwch: gwybodaeth am Python, Java neu Scala.

  • Profiad gyda data mawr: Hadoop, Spark, Kafka.
  • Gwybodaeth am algorithmau a strwythurau data.
  • Deall hanfodion systemau gwasgaredig.
  • Bydd profiad gydag offer delweddu data fel Tableau neu ElasticSearch yn fantais.

Hynny yw, mae symudiad amlwg tuag at ddata mawr, sef yn ei brosesu o dan lwythi uchel. Mae'r cwmnïau hyn wedi cynyddu gofynion ar gyfer goddefgarwch namau system.

Peirianwyr Data Vs. gwyddonwyr data

Pwy yw peirianwyr data, a sut ydych chi'n dod yn un?
Iawn, roedd honno'n gymhariaeth syml a doniol (dim byd personol), ond mewn gwirionedd mae'n llawer mwy cymhleth.

Yn gyntaf, dylech wybod bod llawer o amwysedd yn y diffiniad o rolau a sgiliau gwyddonydd data a pheiriannydd data. Hynny yw, mae'n hawdd eich drysu ynghylch pa sgiliau sydd eu hangen i fod yn beiriannydd data llwyddiannus. Wrth gwrs, mae rhai sgiliau sy'n gorgyffwrdd â'r ddwy rôl. Ond mae yna hefyd nifer o sgiliau sy'n groes i'w gilydd.

Mae gwyddor data yn fusnes difrifol, ond rydym yn symud tuag at fyd gwyddor data swyddogaethol lle mae ymarferwyr yn gallu gwneud eu dadansoddeg eu hunain. Er mwyn galluogi piblinellau data a strwythurau data integredig, mae angen peirianwyr data arnoch chi, nid gwyddonwyr data.

A oes mwy o alw am beiriannydd data na gwyddonydd data?

- Oes, oherwydd cyn y gallwch chi wneud cacen foron, yn gyntaf mae angen i chi gasglu, plicio a stocio moron!

Mae peiriannydd data yn deall rhaglennu yn well nag unrhyw wyddonydd data, ond o ran ystadegau, mae'r gwrthwyneb yn wir.

Ond dyma fantais peiriannydd data:

Hebddo ef / hi, mae gwerth y model prototeip, sy'n aml yn cynnwys darn o god ansawdd ofnadwy mewn ffeil Python, a gafwyd gan wyddonydd data ac sy'n cynhyrchu canlyniad rywsut, yn tueddu i sero.

Heb beiriannydd data, ni fydd y cod hwn byth yn dod yn brosiect ac ni fydd unrhyw broblem fusnes yn cael ei datrys yn effeithiol. Mae'r peiriannydd data yn ceisio troi hyn i gyd yn gynnyrch.

Gwybodaeth sylfaenol y dylai peiriannydd data ei gwybod

Pwy yw peirianwyr data, a sut ydych chi'n dod yn un?

Felly, os yw'r swydd hon yn dod â'r golau allan ynoch chi a'ch bod chi'n frwdfrydig - gallwch chi ei ddysgu, gallwch chi feistroli'r holl sgiliau angenrheidiol a dod yn seren roc go iawn ym maes peirianneg data. Ac, ie, gallwch chi dynnu hyn i ffwrdd hyd yn oed heb sgiliau rhaglennu neu wybodaeth dechnegol arall. Mae'n anodd, ond yn bosibl!

Beth yw'r camau cyntaf?

Dylech gael syniad cyffredinol o beth yw beth.

Yn gyntaf oll, mae Peirianneg Data yn cyfeirio at wyddoniaeth gyfrifiadurol. Yn fwy penodol, rhaid i chi ddeall algorithmau a strwythurau data effeithlon. Yn ail, gan fod peirianwyr data yn gweithio gyda data, mae angen deall egwyddorion cronfeydd data a'r strwythurau sy'n sail iddynt.

Er enghraifft, mae cronfeydd data confensiynol B-tree SQL yn seiliedig ar strwythur data B-Tree, yn ogystal ag, mewn storfeydd dosbarthedig modern, LSM-Tree ac addasiadau eraill i dablau stwnsh.

* Mae'r camau hyn yn seiliedig ar erthygl wych Adlya Khashtamova. Felly, os ydych chi'n gwybod Rwsieg, cefnogwch yr awdur hwn a darllenwch ei swydd.

1. Algorithmau a strwythurau data

Gall defnyddio'r strwythur data cywir wella perfformiad algorithm yn sylweddol. Yn ddelfrydol, dylem i gyd fod yn dysgu am strwythurau data ac algorithmau yn ein hysgolion, ond anaml y caiff hyn ei drafod. Beth bynnag, nid yw byth yn rhy hwyr i ddod yn gyfarwydd.
Felly dyma fy hoff gyrsiau rhad ac am ddim ar gyfer dysgu strwythurau data ac algorithmau:

Hefyd, peidiwch ag anghofio am waith clasurol Thomas Corman ar algorithmau - Cyflwyniad i Algorithmau. Dyma'r cyfeiriad perffaith pan fydd angen i chi adnewyddu'ch cof.

  • I wella eich sgiliau, defnyddiwch Côd Leet.

Gallwch hefyd blymio i fyd cronfeydd data gyda fideos anhygoel o Brifysgol Carnegie Mellon ar Youtube:

2. Dysgu SQL

Data yw ein bywyd cyfan. Ac er mwyn tynnu'r data hwn o'r gronfa ddata, mae angen i chi "siarad" yr un iaith ag ef.

SQL (Iaith Ymholiad Strwythuredig) yw'r iaith gyfathrebu yn y parth data. Waeth beth mae unrhyw un yn ei ddweud, mae SQL wedi byw, yn fyw, a bydd yn byw am amser hir iawn.

Os ydych chi wedi bod yn cael eich datblygu ers amser maith, mae'n debyg eich bod wedi sylwi bod sibrydion am farwolaeth SQL ar fin digwydd o bryd i'w gilydd. Datblygwyd yr iaith yn y 70au cynnar ac mae'n dal yn boblogaidd iawn ymhlith dadansoddwyr, datblygwyr a selogion yn syml.
Heb wybodaeth am SQL nid oes dim i'w wneud ym maes peirianneg data gan y bydd yn rhaid i chi yn anochel greu ymholiadau i adalw data. Mae pob warws data mawr modern yn cefnogi SQL:

  • Redshift Amazon
  • HP Vertica
  • Oracle
  • SQL Gweinyddwr

... a llawer o rai eraill.

I ddadansoddi haen fawr o ddata sydd wedi'i storio mewn systemau dosbarthedig fel HDFS, dyfeisiwyd peiriannau SQL: Apache Hive, Impala, ac ati Gweler, nid yw'n mynd i unrhyw le.

Sut i ddysgu SQL? Dim ond yn ei wneud yn ymarferol.

I wneud hyn, byddwn yn argymell edrych ar diwtorial rhagorol, sydd, gyda llaw, yn rhad ac am ddim Dadansoddeg Modd.

  1. SQL canolradd
  2. Ymuno â Data yn SQL

Yr hyn sy'n gwneud y cyrsiau hyn yn arbennig yw bod ganddyn nhw amgylchedd rhyngweithiol lle gallwch chi ysgrifennu a rhedeg ymholiadau SQL yn eich porwr. Adnodd SQL Modern ni fydd yn ddiangen. A gallwch gymhwyso'r wybodaeth hon i Tasgau Leetcode yn yr adran Cronfeydd Data.

3. Rhaglennu mewn Python a Java/Scala

Pam y dylech chi ddysgu iaith raglennu Python, ysgrifennais eisoes yn yr erthygl Python vs R. Dewis yr Offeryn Gorau ar gyfer AI, ML a Gwyddor Data. O ran Java a Scala, mae'r rhan fwyaf o'r offer ar gyfer storio a phrosesu symiau enfawr o ddata wedi'u hysgrifennu yn yr ieithoedd hyn. Er enghraifft:

  • Apache Kafka (Scala)
  • Hadoop, HDFS (Java)
  • Apache Spark (Scala)
  • Apache Cassandra (Java)
  • HBase (Java)
  • Apache Hive (Java)

Er mwyn deall sut mae'r offer hyn yn gweithio, mae angen i chi wybod yr ieithoedd y maent wedi'u hysgrifennu ynddynt. Mae dull swyddogaethol Scala yn caniatáu ichi ddatrys problemau prosesu data cyfochrog yn effeithiol. Yn anffodus, ni all Python frolio cyflymder a phrosesu cyfochrog. Yn gyffredinol, mae gwybodaeth am sawl iaith a pharadeimau rhaglennu yn dda ar gyfer ehangder y dulliau o ddatrys problemau.

I blymio i mewn i'r iaith Scala, gallwch ddarllen Rhaglennu yn Scala oddiwrth awdwr yr iaith. Cyhoeddodd Twitter hefyd ganllaw rhagarweiniol da - Ysgol Scala.

O ran Python, dwi'n credu Python rhugl llyfr lefel ganol gorau.

4. Offer ar gyfer gweithio gyda data mawr

Dyma restr o'r offer mwyaf poblogaidd ym myd data mawr:

  • Apache Spark
  • Apache Kafka
  • Apache Hadoop (HDFS, HBase, Hive)
  • Apache Cassandra

Gallwch ddod o hyd i ragor o wybodaeth am adeiladu blociau data mawr yn yr anhygoel hwn amgylchedd rhyngweithiol. Yr offer mwyaf poblogaidd yw Spark a Kafka. Maent yn bendant yn werth eu hastudio, fe'ch cynghorir i ddeall sut maen nhw'n gweithio o'r tu mewn. Cyhoeddodd Jay Kreps (cyd-awdur Kafka) waith anferth yn 2013 Y Log: Yr Hyn y Dylai Pob Datblygwr Meddalwedd ei Wybod Am Echdyniad Cydgasglu Data Amser RealGyda llaw, defnyddiwyd y prif syniadau o'r Talmud hwn i greu Apache Kafka.

5. llwyfannau cwmwl

Pwy yw peirianwyr data, a sut ydych chi'n dod yn un?

Mae gwybodaeth am o leiaf un platfform cwmwl ar y rhestr o ofynion sylfaenol ar gyfer ymgeiswyr ar gyfer swydd peiriannydd data. Mae'n well gan gyflogwyr Amazon Web Services, gyda llwyfan cwmwl Google yn ail a Microsoft Azure yn talgrynnu'r tri uchaf.

Rhaid bod gennych wybodaeth dda am Amazon EC2, AWS Lambda, Amazon S3, DynamoDB.

6. Systemau gwasgaredig

Mae gweithio gyda data mawr yn awgrymu presenoldeb clystyrau o gyfrifiaduron sy'n gweithredu'n annibynnol, y mae cyfathrebu rhyngddynt yn digwydd dros rwydwaith. Po fwyaf yw'r clwstwr, y mwyaf yw'r tebygolrwydd o fethiant ei nodau aelod. I ddod yn wyddonydd data gwych, mae angen i chi ddeall y problemau a'r atebion presennol ar gyfer systemau dosbarthedig. Mae'r maes hwn yn hen ac yn gymhleth.

Ystyrir Andrew Tanenbaum yn arloeswr yn y maes hwn. I'r rhai nad ydyn nhw'n ofni theori, rwy'n argymell ei lyfr "Systemau Dosbarthedig", gall ymddangos yn frawychus i ddechreuwyr, ond bydd yn wirioneddol yn eich helpu i hogi'ch sgiliau.

dwi'n meddwl Dylunio Cymwysiadau Data-ddwys gan Martin Kleppmann llyfr rhagarweiniol gorau. Gyda llaw, mae gan Martin fendigedig blog. Bydd ei waith yn helpu i drefnu gwybodaeth am adeiladu seilwaith modern ar gyfer storio a phrosesu data mawr.
I'r rhai sy'n hoffi gwylio fideos, mae cwrs ar Youtube Systemau cyfrifiadurol wedi'u dosbarthu.

7. Piblinellau data

Pwy yw peirianwyr data, a sut ydych chi'n dod yn un?

Mae piblinellau data yn rhywbeth na allwch fyw hebddo fel peiriannydd data.

Y rhan fwyaf o'r amser, mae peiriannydd data yn adeiladu piblinell ddata fel y'i gelwir, hynny yw, mae'n creu proses ar gyfer cyflwyno data o un lle i'r llall. Gallai'r rhain fod yn sgriptiau arfer sy'n mynd i API gwasanaeth allanol neu'n gwneud ymholiad SQL, yn ychwanegu at y data, ac yn ei roi mewn storfa ganolog (warws data) neu storfa ddata anstrwythuredig (llynnoedd data).

I grynhoi: y rhestr wirio sylfaenol ar gyfer peiriannydd data

Pwy yw peirianwyr data, a sut ydych chi'n dod yn un?

I grynhoi, mae angen dealltwriaeth dda o'r canlynol:

  • Systemau Gwybodaeth;
  • Datblygu meddalwedd (Agile, DevOps, Design Techniques, SOA);
  • Systemau wedi'u dosbarthu a rhaglennu cyfochrog;
  • Hanfodion Cronfa Ddata - Cynllunio, Dylunio, Gweithredu a Datrys Problemau;
  • Dylunio arbrofion - Profion A/B i brofi cysyniadau, pennu dibynadwyedd, perfformiad system, a datblygu llwybrau dibynadwy i ddarparu atebion da yn gyflym.

Dim ond rhai o'r gofynion i ddod yn beiriannydd data yw'r rhain, felly dysgwch a deallwch systemau data, systemau gwybodaeth, cyflwyno/defnyddio/integreiddio parhaus, ieithoedd rhaglennu, a phynciau cyfrifiadureg eraill (nid pob maes pwnc).

Ac yn olaf, y peth olaf ond pwysig iawn yr wyf am ei ddweud.

Nid yw'r llwybr i ddod yn Beirianneg Data mor syml ag y gallai ymddangos. Nid yw'n maddau, mae'n rhwystredig, a rhaid i chi fod yn barod ar gyfer hyn. Efallai y bydd rhai eiliadau yn y daith hon yn eich gwthio i roi'r gorau iddi. Ond mae hwn yn waith go iawn ac yn broses ddysgu.

Peidiwch â'i orchuddio â siwgr o'r dechrau. Holl bwrpas teithio yw dysgu cymaint â phosibl a bod yn barod am heriau newydd.
Dyma lun gwych y deuthum ar ei draws sy'n dangos y pwynt hwn yn dda:

Pwy yw peirianwyr data, a sut ydych chi'n dod yn un?

Ac ie, cofiwch osgoi llosgi allan a gorffwys. Mae hyn hefyd yn bwysig iawn. Pob lwc!

Beth yw eich barn am yr erthygl, gyfeillion? Rydym yn eich gwahodd i gweminar rhad ac am ddim, a fydd yn digwydd heddiw am 20.00. Yn ystod y gweminar, byddwn yn trafod sut i adeiladu system prosesu data effeithiol a graddadwy ar gyfer cwmni bach neu fusnes cychwynnol am gost isel. Fel arfer, byddwn yn dod yn gyfarwydd ag offer prosesu data Google Cloud. Welwn ni chi!

Ffynhonnell: hab.com

Ychwanegu sylw