Saha insinyur data, sareng kumaha anjeun janten hiji?

Halo deui! Judul artikel speaks for sorangan. Dina antisipasi mimiti kursus "Insinyur Data" Kami nyarankeun yén anjeun ngartos saha insinyur data. Aya seueur tautan anu mangpaat dina tulisan éta. Wilujeng maca.

Saha insinyur data, sareng kumaha anjeun janten hiji?

Pituduh saderhana ngeunaan cara nyekel gelombang Téknik Data sareng henteu ngantep éta nyered anjeun kana jurang.

Sigana mah sadayana hoyong janten Data Scientist dinten ayeuna. Tapi kumaha upami Data Téknik? Intina, ieu mangrupikeun jinis hibrida analis data sareng élmuwan data; Insinyur data biasana tanggung jawab pikeun ngatur alur kerja, ngolah pipa, sareng prosés ETL. Kusabab pentingna fungsi ieu, ieu ayeuna jargon profésional populér sejen anu aktip gaining moméntum.

Gaji anu luhur sareng paménta anu ageung mangrupikeun sabagian leutik anu ngajantenkeun padamelan ieu pikaresepeun! Upami anjeun hoyong ngiringan jajaran pahlawan, teu acan telat pikeun ngamimitian diajar. Dina tulisan ieu, kuring parantos ngumpulkeun sadaya inpormasi anu dipikabutuh pikeun ngabantosan anjeun nyandak léngkah munggaran anjeun.

Ku kituna hayu urang ngamimitian!

Naon ari Téknik Data?

Jujur, teu aya katerangan anu langkung saé tibatan ieu:

"A élmuwan bisa manggihan hiji béntang anyar, tapi teu bisa nyieun hiji. Anjeunna kedah naroskeun ka insinyur pikeun ngalakukeunana pikeun anjeunna."

-Gordon Lindsay Glegg

Ku kituna, peran insinyur data cukup signifikan.

Sakumaha ngaranna nunjukkeun, rékayasa data paduli data, nyaéta pangiriman, neundeun jeung ngolah. Sasuai, tugas utama insinyur nyaéta nyayogikeun infrastruktur anu dipercaya pikeun data. Upami urang ningal hierarki kabutuhan AI, rékayasa data ngeusian 2-3 tahap munggaran: ngumpulkeun, gerak jeung neundeun, persiapan data.

Saha insinyur data, sareng kumaha anjeun janten hiji?

Naon anu dilakukeun ku insinyur data?

Kalayan munculna data ageung, ruang lingkup tanggung jawab parantos robih sacara dramatis. Upami sateuacana para ahli ieu nyerat patarosan SQL ageung sareng data sulingan nganggo alat sapertos Informatica ETL, Pentaho ETL, Talend, ayeuna sarat pikeun insinyur data parantos ningkat.

Seuseueurna perusahaan anu ngagaduhan lowongan kabuka pikeun posisi insinyur data gaduh syarat ieu:

  • Pangaweruh anu saé ngeunaan SQL sareng Python.
  • Pangalaman sareng platform awan, khususna Amazon Web Services.
  • Pangaweruh ngeunaan Java / Scala pikaresep.
  • Pamahaman anu hadé ngeunaan pangkalan data SQL sareng NoSQL (modeling data, gudang data).

Émut, ieu ngan ukur kabutuhan anu penting. Tina daptar ieu, tiasa dianggap yén insinyur data mangrupikeun spesialis dina widang pamekaran parangkat lunak sareng backend.
Salaku conto, upami perusahaan mimiti ngahasilkeun jumlah data anu ageung tina sababaraha sumber, tugas anjeun salaku insinyur data nyaéta ngatur kumpulan inpormasi, ngolah sareng neundeunana.

Daptar parabot dipaké dina hal ieu bisa jadi béda, éta sadayana gumantung kana volume data ieu, laju resi na heterogeneity. Seuseueurna perusahaan henteu ngurus data ageung, janten salaku gudang terpusat, anu disebut gudang data, anjeun tiasa nganggo pangkalan data SQL (PostgreSQL, MySQL, jsb) kalayan sakumpulan skrip leutik anu nyayogikeun data kana. gudang.

Raksasa IT sapertos Google, Amazon, Facebook atanapi Dropbox gaduh syarat anu langkung luhur: pangaweruh ngeunaan Python, Java atanapi Scala.

  • Pangalaman sareng data ageung: Hadoop, Spark, Kafka.
  • Pangaweruh ngeunaan algoritma sareng struktur data.
  • Ngartos dasar-dasar sistem anu disebarkeun.
  • Pangalaman sareng alat visualisasi data sapertos Tableau atanapi ElasticSearch bakal janten tambihan.

Hartina, aya pergeseran anu jelas kana data gedé, nyaéta dina ngolahna dina beban anu luhur. Perusahaan ieu parantos ningkatkeun syarat pikeun kasabaran kasalahan sistem.

Insinyur Data vs. élmuwan data

Saha insinyur data, sareng kumaha anjeun janten hiji?
Oké, éta babandingan basajan tur lucu (euweuh pribadi), tapi kanyataanana éta leuwih pajeulit.

Mimiti, anjeun kedah terang yén aya seueur ambiguitas dina delineasi peran sareng kaahlian élmuwan data sareng insinyur data. Nyaéta, anjeun tiasa gampang bingung ngeunaan kaahlian naon anu diperyogikeun pikeun janten insinyur data anu suksés. Tangtosna, aya sababaraha kaahlian anu tumpang tindih sareng duanana kalungguhan. Tapi aya ogé sababaraha kaahlian diametrically sabalikna.

Élmu data mangrupikeun bisnis anu serius, tapi urang nuju ka dunya élmu data fungsional dimana praktisi tiasa ngalakukeun analitik sorangan. Pikeun ngaktifkeun pipelines data sareng struktur data terpadu, anjeun peryogi insinyur data, sanés élmuwan data.

Naha insinyur data langkung seueur paménta tibatan élmuwan data?

- Leres, sabab sateuacan anjeun tiasa ngadamel kueh wortel, anjeun kedah ngumpulkeun heula, mesek sareng stock wortel!

Insinyur data ngartos program langkung saé tibatan élmuwan data, tapi dina statistik, sabalikna anu leres.

Tapi ieu mangrupikeun kauntungan tina insinyur data:

Tanpa anjeunna / dirina, nilai model prototipe, paling mindeng diwangun ku sapotong kode kualitas dahsyat dina file Python, dicandak ti élmuwan data jeung kumaha bae ngahasilkeun hasilna, condong nol.

Tanpa insinyur data, kode ieu moal pernah janten proyek sareng teu aya masalah bisnis anu bakal direngsekeun sacara efektif. Insinyur data nyobian ngarobih sadayana ieu janten produk.

Inpormasi dasar insinyur data kedah terang

Saha insinyur data, sareng kumaha anjeun janten hiji?

Janten, upami padamelan ieu masihan terang dina anjeun sareng anjeun sumanget - anjeun tiasa diajar, anjeun tiasa ngawasaan sadaya kaahlian anu dipikabutuh sareng janten bintang rock nyata dina widang rékayasa data. Sareng, leres, anjeun tiasa narik ieu sanaos tanpa kaahlian program atanapi pangaweruh téknis anu sanés. Hese, tapi mungkin!

Naon léngkah munggaran?

Anjeun kedah gaduh ide umum ngeunaan naon.

Anu mimiti, Téknik Data nujul kana élmu komputer. Leuwih husus, anjeun kudu ngarti algoritma efisien sarta struktur data. Bréh, saprak insinyur data dianggo kalayan data, perlu ngartos prinsip database jeung struktur nu underlie aranjeunna.

Contona, basis data SQL B-tangkal konvensional dumasar kana struktur data B-Tree, kitu ogé, dina repositories disebarkeun modern, LSM-Tree jeung modifikasi séjén tabel Hash.

* Léngkah-léngkah ieu dumasar kana tulisan anu saé Adilya Khashtamova. Janten, upami anjeun terang Rusia, dukung panulis ieu sareng baca tulisanna.

1. Algoritma jeung struktur data

Ngagunakeun struktur data katuhu bisa nyata ngaronjatkeun kinerja hiji algoritma. Ideally, urang sadayana kedah diajar ngeunaan struktur data sareng algoritma di sakola urang, tapi ieu jarang katutupan. Dina sagala hal, éta pernah telat meunang acquainted.
Janten ieu kursus gratis karesep kuring pikeun diajar struktur data sareng algoritma:

Tambih Deui, ulah hilap ngeunaan karya klasik Thomas Corman ngeunaan algoritma - Bubuka pikeun Algoritma. Ieu mangrupikeun rujukan anu sampurna nalika anjeun kedah nga-refresh mémori anjeun.

  • Pikeun ngaronjatkeun kaahlian Anjeun, make Leetcode.

Anjeun ogé tiasa teuleum ka dunya database sareng pidéo anu luar biasa ti Carnegie Mellon University dina Youtube:

2. Diajar SQL

Sakabeh kahirupan urang téh data. Sareng pikeun nimba data ieu tina pangkalan data, anjeun kedah "nyarios" basa anu sami sareng éta.

SQL (Structured Query Language) nyaéta basa komunikasi dina domain data. Henteu paduli naon anu dicarioskeun ku saha waé, SQL parantos hirup, hirup, sareng bakal hirup lami pisan.

Upami anjeun parantos lami dina pamekaran, anjeun panginten perhatoskeun yén rumor ngeunaan maotna SQL anu caket muncul sacara périodik. Basa ieu dimekarkeun dina awal 70an sarta masih pohara populér di kalangan analis, pamekar jeung saukur peminat.
Tanpa pangaweruh SQL teu aya anu tiasa dilakukeun dina rékayasa data sabab anjeun pasti kedah nyiptakeun patarosan pikeun nyandak data. Sadaya gudang data ageung modern ngadukung SQL:

  • Amazon RedShift
  • HP Vertica
  • Oracle
  • SQL Server

... jeung loba batur.

Pikeun nganalisis lapisan badag data disimpen dina sistem disebarkeun kayaning HDFS, mesin SQL nimukeun: Apache Hive, Impala, jsb Tempo, éta moal kamana.

Kumaha diajar SQL? Ngan ngalakukeun dina prakna.

Jang ngalampahkeun ieu, kuring bakal nyarankeun mariksa kaluar hiji tutorial alus teuing, nu, ku jalan, bébas, ti Mode Analytics.

  1. Panganteur SQL
  2. Ngagabungkeun Data dina SQL

Anu ngajadikeun kursus-kursus ieu khusus nyaéta aranjeunna gaduh lingkungan interaktif dimana anjeun tiasa nyerat sareng ngajalankeun query SQL langsung dina panyungsi anjeun. Sumberdaya SQL modern moal superfluous. Sareng anjeun tiasa nerapkeun pangaweruh ieu tugas Leetcode dina bagian Databases.

3. Programming di Python jeung Java / Scala

Naha anjeun kedah diajar basa pamrograman Python, kuring parantos nyerat dina tulisan Python vs R. Milih Alat pangalusna pikeun AI, ML jeung Élmu Data. Lamun datang ka Java jeung Scala, lolobana parabot pikeun nyimpen jeung ngolah jumlah badag data ditulis dina basa ieu. Salaku conto:

  • Apache Kafka (Scala)
  • Hadoop, HDFS (Jawa)
  • Apache Spark (Scala)
  • Apache Cassandra (Jawa)
  • HBase (Jawa)
  • Apache Hive (Jawa)

Pikeun ngartos kumaha alat-alat ieu jalan, anjeun kedah terang basa dimana aranjeunna ditulis. Pendekatan fungsional Scala ngamungkinkeun anjeun sacara efektif ngarengsekeun masalah ngolah data paralel. Python, hanjakalna, teu bisa boast of speed jeung processing paralel. Sacara umum, pangaweruh ngeunaan sababaraha basa sareng paradigma pemrograman saé pikeun jembarna pendekatan pikeun ngarengsekeun masalah.

Pikeun teuleum kana basa Scala, anjeun tiasa maca Programming di Scala ti pangarang basa. Twitter ogé nyebarkeun pituduh bubuka anu saé - Sakola Scala.

Sedengkeun pikeun Python, kuring yakin Python béntés buku tingkat tengah pangalusna.

4. Alat pikeun gawé bareng data badag

Ieu daptar alat anu pang populerna di dunya data gedé:

  • Apache bitu
  • Apache Kafka
  • Apache Hadoop (HDFS, HBase, Hive)
  • Apache cassandra

Anjeun tiasa mendakan langkung seueur inpormasi ngeunaan ngawangun blok data ageung dina ieu endah pisan lingkungan interaktif. Alat anu pang populerna nyaéta Spark sareng Kafka. Éta pasti patut diajar, éta sasaena ngartos kumaha aranjeunna tiasa dianggo ti jero. Jay Kreps (co-panulis Kafka) nyebarkeun karya monumental dina 2013 The Log: Naon Unggal Pamekar Software Kedah Apal Ngeunaan Real-Time Data Aggregation AbstraksiKu jalan kitu, gagasan utama tina Talmud ieu dipaké pikeun nyieun Apache Kafka.

5. platform awan

Saha insinyur data, sareng kumaha anjeun janten hiji?

Pangaweruh ngeunaan sahenteuna hiji platform awan aya dina daptar syarat dasar pikeun pelamar pikeun posisi insinyur data. Dunungan masihan leuwih sering dipake tinimbang Amazon Web Services, kalawan platform awan Google di tempat kadua jeung Microsoft Azure rounding kaluar luhureun tilu.

Anjeun kedah gaduh pangaweruh anu saé ngeunaan Amazon EC2, AWS Lambda, Amazon S3, DynamoDB.

6. Sistem disebarkeun

Gawe sareng data ageung nunjukkeun ayana klaster komputer anu beroperasi sacara mandiri, komunikasi antara anu dilakukeun dina jaringan. Nu leuwih badag klaster, nu gede kamungkinan gagalna titik anggota na. Pikeun janten élmuwan data anu saé, anjeun kedah ngartos masalah sareng solusi anu aya pikeun sistem anu disebarkeun. Wewengkon ieu heubeul tur kompléks.

Andrew Tanenbaum dianggap panaratas dina widang ieu. Pikeun anu henteu sieun ku téori, kuring nyarankeun bukuna "Sistem Distribusi", eta bisa sigana daunting pikeun beginners, tapi bener bakal mantuan Anjeun hone kaahlian Anjeun.

Émutan abdi Ngarancang Aplikasi Data-Intensif ku Martin Kleppmann buku bubuka pangalusna. Ku jalan kitu, Martin ngabogaan éndah blog. Karyana bakal ngabantu systematize pangaweruh ngeunaan ngawangun infrastruktur modern pikeun nyimpen jeung ngolah data badag.
Pikeun anu resep ningali video, aya kursus di Youtube Sistem komputer anu disebarkeun.

7. Pipa data

Saha insinyur data, sareng kumaha anjeun janten hiji?

Pipa data mangrupikeun hal anu anjeun moal tiasa hirup tanpa salaku insinyur data.

Seuseueurna waktos, insinyur data ngawangun anu disebut pipa data, nyaéta, anjeunna nyiptakeun prosés pikeun ngirim data ti hiji tempat ka tempat anu sanés. Ieu tiasa janten skrip khusus anu nuju ka API jasa éksternal atanapi ngadamel pamundut SQL, ngagedekeun data, teras nempatkeun kana toko terpusat (gudang data) atanapi toko data anu henteu terstruktur (danau data).

Pikeun nyimpulkeun: Daptar pariksa dasar pikeun insinyur data

Saha insinyur data, sareng kumaha anjeun janten hiji?

Pikeun nyimpulkeun, pamahaman anu hadé ngeunaan hal-hal ieu diperyogikeun:

  • Sistem Émbaran;
  • Pangwangunan parangkat lunak (Agile, DevOps, Téhnik Desain, SOA);
  • Sistem anu disebarkeun sareng program paralel;
  • Dasar Basis Data - Perencanaan, Desain, Operasi sareng Ngarengsekeun Masalah;
  • Desain percobaan - A / B tés pikeun ngabuktikeun konsép, nangtukeun reliabilitas, kinerja sistem, sarta ngamekarkeun jalur dipercaya pikeun nganteurkeun solusi alus gancang.

Ieu ngan ukur sababaraha sarat pikeun janten insinyur data, janten diajar sareng ngartos sistem data, sistem inpormasi, pangiriman / panyebaran / integrasi kontinyu, basa pamrograman, sareng topik élmu komputer anu sanés (henteu sadayana subjek).

Sarta pamustunganana, hal panungtungan tapi pohara penting kuring hayang ngomong.

Jalan pikeun janten Téknik Data henteu sagampil sigana. Anjeunna teu ngahampura, anjeunna frustrates, jeung anjeun kudu disiapkeun pikeun ieu. Sababaraha momen dina perjalanan ieu tiasa ngadorong anjeun nyerah. Tapi ieu mangrupikeun padamelan nyata sareng prosés diajar.

Ngan ulah sugarcoat ti mimiti. Sakabeh titik iinditan nyaéta pikeun diajar saloba mungkin sareng siap pikeun tantangan anyar.
Ieu mangrupikeun gambar anu saé anu kuring mendakan anu ngagambarkeun titik ieu ogé:

Saha insinyur data, sareng kumaha anjeun janten hiji?

Jeung enya, inget ulah burnout jeung istirahat. Ieu ogé penting pisan. Sing salamet!

Kumaha saur anjeun artikel éta, babaturan? Urang ngajak anjeun bebas webinar, nu bakal lumangsung dinten di 20.00. Salila webinar, urang bakal ngabahas kumaha carana ngawangun hiji sistem ngolah data éféktif jeung scalable pikeun parusahaan leutik atawa ngamimitian kalawan biaya minimal. Salaku prakték, urang bakal kenal sareng alat ngolah data Google Cloud. Dadah!

sumber: www.habr.com

Tambahkeun komentar