Wanene injiniyoyin bayanai, kuma ta yaya kuka zama ɗaya?

Sannu kuma! Taken labarin yayi magana da kansa. A cikin tsammanin fara karatun Injiniya Data Muna ba da shawarar ku fahimci su wanene injiniyoyin bayanai. Akwai hanyoyi masu amfani da yawa a cikin labarin. Farin ciki karatu.

Wanene injiniyoyin bayanai, kuma ta yaya kuka zama ɗaya?

Jagora mai sauƙi kan yadda ake kama igiyar Injiniyan Bayanai kuma kar ta bari ta ja ku cikin rami.

Da alama kowa yana so ya zama Masanin Kimiyyar Bayanai a kwanakin nan. Amma menene game da Injin Injiniya? Mahimmanci, wannan wani nau'in nau'in nau'i ne na masu nazarin bayanai da kuma masanin kimiyyar bayanai; Injiniyan bayanai galibi yana da alhakin sarrafa ayyukan aiki, sarrafa bututun, da hanyoyin ETL. Saboda mahimmancin waɗannan ayyuka, wannan a halin yanzu wani sanannen jargon ƙwararru ne wanda ke samun ƙarfi sosai.

Babban albashi da babban buƙatu kaɗan ne kawai na abin da ke sa wannan aikin ya zama kyakkyawa sosai! Idan kana son shiga cikin jerin jarumai, ba a makara don fara koyo. A cikin wannan sakon, na tattara duk mahimman bayanai don taimaka muku ɗaukar matakanku na farko.

Don haka, bari mu fara!

Menene Injiniya Data?

Gaskiya, babu wani bayani da ya fi wannan:

“Masanin kimiyya zai iya gano sabon tauraro, amma ba zai iya ƙirƙirar ɗaya ba. Sai ya nemi injiniya ya yi masa”.

- Gordon Lindsay Glegg

Don haka, aikin injiniyan bayanai yana da matuƙar mahimmanci.

Kamar yadda sunan ke nunawa, injiniyan bayanai ya shafi bayanai, wato isar da saƙo, adanawa da sarrafa su. Saboda haka, babban aikin injiniyoyi shine samar da ingantaccen kayan aiki don bayanai. Idan muka kalli tsarin buƙatun AI, injiniyan bayanai ya mamaye matakan farko na 2-3: tarin, motsi da ajiya, shirye-shiryen bayanai.

Wanene injiniyoyin bayanai, kuma ta yaya kuka zama ɗaya?

Menene injiniyan bayanai ke yi?

Tare da zuwan manyan bayanai, girman alhakin ya canza sosai. Idan a baya waɗannan ƙwararrun sun rubuta manyan tambayoyin SQL da distilled bayanai ta amfani da kayan aiki irin su Informatica ETL, Pentaho ETL, Talend, yanzu buƙatun injiniyoyin bayanai sun karu.

Yawancin kamfanoni masu buɗaɗɗen guraben aikin injiniyan bayanai suna da buƙatu masu zuwa:

  • Kyakkyawan ilimin SQL da Python.
  • Ƙwarewa tare da dandamali na girgije, musamman Amazon Web Services.
  • Sanin Java/Scala ya fi so.
  • Kyakkyawan fahimtar bayanan SQL da NoSQL (samfurin ƙirar bayanai, ajiyar bayanai).

Ka tuna, waɗannan su ne kawai abubuwan da ake bukata. Daga cikin wannan jeri, ana iya ɗauka cewa injiniyoyin bayanai ƙwararru ne a fannin haɓaka software da kuma baya.
Misali, idan kamfani ya fara samar da bayanai masu yawa daga wurare daban-daban, aikinku na injiniyan bayanai shine tsara tarin bayanai, sarrafa su da kuma adana su.

Jerin kayan aikin da aka yi amfani da su a cikin wannan yanayin na iya bambanta, duk ya dogara da girman wannan bayanan, saurin karɓar sa da kuma bambancinsa. Yawancin kamfanoni ba sa mu'amala da manyan bayanai kwata-kwata, don haka a matsayin ma'ajiya ta tsakiya, abin da ake kira rumbun adana bayanai, zaku iya amfani da bayanan SQL (PostgreSQL, MySQL, da sauransu) tare da ƙaramin rubutun da ke ciyar da bayanan zuwa cikin. sito.

Kattai na IT kamar Google, Amazon, Facebook ko Dropbox suna da buƙatu mafi girma: ilimin Python, Java ko Scala.

  • Kwarewa tare da manyan bayanai: Hadoop, Spark, Kafka.
  • Ilimin algorithms da tsarin bayanai.
  • Fahimtar tushen tsarin rarrabawa.
  • Kwarewa tare da kayan aikin gani na bayanai kamar Tableau ko ElasticSearch zai zama ƙari.

Wato akwai sauyi a sarari ga manyan bayanai, wato a sarrafa shi a ƙarƙashin manyan kaya. Waɗannan kamfanoni sun haɓaka buƙatu don jure kurakuran tsarin.

Injiniyoyin Data Vs. masana kimiyyar bayanai

Wanene injiniyoyin bayanai, kuma ta yaya kuka zama ɗaya?
To, wannan kwatanci ne mai sauƙi da ban dariya (ba wani abu na sirri ba), amma a zahiri ya fi rikitarwa.

Na farko, ya kamata ku sani cewa akwai shubuha da yawa a cikin tantance ayyuka da basirar masanin kimiyyar bayanai da injiniyan bayanai. Wato a sauƙaƙe zaku iya ruɗewa game da ƙwarewar da ake buƙata don zama injiniyan bayanai mai nasara. Tabbas, akwai wasu ƙwarewa waɗanda suka mamaye duka ayyukan biyu. Amma kuma akwai ƙwararrun ƙwararru masu adawa da juna.

Kimiyyar bayanai kasuwanci ce mai mahimmanci, amma muna motsawa zuwa duniyar kimiyyar bayanai mai aiki inda masu aiki zasu iya yin nasu nazari. Don ba da damar bututun bayanai da haɗaɗɗen tsarin bayanai, kuna buƙatar injiniyoyin bayanai, ba masana kimiyyar bayanai ba.

Shin injiniyan bayanai ya fi buƙatu fiye da masanin kimiyyar bayanai?

- Ee, domin kafin ku iya yin kek na karas, kuna buƙatar fara girbi, kwasfa da karas!

Injiniyan bayanai ya fi kowa fahimtar shirye-shirye fiye da kowane masanin kimiyyar bayanai, amma idan ana maganar kididdiga, akasin haka gaskiya ne.

Amma ga fa'idar injiniyan bayanai:

Ba tare da shi / ita ba, ƙimar samfurin samfurin, mafi yawan lokuta yana kunshe da wani mummunan lambar inganci a cikin fayil ɗin Python, wanda aka samo daga masanin kimiyyar bayanai kuma ko ta yaya ya haifar da sakamako, yana kula da sifili.

Idan ba tare da injiniyan bayanai ba, wannan lambar ba za ta taɓa zama aiki ba kuma ba za a warware matsalar kasuwanci yadda ya kamata ba. Injiniyan bayanai yana ƙoƙarin juya duk wannan zuwa samfur.

Bayanan asali ya kamata injiniyan bayanai ya sani

Wanene injiniyoyin bayanai, kuma ta yaya kuka zama ɗaya?

Don haka, idan wannan aikin ya ba da haske a cikin ku kuma kuna da sha'awar - za ku iya koyan shi, za ku iya ƙware duk ƙwarewar da ake bukata kuma ku zama ainihin tauraron dutse a fagen injiniyan bayanai. Kuma, ee, zaku iya cire wannan ko da ba tare da ƙwarewar shirye-shirye ko wasu ilimin fasaha ba. Yana da wuya, amma zai yiwu!

Menene matakan farko?

Ya kamata ku sami cikakken ra'ayi na menene menene.

Da farko dai Injiniya Data yana nufin ilimin kwamfuta. Musamman ma, dole ne ku fahimci ingantaccen algorithms da tsarin bayanai. Na biyu, tun da injiniyoyin bayanai suna aiki da bayanai, ya zama dole a fahimci ka'idodin bayanan bayanai da tsarin da ke ƙarƙashin su.

Misali, na al'ada B-itace SQL database sun dogara ne a kan tsarin bayanai na B-Bishiyar, haka kuma, a cikin ma'ajin da aka rarraba na zamani, LSM-Tree da sauran gyare-gyaren tebur na zanta.

*Wadannan matakai sun dogara ne akan babban labarin Adilya Khashtamova. Don haka, idan kun san Rashanci, goyi bayan wannan marubucin kuma ku karanta post dinsa.

1. Algorithms da tsarin bayanai

Yin amfani da tsarin bayanan da ya dace zai iya inganta aikin algorithm. Da kyau, ya kamata mu duka mu kasance muna koyo game da tsarin bayanai da algorithms a cikin makarantunmu, amma wannan ba kasafai ake rufe shi ba. A kowane hali, ba a makara don sanin juna.
Don haka ga darussan da na fi so na kyauta don koyan tsarin bayanai da algorithms:

Plusari kar ku manta game da aikin gargajiya na Thomas Corman akan algorithms - Gabatarwa zuwa Algorithms. Wannan shine cikakkiyar magana lokacin da kuke buƙatar sabunta ƙwaƙwalwar ajiyar ku.

  • Don inganta ƙwarewar ku, yi amfani Leetcode.

Hakanan zaka iya nutsewa cikin duniyar bayanan bayanai tare da bidiyoyi masu ban mamaki daga Jami'ar Carnegie Mellon akan Youtube:

2. Koyi SQL

Rayuwarmu gaba daya data ce. Kuma don fitar da wannan bayanan daga rumbun adana bayanai, kuna buƙatar "magana" harshe ɗaya da shi.

SQL (Structured Query Language) shine harshen sadarwa a cikin yankin bayanai. Duk abin da kowa ya ce, SQL ya rayu, yana raye, kuma zai rayu har tsawon lokaci.

Idan kun kasance cikin ci gaba na dogon lokaci, tabbas kun lura cewa jita-jita game da mutuwar SQL na gabatowa tana tashi lokaci-lokaci. An haɓaka yaren a farkon shekarun 70s kuma har yanzu yana da farin jini a tsakanin manazarta, masu haɓakawa da masu sha'awar kawai.
Idan ba tare da ilimin SQL ba babu wani abu da za a yi a injiniyan bayanai kamar yadda babu makawa dole ne ka ƙirƙiri tambayoyi don dawo da bayanai. Duk manyan ɗakunan ajiya na zamani suna tallafawa SQL:

  • Redshift na Amazon
  • HP Vertica
  • Oracle
  • SQL Server

...da sauran su.

Don bincika manyan bayanan da aka adana a cikin tsarin rarraba kamar HDFS, an ƙirƙira injunan SQL: Apache Hive, Impala, da sauransu. Duba, ba ya zuwa ko'ina.

Yadda ake koyon SQL? Kawai yi shi a aikace.

Don yin wannan, Ina bayar da shawarar duba kyakkyawan koyawa, wanda, ta hanya, kyauta ne, daga Binciken Yanayin.

  1. Matsakaicin SQL
  2. Shiga Data a cikin SQL

Abin da ya sa waɗannan kwasa-kwasan na musamman shine cewa suna da yanayi mai ma'amala inda zaku iya rubutawa da gudanar da tambayoyin SQL daidai a cikin burauzar ku. Albarkatu Zamani SQL ba zai zama superfluous. Kuma zaku iya amfani da wannan ilimin ga Ayyukan Leetcode a cikin sashin Databases.

3. Programming a Python da Java/Scala

Me yasa yakamata ku koyi yaren shirye-shiryen Python, na riga na rubuta a cikin labarin Python vs R. Zaɓin Mafi kyawun Kayan aiki don AI, ML da Kimiyyar Bayanai. Idan ya zo ga Java da Scala, yawancin kayan aikin adanawa da sarrafa bayanai masu yawa ana rubuta su cikin waɗannan harsuna. Misali:

  • Apache Kafka (Scala)
  • Hadoop, HDFS (Java)
  • Apache Spark (Scala)
  • Apache Cassandra (Java)
  • HBase (Java)
  • Apache Hive (Java)

Don fahimtar yadda waɗannan kayan aikin ke aiki, kuna buƙatar sanin harsunan da aka rubuta su. Hanyar aikin Scala tana ba ku damar magance matsalolin sarrafa bayanai yadda ya kamata. Python, da rashin alheri, ba zai iya yin alfahari da sauri da sarrafa layi ɗaya ba. Gabaɗaya, ilimin harsuna da yawa da tsarin tsara shirye-shirye suna da kyau ga faɗin hanyoyin magance matsaloli.

Don nutsewa cikin yaren Scala, kuna iya karantawa Shirye-shirye a cikin Scala daga marubucin harshen. Twitter kuma ya buga kyakkyawan jagorar gabatarwa - Makaranta Scala.

Amma ga Python, na yi imani Python mai kyau mafi kyawun matsakaicin matakin littafi.

4. Kayan aiki don aiki tare da manyan bayanai

Anan ga jerin shahararrun kayan aikin a duniyar manyan bayanai:

  • Apache Spark
  • Apache Kafka
  • Apache Hadoop (HDFS, HBase, Hive)
  • Apache cassandra

Kuna iya samun ƙarin bayani game da gina manyan tubalan bayanai a cikin wannan abin ban mamaki yanayi m. Shahararrun kayan aikin sune Spark da Kafka. Tabbas sun cancanci yin karatu, yana da kyau a fahimci yadda suke aiki daga ciki. Jay Kreps (mawallafin Kafka) ya buga wani babban aiki a cikin 2013 Log: Abin da Kowane Mai Haɓakawa Software Ya Kamata Ya sani Game da Ƙirƙirar Tarin Bayanai na Lokaci-lokaciAf, an yi amfani da manyan ra'ayoyin daga wannan Talmud don ƙirƙirar Apache Kafka.

5. Cloud dandamali

Wanene injiniyoyin bayanai, kuma ta yaya kuka zama ɗaya?

Ilimin aƙalla dandamali ɗaya na girgije yana cikin jerin mahimman buƙatun don masu neman matsayi na injiniyan bayanai. Masu ɗaukan ma'aikata sun fi son Ayyukan Yanar Gizo na Amazon, tare da dandalin girgije na Google a matsayi na biyu kuma Microsoft Azure ya zagaya saman uku.

Dole ne ku sami kyakkyawan ilimin Amazon EC2, AWS Lambda, Amazon S3, DynamoDB.

6. Tsarin rarrabawa

Yin aiki tare da manyan bayanai yana nuna kasancewar gungu na kwamfutoci masu zaman kansu, sadarwa tsakanin wacce ake aiwatar da ita ta hanyar sadarwa. Girman gungu, mafi girman yuwuwar gazawar kumburin membobinta. Don zama babban masanin kimiyyar bayanai, kuna buƙatar fahimtar matsalolin da hanyoyin da ake da su don tsarin rarraba. Wannan yanki tsoho ne kuma mai sarkakiya.

Ana ɗaukan Andrew Tanenbaum majagaba a wannan fannin. Ga wadanda ba su ji tsoron ka'idar ba, ina ba da shawarar littafinsa "Tsarin Rarraba", Yana iya zama da wahala ga masu farawa, amma zai taimaka muku da gaske inganta ƙwarewar ku.

Na yi la'akari Ƙirƙirar Aikace-aikace-Tsarin Bayanai na Martin Kleppmann mafi kyawun littafin gabatarwa. Af, Martin yana da ban mamaki блог. Ayyukansa zai taimaka wajen tsara ilimi game da gina kayan aikin zamani don adanawa da sarrafa manyan bayanai.
Ga masu son kallon bidiyo, akwai kwas akan Youtube Tsarin kwamfuta da aka rarraba.

7. Bututun bayanai

Wanene injiniyoyin bayanai, kuma ta yaya kuka zama ɗaya?

Bututun bayanai wani abu ne da ba za ka iya rayuwa ba sai a matsayin injiniyan bayanai.

Yawancin lokaci, injiniyan bayanai yana gina wani abin da ake kira bututun bayanai, wato ya samar da hanyar isar da bayanai daga wani wuri zuwa wani. Waɗannan na iya zama rubutun al'ada waɗanda ke zuwa API ɗin sabis na waje ko yin tambayar SQL, haɓaka bayanan, kuma sanya su cikin ma'ajin da aka keɓe (ma'ajiyar bayanai) ko ma'ajin bayanai marasa tsari (tafkunan bayanai).

Don taƙaitawa: ainihin jerin abubuwan bincike don injiniyan bayanai

Wanene injiniyoyin bayanai, kuma ta yaya kuka zama ɗaya?

Don taƙaitawa, ana buƙatar kyakkyawar fahimtar abubuwan da ke biyowa:

  • Tsarin Bayanai;
  • Ci gaban software (Agile, DevOps, Dabarun ƙira, SOA);
  • Tsarin da aka rarraba da shirye-shirye na layi daya;
  • Mahimman Bayanan Bayanai - Tsara, Tsara, Aiki da Shirya matsala;
  • Zane na gwaje-gwaje - Gwajin A / B don tabbatar da ra'ayoyi, ƙayyade abin dogaro, aikin tsarin, da haɓaka hanyoyin dogaro don sadar da mafita mai kyau cikin sauri.

Waɗannan kaɗan ne daga cikin abubuwan da ake buƙata don zama injiniyan bayanai, don haka koyo da fahimtar tsarin bayanai, tsarin bayanai, ci gaba da bayarwa / turawa / haɗawa, yarukan shirye-shirye, da sauran batutuwan kimiyyar kwamfuta (ba duk fannonin batutuwa ba).

Kuma a ƙarshe, abu na ƙarshe amma mai mahimmanci da nake so in faɗi.

Hanyar zama Injiniya Data ba ta da sauƙi kamar yadda ake iya gani. Ba ya gafartawa, yana takaici, kuma dole ne ku kasance cikin shiri don wannan. Wasu lokuta a cikin wannan tafiya na iya tura ka ka daina. Amma wannan shine ainihin aiki kuma tsarin ilmantarwa.

Kawai kar a sanya sukari daga farko. Duk abin da ake nufi da tafiya shine don koyo gwargwadon yiwuwa kuma ku kasance a shirye don sababbin ƙalubale.
Ga wani babban hoto da na ci karo da shi wanda ya kwatanta wannan batu da kyau:

Wanene injiniyoyin bayanai, kuma ta yaya kuka zama ɗaya?

Kuma a, ku tuna don kauce wa ƙonawa da hutawa. Wannan kuma yana da matukar muhimmanci. Sa'a!

Me kuke tunani game da labarin, abokai? Muna gayyatar ku zuwa webinar kyauta, wanda zai gudana yau da karfe 20.00. A lokacin webinar, za mu tattauna yadda za a gina ingantaccen tsarin sarrafa bayanai don ƙaramin kamfani ko farawa akan farashi kaɗan. A matsayinmu na al'ada, za mu saba da kayan aikin sarrafa bayanai na Google Cloud. Zan gan ka!

source: www.habr.com

Add a comment