Kodi mainjiniya a data ndi ndani, ndipo mumakhala bwanji m'modzi?
Moni kachiwiri! Mutu wa nkhaniyo ukunena wokha. Poyembekezera kuyamba kwa maphunzirowo Data Engineer Tikukulangizani kuti mumvetsetse omwe mainjiniya a data ndi. Pali maulalo ambiri othandiza m'nkhaniyi. Kuwerenga kosangalatsa.
Kalozera wosavuta wamomwe mungagwirire mafunde a Data Engineering ndipo musalole kukukokerani kuphompho.
Zikuwoneka kuti aliyense akufuna kukhala Data Scientist masiku ano. Koma bwanji za Data Engineering? Kwenikweni, uwu ndi mtundu wosakanizidwa wa wosanthula deta ndi wasayansi wa data; Katswiri wa data nthawi zambiri amakhala ndi udindo woyang'anira kayendetsedwe ka ntchito, mapaipi okonza, ndi njira za ETL. Chifukwa cha kufunikira kwa ntchitozi, iyi ndi jargon ina yodziwika bwino yomwe ikuchulukirachulukira.
Malipiro okwera komanso kufunikira kwakukulu ndi gawo laling'ono chabe la zomwe zimapangitsa kuti ntchitoyi ikhale yosangalatsa kwambiri! Ngati mukufuna kulowa nawo mgulu la ngwazi, sikunachedwe kuti muyambe kuphunzira. Mu positi iyi, ndasonkhanitsa zidziwitso zonse zofunika kuti zikuthandizeni kuchitapo kanthu koyamba.
Chifukwa chake, ntchito ya injiniya wa data ndi yofunika kwambiri.
Monga momwe dzinalo likusonyezera, uinjiniya wa data umakhudzidwa ndi deta, mwachitsanzo, kutumiza, kusungidwa ndi kukonza. Chifukwa chake, ntchito yayikulu ya mainjiniya ndikupereka maziko odalirika a data. Ngati tiyang'ana pazofunikira za AI, uinjiniya wa data umakhala ndi magawo 2-3 oyamba: kusonkhanitsa, kuyenda ndi kusunga, kukonzekera deta.
Kodi injiniya wa data amachita chiyani?
Pakubwera kwa deta yaikulu, kukula kwa udindo wasintha kwambiri. Ngati kale akatswiriwa adalemba mafunso akuluakulu a SQL ndi deta yosungunuka pogwiritsa ntchito zipangizo monga Informatica ETL, Pentaho ETL, Talend, tsopano zofunikira za akatswiri a data zawonjezeka.
Makampani ambiri omwe ali ndi ntchito zotseguka paudindo wa mainjiniya wa data ali ndi izi:
Kudziwa bwino kwa SQL ndi Python.
Dziwani ndi nsanja zamtambo, makamaka Amazon Web Services.
Kudziwa Java/Scala kumakonda.
Kumvetsetsa bwino kwa SQL ndi NoSQL databases (ma data modelling, data warehousing).
Kumbukirani, izi ndi zofunika zokha. Kuchokera pamndandandawu, titha kuganiziridwa kuti mainjiniya a data ndi akatswiri pantchito yokonza mapulogalamu ndi backend.
Mwachitsanzo, ngati kampani iyamba kupanga zambiri kuchokera kuzinthu zosiyanasiyana, ntchito yanu monga injiniya wa deta ndikukonzekera kusonkhanitsa zidziwitso, kukonza ndi kusunga.
Mndandanda wa zida zomwe zimagwiritsidwa ntchito pankhaniyi zingakhale zosiyana, zonse zimadalira kuchuluka kwa deta iyi, kuthamanga kwa chiphaso chake ndi heterogeneity. Makampani ambiri samachita ndi deta yayikulu nkomwe, kotero monga malo osungiramo malo, otchedwa malo osungiramo deta, mungagwiritse ntchito database ya SQL (PostgreSQL, MySQL, etc.) ndi zolemba zazing'ono zomwe zimadyetsa deta. nyumba yosungiramo katundu.
Zimphona za IT monga Google, Amazon, Facebook kapena Dropbox zili ndi zofunikira zapamwamba: chidziwitso cha Python, Java kapena Scala.
Zochitika ndi data yayikulu: Hadoop, Spark, Kafka.
Choyamba, muyenera kudziwa kuti pali zosadziwika bwino pofotokozera maudindo ndi luso la wasayansi wa data ndi injiniya wa data. Ndiko kuti, mutha kusokonezedwa mosavuta ndi maluso ati omwe amafunikira kuti mukhale mainjiniya opambana. Inde, pali maluso ena omwe amafanana ndi maudindo onse awiri. Koma palinso maluso angapo otsutsana ndi diametrically.
Sayansi ya data ndi bizinesi yayikulu, koma tikupita kudziko la sayansi yama data komwe akatswiri amatha kusanthula okha. Kuti mutsegule mapaipi a data ndi ma data ophatikizika, mufunika akatswiri opanga ma data, osati asayansi a data.
Kodi injiniya wa data amafunidwa kwambiri kuposa wasayansi wa data?
Wopanga ma data amamvetsetsa bwino mapulogalamu kuposa wasayansi aliyense wa data, koma zikafika pamawerengero, zosiyana ndizowona.
Koma nayi mwayi wa mainjiniya wa data:
Popanda iye, mtengo wachitsanzo, nthawi zambiri wokhala ndi kachidutswa koyipa koyipa mu fayilo ya Python, yopezedwa kuchokera kwa wasayansi wa data ndipo mwanjira ina kutulutsa zotsatira, imakhala zero.
Popanda injiniya wa data, code iyi sidzakhala projekiti ndipo palibe vuto la bizinesi lomwe lidzathetsedwa bwino. Wopanga data akuyesera kusandutsa zonsezi kukhala chinthu.
Zambiri zomwe injiniya wa data ayenera kudziwa
Chifukwa chake, ngati ntchitoyi ikutulutsa kuwala mwa inu ndipo muli okondwa - mutha kuiphunzira, mutha kudziwa maluso onse ofunikira ndikukhala nyenyezi yeniyeni pazaumisiri wa data. Ndipo, inde, mutha kuzichotsa ngakhale popanda luso la pulogalamu kapena chidziwitso china chaukadaulo. Ndizovuta, koma zotheka!
Masitepe oyamba ndi ati?
Muyenera kukhala ndi lingaliro wamba kuti ndi chiyani.
Choyamba, Data Engineering imanena za sayansi yamakompyuta. Makamaka, muyenera kumvetsetsa bwino ma algorithms ndi ma data. Kachiwiri, popeza akatswiri opanga ma data amagwira ntchito ndi data, ndikofunikira kumvetsetsa mfundo za nkhokwe ndi mapangidwe omwe amawatsogolera.
Mwachitsanzo, nkhokwe zanthawi zonse za B-tree SQL zimatengera kapangidwe ka data ka B-Tree, komanso, m'malo osungira amakono, LSM-Tree ndi zosintha zina zama hashi.
Kugwiritsa ntchito njira yoyenera ya data kumatha kusintha kwambiri magwiridwe antchito a algorithm. Moyenera, tonse tiyenera kuphunzira za kapangidwe ka data ndi ma aligorivimu m'masukulu athu, koma izi sizikambidwa. Mulimonsemo, sikuchedwa kwambiri kuti mudziwe bwino.
Chifukwa chake nayi maphunziro anga aulere omwe ndimawakonda ophunzirira mapangidwe a data ndi ma aligorivimu:
Komanso musaiwale za ntchito yapamwamba ya Thomas Corman pa ma algorithms - Chidziwitso cha ma algorithms. Uwu ndiye katchulidwe koyenera mukafuna kutsitsimutsa kukumbukira kwanu.
Moyo wathu wonse ndi data. Ndipo kuti mutenge deta iyi kuchokera ku database, muyenera "kulankhula" chinenero chomwecho.
SQL (Structured Query Language) ndi chilankhulo choyankhulirana mu data domain. Mosasamala kanthu za zomwe wina akunena, SQL wakhalapo, ali moyo, ndipo adzakhala ndi moyo kwa nthawi yaitali kwambiri.
Ngati mwakhala mukukula kwa nthawi yayitali, mwina mwawona kuti mphekesera za imfa ya SQL yomwe ili pafupi imapezeka nthawi ndi nthawi. Chilankhulochi chinapangidwa kumayambiriro kwa zaka za m'ma 70 ndipo chikadali chodziwika kwambiri pakati pa akatswiri, opanga mapulogalamu komanso okonda chabe.
Popanda chidziwitso cha SQL palibe chochita muukadaulo wa data chifukwa mudzayenera kupanga mafunso kuti mutengenso deta. Malo onse amakono osungiramo data amathandizira SQL:
Redshift ya Amazon
HP Vertica
Oracle
SQL Server
... ndi ena ambiri.
Kusanthula deta yaikulu yosungidwa mu machitidwe ogawidwa monga HDFS, injini za SQL zinapangidwa: Apache Hive, Impala, etc. Onani, sizikupita kulikonse.
Kodi kuphunzira SQL? Ingochitani muzochita.
Kuti muchite izi, ndikupangira kuyang'ana maphunziro abwino kwambiri, omwe, mwa njira, ndi aulere, kuchokera Mode Analytics.
Kudziwa kwa nsanja imodzi yamtambo kuli pamndandanda wazofunikira kwa omwe adzalembetse udindo wa mainjiniya a data. Olemba ntchito amakonda Amazon Web Services, ndi nsanja yamtambo ya Google pamalo achiwiri ndipo Microsoft Azure ikutulutsa atatu apamwamba.
Muyenera kukhala ndi chidziwitso chabwino cha Amazon EC2, AWS Lambda, Amazon S3, DynamoDB.
6. machitidwe ogawidwa
Kugwira ntchito ndi data yayikulu kumatanthawuza kukhalapo kwa magulu a makompyuta odzipangira okha, kulumikizana komwe kumachitika pamaneti. Kukula kwa tsango, kumapangitsanso mwayi wolephera kwa ma membala ake. Kuti mukhale wasayansi wamkulu wa data, muyenera kumvetsetsa zovuta ndi mayankho omwe alipo pamachitidwe ogawidwa. Malowa ndi akale komanso ovuta.
Andrew Tanenbaum amaonedwa kuti ndi mpainiya pantchito imeneyi. Kwa iwo omwe saopa chiphunzitso, ndikupangira buku lake "Distributed Systems", zingawoneke zovuta kwa oyamba kumene, koma zidzakuthandizani kukulitsa luso lanu.
Izi ndi zochepa chabe mwazofunikira kuti mukhale injiniya wa data, kotero phunzirani ndikumvetsetsa machitidwe a deta, machitidwe a chidziwitso, kutumiza kosalekeza / kutumiza / kuphatikiza, zilankhulo zamapulogalamu, ndi mitu ina ya sayansi ya makompyuta (osati nkhani zonse).
Ndipo potsiriza, chinthu chomaliza koma chofunika kwambiri chimene ndikufuna kunena.
Njira yoti mukhale Data Engineering siyosavuta monga momwe ingawonekere. Sakhululukira, amakhumudwitsa, ndipo muyenera kukonzekera izi. Nthawi zina paulendowu zitha kukukakamizani kuti mugonje. Koma iyi ndi ntchito yeniyeni komanso njira yophunzirira.