Araka ny
Nandinika ny fahabangan-toerana ho an'ny toeran'ny injeniera data aho satria tamin'ny Janoary 2020 mba hahafantarana hoe iza amin'ireo fahaiza-manao teknolojia no malaza indrindra. Avy eo dia nampitahaiko tamin'ny antontan'isa momba ny fahabangan-toerana ho an'ny toeran'ny siantifika data ny valiny - ary nipoitra ny fahasamihafana mahaliana sasany.
Raha tsy misy santatra be dia be, ireto ny teknolojia folo voalohany voatonona matetika amin'ny fandefasana asa:
Fanononana ny teknolojia amin'ny fahabangan-toerana ho an'ny toeran'ny injeniera data amin'ny taona 2020
Ny andraikitry ny injeniera data
Amin'izao fotoana izao, ny asa ataon'ny injeniera data dia manan-danja lehibe ho an'ny fikambanana - ireo no olona tompon'andraikitra amin'ny fitehirizana vaovao sy mitondra izany amin'ny endrika izay ahafahan'ny mpiasa hafa miara-miasa aminy. Ny injeniera data dia manamboatra fantsona handefasana na batch data avy amin'ny loharano maro. Ny fantsona dia manao ny fitrandrahana, ny fanovana ary ny fandefasana entana (amin'ny teny hafa, ny fizotran'ny ETL), ka mahatonga ny angon-drakitra ho azo ampiasaina bebe kokoa. Aorian'izany dia atolotra ny mpandinika sy ny mpahay siansa momba ny angona ho an'ny fanodinana lalindalina kokoa. Farany, mamarana ny diany amin'ny dashboard, tatitra ary maodely fianarana milina ny angon-drakitra.
Nitady fampahafantarana aho izay mety hahafahako manatsoaka hevitra momba ny teknolojia tena ilaina indrindra amin'ny asan'ny injeniera data amin'izao fotoana izao.
fomba
Nanangona vaovao avy amin'ny tranokalam-pikarohana asa telo aho β
Ho an'ny teny fototra tsirairay, dia nanao kajy ny isan-jaton'ny hitifitra avy amin'ny fitambaran'ny lahatsoratra amin'ny tranokala tsirairay aho, ary avy eo dia nanao kajy ny salan'isa ho an'ireo loharano telo.
vokatra
Ireto ambany ireto ny teny teknika momba ny angona teknika telopolo miaraka amin'ny naoty ambony indrindra amin'ny tranokalan'ny asa telo.
Ary ireto misy isa mitovy, fa aseho amin'ny endrika latabatra:
Andao hilamina.
Famerenana ny valiny
Samy miseho amin'ny roa ampahatelon'ny fanokafana asa nodinihina ny SQL sy Python. Ireo teknolojia roa ireo no misy dikany ny mianatra aloha.
Spark dia voatonona eo amin'ny antsasaky ny toerana banga.
AWS dia miseho amin'ny 45% eo ho eo amin'ny fandefasana asa. Izy io dia sehatra informatika rahona novokarin'ny Amazon; izy no manana ny tsena lehibe indrindra amin'ireo sehatra rahona rehetra.
Avy eo Java sy Hadoop - mihoatra ny 40% ho an'ny rahalahiny.
Toy ny mandeha aminβny masinina fotoana
Avy eo isika dia mahita Hive, Scala, Kafka ary NoSQL - ny tsirairay amin'ireo teknolojia ireo dia voalaza ao amin'ny ampahefatry ny fahabangan-toerana natolotra. Apache Hive dia rindrambaiko fitahirizana angon-drakitra izay "manamora ny famakiana, ny fanoratana ary ny fitantanana ny angona lehibe mipetraka ao amin'ny fivarotana mizara mampiasa SQL."
Ampitahao amin'ny teny ao amin'ny fahabangan'ny siantifika data
Ireto misy teny teknolojia telopolo mahazatra indrindra amin'ireo mpampiasa momba ny siansa data. Nahazo ity lisitra ity aho tamin'ny fomba mitovy amin'ny voalaza etsy ambony momba ny injeniera data.
Fanononana ny teknolojia amin'ny fahabangan'ny toeran'ny mpahay siansa data amin'ny taona 2020
Raha ny fitambaran'ny isa no resahina, raha ampitahaina amin'ny fandraisana mpiasa noheverina teo aloha dia nitombo 28% ny toerana banga (12 versus 013). Andeha hojerentsika hoe iza amin'ireo teknolojia no tsy fahita firy amin'ny toerana banga ho an'ny mpahay siansa momba ny data noho ny an'ny injeniera momba ny data.
Malaza kokoa amin'ny engineering data
Ny tabilao etsy ambany dia mampiseho teny fanalahidy misy fahasamihafana eo ho eo mihoatra ny 10% na latsaky ny -10%.
Ny fahasamihafana lehibe indrindra amin'ny fatran'ny teny fototra eo amin'ny injeniera data sy ny mpahay siansa data
Ny AWS dia mampiseho ny fitomboana lehibe indrindra: amin'ny injeniera data dia miseho 25% matetika kokoa noho ny amin'ny siansa momba ny data (eo ho eo amin'ny 45% sy 20% amin'ny fitambaran'ny isan'ny banga). Miharihary ny fahasamihafana!
Ity ny angon-drakitra mitovy amin'ny famelabelarana hafa kely - eo amin'ny grafika, mifanila ny valin'ny teny fanalahidy mitovy amin'ny toerana banga ho an'ny toeran'ny injeniera data sy ny mpahay siansa data.
Ny fahasamihafana lehibe indrindra amin'ny fatran'ny teny fototra eo amin'ny injeniera data sy ny mpahay siansa data
Ny fitsambikinana lehibe indrindra nomarihiko dia tao amin'ny Spark - injeniera data matetika dia tsy maintsy miasa amin'ny angona lehibe.
Tsy dia malaza amin'ny injeniera data
Andeha hojerentsika izay teknolojia tsy dia malaza amin'ny fahabangan'ny injeniera data.
Ny fihenan'ny maranitra indrindra raha oharina amin'ny sehatry ny siansa data dia niseho tamin'ny
Amin'ny fangatahana amin'ny injeniera data sy ny siansa data
Marihina fa mitovy ny laharana valo aminβireo folo voalohany aminβireo seta roa ireo. Ny SQL, Python, Spark, AWS, Java, Hadoop, Hive ary Scala dia nahatonga azy ho folo voalohany ho an'ny indostrian'ny engineering data sy ny data science. Ao amin'ny tabilao etsy ambany ianao dia afaka mahita ireo teknolojia dimy ambin'ny folo malaza indrindra eo amin'ireo mpampiasa injeniera data, ary manaraka azy ireo ny tahan'ny fahabangan'izy ireo ho an'ny mpahay siansa momba ny data.
tolo-kevitra
Raha te-hiditra amin'ny injeniera data ianao dia manoro hevitra anao aho mba hifehy ireto teknolojia manaraka ireto - tanisaiko araka ny laharam-pahamehana eo ho eo izy ireo.
Mianara SQL. Miantehitra amin'ny PostgreSQL aho satria loharano misokatra, malaza eo amin'ny fiaraha-monina, ary ao anatin'ny dingana fitomboana. Azonao atao ny mianatra ny fomba fampiasana ilay fiteny avy amin'ny boky My Memorable SQL - misy ny kinova pilotany
Master Python, na dia tsy amin'ny haavo mafy indrindra aza. Ny Python Memorable dia natao manokana ho an'ireo vao manomboka. Azo vidiana amin'ny
Rehefa zatra amin'ny Python ianao dia mandehana mankany amin'ny pandas, tranomboky Python ampiasaina amin'ny fanadiovana sy fanodinana angon-drakitra. Raha mikasa ny hiasa ao amin'ny orinasa iray izay mitaky fahaizana manoratra amin'ny Python ianao (ary ity no ankamaroan'izy ireo), azonao antoka fa ny fahalalana momba ny panda dia raisina amin'ny alΓ lan'ny default. Amin'izao fotoana izao dia mamarana torolalana fampidirana amin'ny fiaraha-miasa amin'ny panda aho - azonao atao
Master AWS. Raha te ho lasa injeniera data ianao dia tsy afaka manao raha tsy misy sehatra rahona ao anaty tahiry, ary AWS no malaza indrindra amin'izy ireo. Nanampy ahy betsaka ny fampianarana
Raha efa nahavita an'ity lisitra manontolo ity ianao ary te-hitombo bebe kokoa eo imason'ny mpampiasa amin'ny maha-injeniera data azy, dia manoro hevitra aho ny hampiditra Apache Spark hiasa amin'ny angona lehibe. Na dia nampiseho fihenan'ny fahalianana aza ny fikarohana nataoko momba ny fahabangan'ny mpahay siansa momba ny angona, eo amin'ireo injeniera momba ny angon-drakitra dia mbola miseho hatrany izany saika isaky ny fahabangan-toerana.
Farany
Manantena aho fa nahasoa anao ity topimaso momba ny teknolojia tena ilaina indrindra ho an'ny injeniera data ity. Raha manontany tena ianao hoe ahoana ny fandehan'ny asan'ny mpandinika dia vakio
Source: www.habr.com