Ny fahaiza-manao ilaina indrindra amin'ny asa injeniera data

Araka ny statistika 2019, injeniera momba ny data dia asa izay mitombo haingana kokoa noho ny hafa ny fangatahana. Ny injeniera data dia manana anjara toerana lehibe amin'ny fikambanana iray - mamorona sy mitahiry fantsona sy angona ampiasaina amin'ny fanodinana, fanovana ary fitahirizana angona. Inona no fahaiza-manao ilain'ny solontenan'ity asa ity voalohany indrindra? Tsy mitovy amin'izay takian'ny mpahay siansa momba ny data ve ny lisitra? Hianatra momba izany rehetra izany avy amin'ny lahatsoratro ianao.

Nandinika ny fahabangan-toerana ho an'ny toeran'ny injeniera data aho satria tamin'ny Janoary 2020 mba hahafantarana hoe iza amin'ireo fahaiza-manao teknolojia no malaza indrindra. Avy eo dia nampitahaiko tamin'ny antontan'isa momba ny fahabangan-toerana ho an'ny toeran'ny siantifika data ny valiny - ary nipoitra ny fahasamihafana mahaliana sasany.

Raha tsy misy santatra be dia be, ireto ny teknolojia folo voalohany voatonona matetika amin'ny fandefasana asa:

Ny fahaiza-manao ilaina indrindra amin'ny asa injeniera data

Fanononana ny teknolojia amin'ny fahabangan-toerana ho an'ny toeran'ny injeniera data amin'ny taona 2020

Aoka ho azontsika izany.

Ny andraikitry ny injeniera data

Amin'izao fotoana izao, ny asa ataon'ny injeniera data dia manan-danja lehibe ho an'ny fikambanana - ireo no olona tompon'andraikitra amin'ny fitehirizana vaovao sy mitondra izany amin'ny endrika izay ahafahan'ny mpiasa hafa miara-miasa aminy. Ny injeniera data dia manamboatra fantsona handefasana na batch data avy amin'ny loharano maro. Ny fantsona dia manao ny fitrandrahana, ny fanovana ary ny fandefasana entana (amin'ny teny hafa, ny fizotran'ny ETL), ka mahatonga ny angon-drakitra ho azo ampiasaina bebe kokoa. Aorian'izany dia atolotra ny mpandinika sy ny mpahay siansa momba ny angona ho an'ny fanodinana lalindalina kokoa. Farany, mamarana ny diany amin'ny dashboard, tatitra ary maodely fianarana milina ny angon-drakitra.

Nitady fampahafantarana aho izay mety hahafahako manatsoaka hevitra momba ny teknolojia tena ilaina indrindra amin'ny asan'ny injeniera data amin'izao fotoana izao.

fomba

Nanangona vaovao avy amin'ny tranokalam-pikarohana asa telo aho βˆ’ SimpleHired, Tokoa ΠΈ Monster ary nijery izay teny fanalahidy nifandona tamin'ny β€œinjeniera momba ny angona” tao amin'ny lahatsoratry ny fahabangan-toerana natao ho an'ny mponina amerikana. Ho an'ity asa ity dia nampiasa tranomboky Python roa aho βˆ’ Requests ΠΈ Soup tsara tarehy. Anisan'ireo teny fanalahidy, nampidiriko ireo izay nampidirina tao amin'ny lisitra teo aloha ho an'ny famakafakana ny toerana banga ho an'ny toeran'ny mpahay siansa momba ny angona, ary ireo izay nofidiako tanana teo am-pamakiana tolotra asa ho an'ny injeniera data. LinkedIn dia tsy tafiditra tao amin'ny lisitry ny loharano, satria voarara tao aho taorian'ny fiezahana farany nanangona angona.

Ho an'ny teny fototra tsirairay, dia nanao kajy ny isan-jaton'ny hitifitra avy amin'ny fitambaran'ny lahatsoratra amin'ny tranokala tsirairay aho, ary avy eo dia nanao kajy ny salan'isa ho an'ireo loharano telo.

vokatra

Ireto ambany ireto ny teny teknika momba ny angona teknika telopolo miaraka amin'ny naoty ambony indrindra amin'ny tranokalan'ny asa telo.

Ny fahaiza-manao ilaina indrindra amin'ny asa injeniera data

Ary ireto misy isa mitovy, fa aseho amin'ny endrika latabatra:

Ny fahaiza-manao ilaina indrindra amin'ny asa injeniera data

Andao hilamina.

Famerenana ny valiny

Samy miseho amin'ny roa ampahatelon'ny fanokafana asa nodinihina ny SQL sy Python. Ireo teknolojia roa ireo no misy dikany ny mianatra aloha. Python dia fiteny fandaharana malaza be ampiasaina amin'ny fiasana amin'ny angon-drakitra, famoronana vohikala, ary fanoratana script. SQL dia midika hoe Fiteny Fanontaniana Miorina; tafiditra ao anatin'izany ny fenitra napetraky ny vondrona fiteny ary ampiasaina haka angon-drakitra avy amin'ny angon-drakitra mifandraika. Efa ela no nisehoan'izany ary voaporofo fa tena mahatohitra.

Spark dia voatonona eo amin'ny antsasaky ny toerana banga. Apache Spark dia "motera famakafakana data lehibe mitambatra miaraka amin'ny maodely namboarina ho an'ny streaming, SQL, fianarana milina ary fanodinana sary." Izy io dia malaza indrindra amin'ireo izay miasa amin'ny angon-drakitra lehibe.

AWS dia miseho amin'ny 45% eo ho eo amin'ny fandefasana asa. Izy io dia sehatra informatika rahona novokarin'ny Amazon; izy no manana ny tsena lehibe indrindra amin'ireo sehatra rahona rehetra.
Avy eo Java sy Hadoop - mihoatra ny 40% ho an'ny rahalahiny. Java dia fiteny be mpampiasa, voasedra ady izay 2019 Stack Overflow Developer Survey nahazo ny toerana fahafolo amin'ireo fiteny izay miteraka horohoro eo amin'ny mpandrindra. Mifanohitra amin'izany kosa, ny Python no fiteny faharoa tiana indrindra. Ny fiteny Java dia tantanan'ny Oracle, ary ny zavatra rehetra tokony ho fantatrao momba azy dia azo takarina amin'ity pikantsary ity amin'ny pejy ofisialy nanomboka ny Janoary 2020.

Ny fahaiza-manao ilaina indrindra amin'ny asa injeniera data

Toy ny mandeha amin’ny masinina fotoana
Apache Hadoop dia mampiasa ny maodely fandaharana MapReduce miaraka amin'ny cluster mpizara ho an'ny angona lehibe. Ankehitriny ity maodely ity dia tsy mitsaha-mitombo.

Avy eo isika dia mahita Hive, Scala, Kafka ary NoSQL - ny tsirairay amin'ireo teknolojia ireo dia voalaza ao amin'ny ampahefatry ny fahabangan-toerana natolotra. Apache Hive dia rindrambaiko fitahirizana angon-drakitra izay "manamora ny famakiana, ny fanoratana ary ny fitantanana ny angona lehibe mipetraka ao amin'ny fivarotana mizara mampiasa SQL." Scala - fiteny fandaharana izay ampiasaina mavitrika rehefa miasa amin'ny data lehibe. Indrindra indrindra, Spark dia noforonina tao amin'ny Scala. Ao amin'ny laharan'ny fiteny atahorana efa voalaza, ny Scala dia laharana faha-11. Apache Kafka – sehatra zaraina amin'ny fanodinana hafatra mivantana. Tena malaza ho toy ny fomba fampitana angona.

Databases NoSQL mifanohitra amin'ny SQL. Tsy mitovy izy ireo amin'ny hoe tsy mifandray, tsy voarafitra, ary mitsivalana. Nahazo laza ny NoSQL, saingy toa efa tapitra ny fitiavam-bola amin'ny fomba fiasa, eny fa na dia amin'ny faminaniana aza fa hanolo ny SQL ho toy ny paradigma fitahirizana lehibe.

Ampitahao amin'ny teny ao amin'ny fahabangan'ny siantifika data

Ireto misy teny teknolojia telopolo mahazatra indrindra amin'ireo mpampiasa momba ny siansa data. Nahazo ity lisitra ity aho tamin'ny fomba mitovy amin'ny voalaza etsy ambony momba ny injeniera data.

Ny fahaiza-manao ilaina indrindra amin'ny asa injeniera data

Fanononana ny teknolojia amin'ny fahabangan'ny toeran'ny mpahay siansa data amin'ny taona 2020

Raha ny fitambaran'ny isa no resahina, raha ampitahaina amin'ny fandraisana mpiasa noheverina teo aloha dia nitombo 28% ny toerana banga (12 versus 013). Andeha hojerentsika hoe iza amin'ireo teknolojia no tsy fahita firy amin'ny toerana banga ho an'ny mpahay siansa momba ny data noho ny an'ny injeniera momba ny data.

Malaza kokoa amin'ny engineering data

Ny tabilao etsy ambany dia mampiseho teny fanalahidy misy fahasamihafana eo ho eo mihoatra ny 10% na latsaky ny -10%.

Ny fahaiza-manao ilaina indrindra amin'ny asa injeniera data

Ny fahasamihafana lehibe indrindra amin'ny fatran'ny teny fototra eo amin'ny injeniera data sy ny mpahay siansa data

Ny AWS dia mampiseho ny fitomboana lehibe indrindra: amin'ny injeniera data dia miseho 25% matetika kokoa noho ny amin'ny siansa momba ny data (eo ho eo amin'ny 45% sy 20% amin'ny fitambaran'ny isan'ny banga). Miharihary ny fahasamihafana!

Ity ny angon-drakitra mitovy amin'ny famelabelarana hafa kely - eo amin'ny grafika, mifanila ny valin'ny teny fanalahidy mitovy amin'ny toerana banga ho an'ny toeran'ny injeniera data sy ny mpahay siansa data.

Ny fahaiza-manao ilaina indrindra amin'ny asa injeniera data

Ny fahasamihafana lehibe indrindra amin'ny fatran'ny teny fototra eo amin'ny injeniera data sy ny mpahay siansa data

Ny fitsambikinana lehibe indrindra nomarihiko dia tao amin'ny Spark - injeniera data matetika dia tsy maintsy miasa amin'ny angona lehibe. Kafka nitombo 20% ihany koa, izany hoe, efa ho avo efatra heny raha oharina amin'ny vokatra ho an'ny fahabangan'ny mpahay siansa data. Ny famindrana angon-drakitra dia iray amin'ireo andraikitry ny injeniera data. Farany, ny isan'ny voatonona dia 15% ambony kokoa amin'ny sehatry ny injeniera data ho an'ny Java, NoSQL, Redshift, SQL ary Hadoop.

Tsy dia malaza amin'ny injeniera data

Andeha hojerentsika izay teknolojia tsy dia malaza amin'ny fahabangan'ny injeniera data.
Ny fihenan'ny maranitra indrindra raha oharina amin'ny sehatry ny siansa data dia niseho tamin'ny R: tao izy no niseho teo amin'ny 56% eo ho eo amin'ny toerana banga, eto - 17% ihany. Mahavariana. R dia fiteny fandaharana izay tian'ny mpahay siansa sy ny statistika, ary izy no fiteny fahavalo atahorana indrindra eran-tany.

SAS dia hita ihany koa amin'ny fahabangan-toerana ho an'ny toeran'ny injeniera data matetika kokoa - ny fahasamihafana dia 14%. SAS dia fiteny manan-tompo natao hiasa amin'ny antontan'isa sy angona. Hevi-dehibe: raha tsaraina amin'ny vokatra ny fikarohako momba ny fanokafana asa ho an'ny mpahay siansa momba ny data, very tany be izy vao haingana β€” mihoatra noho ny teknolojia hafa rehetra.

Amin'ny fangatahana amin'ny injeniera data sy ny siansa data

Marihina fa mitovy ny laharana valo amin’ireo folo voalohany amin’ireo seta roa ireo. Ny SQL, Python, Spark, AWS, Java, Hadoop, Hive ary Scala dia nahatonga azy ho folo voalohany ho an'ny indostrian'ny engineering data sy ny data science. Ao amin'ny tabilao etsy ambany ianao dia afaka mahita ireo teknolojia dimy ambin'ny folo malaza indrindra eo amin'ireo mpampiasa injeniera data, ary manaraka azy ireo ny tahan'ny fahabangan'izy ireo ho an'ny mpahay siansa momba ny data.

Ny fahaiza-manao ilaina indrindra amin'ny asa injeniera data

tolo-kevitra

Raha te-hiditra amin'ny injeniera data ianao dia manoro hevitra anao aho mba hifehy ireto teknolojia manaraka ireto - tanisaiko araka ny laharam-pahamehana eo ho eo izy ireo.

Mianara SQL. Miantehitra amin'ny PostgreSQL aho satria loharano misokatra, malaza eo amin'ny fiaraha-monina, ary ao anatin'ny dingana fitomboana. Azonao atao ny mianatra ny fomba fampiasana ilay fiteny avy amin'ny boky My Memorable SQL - misy ny kinova pilotany eto.

Master Python, na dia tsy amin'ny haavo mafy indrindra aza. Ny Python Memorable dia natao manokana ho an'ireo vao manomboka. Azo vidiana amin'ny Amazon, kopia elektronika na fizika, safidinao, na alaivo amin'ny endrika pdf na epub ao amin'ity tranokala ity.

Rehefa zatra amin'ny Python ianao dia mandehana mankany amin'ny pandas, tranomboky Python ampiasaina amin'ny fanadiovana sy fanodinana angon-drakitra. Raha mikasa ny hiasa ao amin'ny orinasa iray izay mitaky fahaizana manoratra amin'ny Python ianao (ary ity no ankamaroan'izy ireo), azonao antoka fa ny fahalalana momba ny panda dia raisina amin'ny alΓ lan'ny default. Amin'izao fotoana izao dia mamarana torolalana fampidirana amin'ny fiaraha-miasa amin'ny panda aho - azonao atao famandrihanamba tsy ho diso ny fotoana fanafahana.

Master AWS. Raha te ho lasa injeniera data ianao dia tsy afaka manao raha tsy misy sehatra rahona ao anaty tahiry, ary AWS no malaza indrindra amin'izy ireo. Nanampy ahy betsaka ny fampianarana Linux Academyfony aho nianatra injeniera angona ao amin'ny Google Cloud, Heveriko fa hanana fitaovana tsara amin'ny AWS ihany koa izy ireo.

Raha efa nahavita an'ity lisitra manontolo ity ianao ary te-hitombo bebe kokoa eo imason'ny mpampiasa amin'ny maha-injeniera data azy, dia manoro hevitra aho ny hampiditra Apache Spark hiasa amin'ny angona lehibe. Na dia nampiseho fihenan'ny fahalianana aza ny fikarohana nataoko momba ny fahabangan'ny mpahay siansa momba ny angona, eo amin'ireo injeniera momba ny angon-drakitra dia mbola miseho hatrany izany saika isaky ny fahabangan-toerana.

Farany

Manantena aho fa nahasoa anao ity topimaso momba ny teknolojia tena ilaina indrindra ho an'ny injeniera data ity. Raha manontany tena ianao hoe ahoana ny fandehan'ny asan'ny mpandinika dia vakio ny lahatsoratro hafa. Happy engineering!

Source: www.habr.com

Add a comment