Na sgilean as motha a tha ag iarraidh ann an dreuchd innleadair dàta

A rèir staitistig 2019, tha innleadair dàta an-dràsta na dhreuchd aig a bheil iarrtas a’ fàs nas luaithe na gin eile. Tha àite deatamach aig innleadair dàta ann am buidheann - a’ cruthachadh agus a’ cumail suas phìoban agus stòran-dàta a thathas a’ cleachdadh gus dàta a ghiullachd, a chruth-atharrachadh agus a stòradh. Dè na sgilean a dh’ fheumas riochdairean bhon dreuchd seo an toiseach? A bheil an liosta eadar-dhealaichte bho na tha a dhìth air luchd-saidheans dàta? Ionnsaichidh tu mu dheidhinn seo uile bhon artaigil agam.

Rinn mi mion-sgrùdadh air dreuchdan bàna airson suidheachadh innleadair dàta mar a tha iad san Fhaoilleach 2020 gus tuigsinn dè na sgilean teicneòlais as mòr-chòrdte. An uairsin rinn mi coimeas eadar na toraidhean agus staitistig air dreuchdan bàna airson suidheachadh neach-saidheans dàta - agus nochd eadar-dhealachaidhean inntinneach.

Às aonais mòran ro-ràdh, seo na deich teicneòlasan as fheàrr a tha air an ainmeachadh as trice ann am postan obrach:

Na sgilean as motha a tha ag iarraidh ann an dreuchd innleadair dàta

Iomradh air teicneòlasan ann an dreuchdan bàn airson suidheachadh innleadair dàta ann an 2020

Leigamaid a-mach e.

Dleastanasan innleadair dàta

An-diugh, tha an obair a bhios innleadairean dàta a’ dèanamh air leth cudromach do bhuidhnean - is iad sin na daoine air a bheil uallach airson fiosrachadh a stòradh agus a thoirt a-steach ann an cruth a dh’ fhaodas luchd-obrach eile obrachadh leis. Bidh innleadairean dàta a’ togail phìoban gus dàta a shruthadh no a bhacadh bho ioma-stòr. Bidh pìoban an uairsin a’ dèanamh obair às-tharraing, cruth-atharrachaidh agus luchdachadh (ann am faclan eile, pròiseasan ETL), a’ dèanamh an dàta nas freagarraiche airson tuilleadh cleachdaidh. Às deidh seo, thèid an dàta a chuir a-steach gu sgrùdairean agus luchd-saidheans dàta airson giollachd nas doimhne. Mu dheireadh, tha an dàta a’ crìochnachadh a thuras ann an deas-bhòrdan, aithisgean, agus modalan ionnsachaidh innealan.

Bha mi a’ coimhead airson fiosrachadh a leigeadh leam co-dhùnadh a dhèanamh mu na teicneòlasan as motha a tha a dhìth ann an obair innleadair dàta an-dràsta.

Dòighean

Chruinnich mi fiosrachadh bho thrì làraich rannsachaidh obrach - Dìreach dìreach, Gu dearbh и Uile-bhèist agus choimhead sinn air na prìomh fhaclan a thàinig tarsainn ann an co-bhonn ri “innleadair dàta” ann an teacsaichean dreuchdan bàna a bha ag amas air luchd-còmhnaidh na SA. Airson na h-obrach seo chleachd mi dà leabharlann Python - iarrtasan и Brot àlainn. Am measg nam prìomh fhaclan, thug mi a-steach an dà chuid an fheadhainn a bha air an liosta roimhe airson sgrùdadh a dhèanamh air dreuchdan bàna airson suidheachadh neach-saidheans dàta, agus an fheadhainn a thagh mi le làimh fhad ‘s a bha mi a’ leughadh tairgsean obrach airson innleadairean dàta. Cha robh LinkedIn air a thoirt a-steach don liosta stòran, oir chaidh mo thoirmeasg an sin às deidh an oidhirp mu dheireadh agam dàta a chruinneachadh.

Airson gach prìomh fhacal, rinn mi cunntas air an àireamh sa cheud de bhuaidhean bhon àireamh iomlan de theacsaichean air gach làrach fa leth, agus an uairsin rinn mi cunntas air a’ chuibheasachd airson nan trì stòran.

Toraidhean

Gu h-ìosal tha na trithead teirm innleadaireachd dàta teicnigeach leis na sgòran as àirde thar nan trì làraich obrach.

Na sgilean as motha a tha ag iarraidh ann an dreuchd innleadair dàta

Agus seo na h-aon àireamhan, ach air an taisbeanadh ann an cruth clàr:

Na sgilean as motha a tha ag iarraidh ann an dreuchd innleadair dàta

Rachamaid ann an òrdugh.

Lèirmheas air toraidhean

Bidh an dà chuid SQL agus Python a’ nochdadh ann am barrachd air dà thrian de na fosglaidhean obrach a chaidh ath-sgrùdadh. Is e an dà theicneòlas seo a tha ciallach sgrùdadh a dhèanamh an toiseach. Python na chànan prògramaidh mòr-chòrdte a thathas a’ cleachdadh airson obrachadh le dàta, cruthachadh làraich-lìn, agus sgrìobhadh sgriobtaichean. SQL a’ seasamh airson Structured Query Language; tha e a’ toirt a-steach inbhe air a chuir an gnìomh le buidheann de chànanan agus air a chleachdadh gus dàta fhaighinn air ais bho stòran-dàta dàimh. Nochd e o chionn fhada agus tha e air dearbhadh gu bheil e gu math seasmhach.

Tha Spark air ainmeachadh ann an mu leth de na dreuchdan bàna. Apache Spark na “einnsean anailis dàta mòr aonaichte le modalan togte airson sruthadh, SQL, ionnsachadh innealan, agus giullachd ghraf.” Tha e gu sònraichte mòr-chòrdte am measg an fheadhainn a tha ag obair le stòran-dàta mòra.

Tha AWS a’ nochdadh ann an timcheall air 45% de phuist obrach. Is e àrd-ùrlar coimpiutaireachd sgòthan a th’ ann air a dhèanamh le Amazon; tha an roinn margaidh as motha aige am measg gach àrd-ùrlar sgòthan.
An uairsin thig Java agus Hadoop - beagan a bharrachd air 40% airson am bràthair. Java 'S e cànan farsaing, deuchainn-blàir a th' ann Sgrùdadh leasaiche thar-shruth 2019 Stack fhuair e an deicheamh àite am measg nan cànanan a tha ag adhbhrachadh uabhas am measg luchd-prògramaidh. An coimeas ri sin, b’ e Python an dàrna cànan as mòr-chòrdte. Tha an cànan Java air a ruith le Oracle, agus faodar a h-uile dad a dh’ fheumas tu a bhith agad mu dheidhinn a thuigsinn bhon dealbh-sgrìn seo den duilleag oifigeil bhon Fhaoilleach 2020.

Na sgilean as motha a tha ag iarraidh ann an dreuchd innleadair dàta

Tha e coltach ri bhith a’ marcachd ann an inneal ùine
Apache Hadoop a’ cleachdadh modal prògramadh MapReduce le cruinneachaidhean frithealaiche airson dàta mòr. A-nis tha am modail seo air a thrèigsinn barrachd is barrachd.

An uairsin chì sinn Hive, Scala, Kafka agus NoSQL - tha gach aon de na teicneòlasan sin air ainmeachadh ann an cairteal de na dreuchdan bàna a chaidh a chuir a-steach. Is e bathar-bog taigh-bathair dàta a th’ ann an Apache Hive a tha “ga dhèanamh furasta stòran-dàta mòra a tha a’ fuireach ann an stòran sgaoilte a ’cleachdadh SQL a leughadh, a sgrìobhadh agus a riaghladh.” Scala - cànan prògramadh a thathas a’ cleachdadh gu gnìomhach nuair a bhios tu ag obair le dàta mòr. Gu sònraichte, chaidh Spark a chruthachadh ann an Scala. Anns an rangachadh de chànanan eagallach a chaidh ainmeachadh mar-thà, tha Scala san aonamh àite deug. Apache Kafka - àrd-ùrlar sgaoilte airson a bhith a’ làimhseachadh teachdaireachdan sruthadh. Gu math mòr-chòrdte mar dhòigh air dàta sruthadh.

Stòr-dàta NoSQL dèan coimeas eadar iad fhèin agus SQL. Tha iad eadar-dhealaichte leis gu bheil iad neo-dàimheach, neo-structaraichte, agus scalable gu còmhnard. Tha fèill mhòr air NoSQL, ach tha coltas ann gu bheil an t-iongantas airson an dòigh-obrach, eadhon gu ìre fàisneachdan gun tèid e an àite SQL mar phrìomh phàtran stòraidh, seachad.

Coimeas ri teirmean ann an dreuchdan bàna luchd-saidheans

Seo trithead teirm teicneòlais as cumanta am measg luchd-fastaidh saidheans dàta. Fhuair mi an liosta seo san aon dòigh ris a chaidh a mhìneachadh gu h-àrd airson innleadaireachd dàta.

Na sgilean as motha a tha ag iarraidh ann an dreuchd innleadair dàta

Iomradh air teicneòlas ann an dreuchdan bàn airson dreuchd neach-saidheans dàta ann an 2020

Ma bhruidhneas sinn mun àireamh iomlan, an coimeas ris an àireamh fastaidh a chaidh a mheas roimhe, bha 28% a bharrachd de dhreuchdan bàna ann (12 an aghaidh 013). Chì sinn dè na teicneòlasan nach eil cho cumanta ann an dreuchdan bàn airson luchd-saidheans dàta na airson innleadairean dàta.

Nas mòr-chòrdte ann an innleadaireachd dàta

Tha an graf gu h-ìosal a’ sealltainn prìomh fhaclan le eadar-dhealachadh cuibheasach nas motha na 10% no nas lugha na -10%.

Na sgilean as motha a tha ag iarraidh ann an dreuchd innleadair dàta

Na h-eadar-dhealachaidhean as motha ann am tricead prìomh fhacal eadar innleadair dàta agus neach-saidheans dàta

Tha AWS a’ sealltainn an àrdachadh as cudromaiche: ann an innleadaireachd dàta tha e a’ nochdadh 25% nas cunbhalaiche na ann an saidheans dàta (timcheall air 45% agus 20% den àireamh iomlan de dhreuchdan bàna, fa leth). Tha an diofar follaiseach!

Seo an aon dàta ann an taisbeanadh beagan eadar-dhealaichte - anns a 'ghraf, tha na toraidhean airson an aon phrìomh fhacal anns na dreuchdan bàna airson suidheachadh innleadair dàta agus neach-saidheans dàta suidhichte taobh ri taobh.

Na sgilean as motha a tha ag iarraidh ann an dreuchd innleadair dàta

Na h-eadar-dhealachaidhean as motha ann am tricead prìomh fhacal eadar innleadair dàta agus neach-saidheans dàta

Bha an ath leum as motha a thug mi fa-near ann an Spark - gu tric feumaidh innleadair dàta obrachadh le dàta mòr. Kafka àrdachadh cuideachd le 20%, is e sin, faisg air ceithir tursan an taca ris an toradh airson dreuchdan bàn neach-saidheans dàta. Is e gluasad dàta aon de na prìomh dhleastanasan aig innleadair dàta. Mu dheireadh, bha an àireamh de dh’iomraidhean 15% nas àirde ann an raon innleadaireachd dàta airson Java, NoSQL, Redshift, SQL agus Hadoop.

Nas lugha mòr-chòrdte ann an innleadaireachd dàta

A-nis chì sinn dè na teicneòlasan nach eil cho mòr-chòrdte ann an dreuchdan bàn einnseanair dàta.
Thachair an crìonadh as motha an coimeas ris an roinn saidheans dàta ann an R: an sin nochd e ann an timcheall air 56% de dhreuchdan bàna, an seo - dìreach ann an 17%. drùidhteach. Is e cànan prògramaidh a th’ ann an R a tha a’ còrdadh ri luchd-saidheans agus luchd-staitistig, agus is i an ochdamh cànan as motha a tha fo eagal san t-saoghal.

SAS cuideachd air a lorg ann an dreuchdan bàna airson suidheachadh innleadair dàta gu math nas lugha - is e an eadar-dhealachadh 14%. Is e cànan seilbh a th’ ann an SAS a chaidh a dhealbhadh airson obrachadh le staitistig agus dàta. Puing inntinneach: a 'breithneachadh leis na toraidhean an rannsachadh agam air fosglaidhean obrach airson luchd-saidheans dàta, tha e air tòrr talmhainn a chall o chionn ghoirid - barrachd air teicneòlas sam bith eile.

Tha iarrtas ann an dà chuid ann an innleadaireachd dàta agus saidheans dàta

Bu chòir a thoirt fa-near gu bheil ochd de na ciad deich dreuchdan anns an dà sheata mar an ceudna. Rinn SQL, Python, Spark, AWS, Java, Hadoop, Hive agus Scala e anns na deich as àirde airson an dà chuid innleadaireachd dàta agus gnìomhachasan saidheans dàta. Anns a 'ghraf gu h-ìosal chì thu na còig teicneòlasan deug as mòr-chòrdte am measg luchd-fastaidh innleadairean dàta, agus ri thaobh tha an ìre bàn aca airson luchd-saidheans dàta.

Na sgilean as motha a tha ag iarraidh ann an dreuchd innleadair dàta

molaidhean

Ma tha thu airson faighinn a-steach do innleadaireachd dàta, bhithinn a’ comhairleachadh dhut maighstireachd a dhèanamh air na teicneòlasan a leanas - bidh mi gan liostadh ann an òrdugh prìomhachais tuairmseach.

Ionnsaich SQL. Tha mi a’ lùbadh a dh’ionnsaigh PostgreSQL leis gur e stòr fosgailte a th’ ann, a tha mòr-chòrdte sa choimhearsnachd, agus tha e aig ìre fàis. Faodaidh tu ionnsachadh mar a chleachdas tu an cànan bhon leabhar My Memorable SQL - tha an dreach pìleat aige ri fhaighinn an seo.

Maighstir Python, eadhon ged nach eil e aig an ìre as cruaidhe. Tha My Memorable Python air a dhealbhadh gu sònraichte airson luchd-tòiseachaidh. Faodar a cheannach aig Amazon, leth-bhreac dealanach no corporra, do roghainn, no luchdaich sìos ann an cruth pdf no epub air an làrach seo.

Aon uair ‘s gu bheil thu eòlach air Python, gluais air adhart gu pandathan, leabharlann Python a thathas a’ cleachdadh airson glanadh agus giullachd dàta. Ma tha thu ag amas air a bhith ag obair ann an companaidh a dh’ fheumas an comas sgrìobhadh ann am Python (agus seo a’ mhòr-chuid dhiubh), faodaidh tu a bhith cinnteach gun tèid eòlas air pandathan a ghabhail a-steach gu bunaiteach. Tha mi an-dràsta a’ cur crìoch air stiùireadh tòiseachaidh mu bhith ag obair le pandathan - faodaidh tu fo-sgrìobhadhgus nach caill thu an t-àm fuasglaidh.

Maighstir AWS. Ma tha thu airson a bhith nad innleadair dàta, chan urrainn dhut a dhèanamh às aonais àrd-ùrlar sgòthan san stash, agus is e AWS am fear as mòr-chòrdte dhiubh. Chuidich na cùrsaichean mi gu mòr Acadamaidh Linuxnuair a bha mi ag ionnsachadh innleadaireachd dàta air Google Cloud, tha mi a 'smaoineachadh gum bi stuthan math aca air AWS cuideachd.

Ma tha thu air an liosta iomlan seo a chrìochnachadh mu thràth agus gu bheil thu airson fàs nas motha ann an sùilean luchd-fastaidh mar innleadair dàta, tha mi a ’moladh Apache Spark a chuir ris airson a bhith ag obair le dàta mòr. Ged a sheall an rannsachadh agam air dreuchdan neach-saidheans dàta lùghdachadh ann an ùidh, am measg innleadairean dàta tha e fhathast a’ nochdadh anns cha mhòr a h-uile dàrna àite bàn.

Напоследок

Tha mi an dòchas gun d'fhuair thu feum air an ath-shealladh seo de na teicneòlasan as motha a tha a dhìth airson innleadairean dàta. Ma tha thu a’ faighneachd ciamar a tha obraichean anailis a’ dèanamh, leugh an artaigil eile agam. Innleadaireachd sona!

Source: www.habr.com

Cuir beachd ann