A rèir
Rinn mi mion-sgrùdadh air dreuchdan bàna airson suidheachadh innleadair dàta mar a tha iad san Fhaoilleach 2020 gus tuigsinn dè na sgilean teicneòlais as mòr-chòrdte. An uairsin rinn mi coimeas eadar na toraidhean agus staitistig air dreuchdan bàna airson suidheachadh neach-saidheans dàta - agus nochd eadar-dhealachaidhean inntinneach.
Às aonais mòran ro-ràdh, seo na deich teicneòlasan as fheàrr a tha air an ainmeachadh as trice ann am postan obrach:
Iomradh air teicneòlasan ann an dreuchdan bàn airson suidheachadh innleadair dàta ann an 2020
Dleastanasan innleadair dàta
An-diugh, tha an obair a bhios innleadairean dàta a’ dèanamh air leth cudromach do bhuidhnean - is iad sin na daoine air a bheil uallach airson fiosrachadh a stòradh agus a thoirt a-steach ann an cruth a dh’ fhaodas luchd-obrach eile obrachadh leis. Bidh innleadairean dàta a’ togail phìoban gus dàta a shruthadh no a bhacadh bho ioma-stòr. Bidh pìoban an uairsin a’ dèanamh obair às-tharraing, cruth-atharrachaidh agus luchdachadh (ann am faclan eile, pròiseasan ETL), a’ dèanamh an dàta nas freagarraiche airson tuilleadh cleachdaidh. Às deidh seo, thèid an dàta a chuir a-steach gu sgrùdairean agus luchd-saidheans dàta airson giollachd nas doimhne. Mu dheireadh, tha an dàta a’ crìochnachadh a thuras ann an deas-bhòrdan, aithisgean, agus modalan ionnsachaidh innealan.
Bha mi a’ coimhead airson fiosrachadh a leigeadh leam co-dhùnadh a dhèanamh mu na teicneòlasan as motha a tha a dhìth ann an obair innleadair dàta an-dràsta.
Dòighean
Chruinnich mi fiosrachadh bho thrì làraich rannsachaidh obrach -
Airson gach prìomh fhacal, rinn mi cunntas air an àireamh sa cheud de bhuaidhean bhon àireamh iomlan de theacsaichean air gach làrach fa leth, agus an uairsin rinn mi cunntas air a’ chuibheasachd airson nan trì stòran.
Toraidhean
Gu h-ìosal tha na trithead teirm innleadaireachd dàta teicnigeach leis na sgòran as àirde thar nan trì làraich obrach.
Agus seo na h-aon àireamhan, ach air an taisbeanadh ann an cruth clàr:
Rachamaid ann an òrdugh.
Lèirmheas air toraidhean
Bidh an dà chuid SQL agus Python a’ nochdadh ann am barrachd air dà thrian de na fosglaidhean obrach a chaidh ath-sgrùdadh. Is e an dà theicneòlas seo a tha ciallach sgrùdadh a dhèanamh an toiseach.
Tha Spark air ainmeachadh ann an mu leth de na dreuchdan bàna.
Tha AWS a’ nochdadh ann an timcheall air 45% de phuist obrach. Is e àrd-ùrlar coimpiutaireachd sgòthan a th’ ann air a dhèanamh le Amazon; tha an roinn margaidh as motha aige am measg gach àrd-ùrlar sgòthan.
An uairsin thig Java agus Hadoop - beagan a bharrachd air 40% airson am bràthair.
Tha e coltach ri bhith a’ marcachd ann an inneal ùine
An uairsin chì sinn Hive, Scala, Kafka agus NoSQL - tha gach aon de na teicneòlasan sin air ainmeachadh ann an cairteal de na dreuchdan bàna a chaidh a chuir a-steach. Is e bathar-bog taigh-bathair dàta a th’ ann an Apache Hive a tha “ga dhèanamh furasta stòran-dàta mòra a tha a’ fuireach ann an stòran sgaoilte a ’cleachdadh SQL a leughadh, a sgrìobhadh agus a riaghladh.”
Coimeas ri teirmean ann an dreuchdan bàna luchd-saidheans
Seo trithead teirm teicneòlais as cumanta am measg luchd-fastaidh saidheans dàta. Fhuair mi an liosta seo san aon dòigh ris a chaidh a mhìneachadh gu h-àrd airson innleadaireachd dàta.
Iomradh air teicneòlas ann an dreuchdan bàn airson dreuchd neach-saidheans dàta ann an 2020
Ma bhruidhneas sinn mun àireamh iomlan, an coimeas ris an àireamh fastaidh a chaidh a mheas roimhe, bha 28% a bharrachd de dhreuchdan bàna ann (12 an aghaidh 013). Chì sinn dè na teicneòlasan nach eil cho cumanta ann an dreuchdan bàn airson luchd-saidheans dàta na airson innleadairean dàta.
Nas mòr-chòrdte ann an innleadaireachd dàta
Tha an graf gu h-ìosal a’ sealltainn prìomh fhaclan le eadar-dhealachadh cuibheasach nas motha na 10% no nas lugha na -10%.
Na h-eadar-dhealachaidhean as motha ann am tricead prìomh fhacal eadar innleadair dàta agus neach-saidheans dàta
Tha AWS a’ sealltainn an àrdachadh as cudromaiche: ann an innleadaireachd dàta tha e a’ nochdadh 25% nas cunbhalaiche na ann an saidheans dàta (timcheall air 45% agus 20% den àireamh iomlan de dhreuchdan bàna, fa leth). Tha an diofar follaiseach!
Seo an aon dàta ann an taisbeanadh beagan eadar-dhealaichte - anns a 'ghraf, tha na toraidhean airson an aon phrìomh fhacal anns na dreuchdan bàna airson suidheachadh innleadair dàta agus neach-saidheans dàta suidhichte taobh ri taobh.
Na h-eadar-dhealachaidhean as motha ann am tricead prìomh fhacal eadar innleadair dàta agus neach-saidheans dàta
Bha an ath leum as motha a thug mi fa-near ann an Spark - gu tric feumaidh innleadair dàta obrachadh le dàta mòr.
Nas lugha mòr-chòrdte ann an innleadaireachd dàta
A-nis chì sinn dè na teicneòlasan nach eil cho mòr-chòrdte ann an dreuchdan bàn einnseanair dàta.
Thachair an crìonadh as motha an coimeas ris an roinn saidheans dàta ann an
Tha iarrtas ann an dà chuid ann an innleadaireachd dàta agus saidheans dàta
Bu chòir a thoirt fa-near gu bheil ochd de na ciad deich dreuchdan anns an dà sheata mar an ceudna. Rinn SQL, Python, Spark, AWS, Java, Hadoop, Hive agus Scala e anns na deich as àirde airson an dà chuid innleadaireachd dàta agus gnìomhachasan saidheans dàta. Anns a 'ghraf gu h-ìosal chì thu na còig teicneòlasan deug as mòr-chòrdte am measg luchd-fastaidh innleadairean dàta, agus ri thaobh tha an ìre bàn aca airson luchd-saidheans dàta.
molaidhean
Ma tha thu airson faighinn a-steach do innleadaireachd dàta, bhithinn a’ comhairleachadh dhut maighstireachd a dhèanamh air na teicneòlasan a leanas - bidh mi gan liostadh ann an òrdugh prìomhachais tuairmseach.
Ionnsaich SQL. Tha mi a’ lùbadh a dh’ionnsaigh PostgreSQL leis gur e stòr fosgailte a th’ ann, a tha mòr-chòrdte sa choimhearsnachd, agus tha e aig ìre fàis. Faodaidh tu ionnsachadh mar a chleachdas tu an cànan bhon leabhar My Memorable SQL - tha an dreach pìleat aige ri fhaighinn
Maighstir Python, eadhon ged nach eil e aig an ìre as cruaidhe. Tha My Memorable Python air a dhealbhadh gu sònraichte airson luchd-tòiseachaidh. Faodar a cheannach aig
Aon uair ‘s gu bheil thu eòlach air Python, gluais air adhart gu pandathan, leabharlann Python a thathas a’ cleachdadh airson glanadh agus giullachd dàta. Ma tha thu ag amas air a bhith ag obair ann an companaidh a dh’ fheumas an comas sgrìobhadh ann am Python (agus seo a’ mhòr-chuid dhiubh), faodaidh tu a bhith cinnteach gun tèid eòlas air pandathan a ghabhail a-steach gu bunaiteach. Tha mi an-dràsta a’ cur crìoch air stiùireadh tòiseachaidh mu bhith ag obair le pandathan - faodaidh tu
Maighstir AWS. Ma tha thu airson a bhith nad innleadair dàta, chan urrainn dhut a dhèanamh às aonais àrd-ùrlar sgòthan san stash, agus is e AWS am fear as mòr-chòrdte dhiubh. Chuidich na cùrsaichean mi gu mòr
Ma tha thu air an liosta iomlan seo a chrìochnachadh mu thràth agus gu bheil thu airson fàs nas motha ann an sùilean luchd-fastaidh mar innleadair dàta, tha mi a ’moladh Apache Spark a chuir ris airson a bhith ag obair le dàta mòr. Ged a sheall an rannsachadh agam air dreuchdan neach-saidheans dàta lùghdachadh ann an ùidh, am measg innleadairean dàta tha e fhathast a’ nochdadh anns cha mhòr a h-uile dàrna àite bàn.
Напоследок
Tha mi an dòchas gun d'fhuair thu feum air an ath-shealladh seo de na teicneòlasan as motha a tha a dhìth airson innleadairean dàta. Ma tha thu a’ faighneachd ciamar a tha obraichean anailis a’ dèanamh, leugh
Source: www.habr.com