Cò a th’ ann an innleadairean dàta, agus ciamar a thig thu gu bhith nad aon?

Halo a-rithist! Tha tiotal an artaigil a’ bruidhinn air a shon fhèin. Le dùil ri toiseach a’ chùrsa Einnseanair dàta Tha sinn a’ moladh gu bheil thu a’ tuigsinn cò na h-innleadairean dàta a th’ ann. Tha tòrr cheanglaichean feumail anns an artaigil. Deagh leughadh.

Cò a th’ ann an innleadairean dàta, agus ciamar a thig thu gu bhith nad aon?

Iùl sìmplidh air mar a ghlacas tu an tonn Innleadaireachd Dàta agus na leig leis do shlaodadh a-steach don àibheis.

Tha e coltach gu bheil a h-uile duine airson a bhith nan neach-saidheans dàta na làithean seo. Ach dè mu dheidhinn Innleadaireachd Dàta? Gu bunaiteach, is e seòrsa de mheasgachadh a tha seo de mhion-sgrùdair dàta agus neach-saidheans dàta; Mar as trice bidh innleadair dàta an urra ri bhith a’ stiùireadh sruthan obrach, a’ giullachd loidhnichean-phìoban, agus pròiseasan ETL. Air sgàth cho cudromach sa tha na gnìomhan sin, is e jargon proifeasanta mòr-chòrdte eile a tha seo a tha gu gnìomhach a’ faighinn spionnadh.

Tha tuarastalan àrda agus iarrtas mòr dìreach mar phàirt bheag de na tha a’ dèanamh na h-obrach seo air leth tarraingeach! Ma tha thu airson a dhol còmhla ris na h-ìrean de ghaisgich, chan eil e a-riamh ro fhadalach tòiseachadh air ionnsachadh. Anns an dreuchd seo, tha mi air a h-uile fiosrachadh riatanach a chruinneachadh gus do chuideachadh le bhith a’ gabhail na ciad cheumannan agad.

Mar sin, tòisichidh sinn!

Dè a th’ ann an Innleadaireachd Dàta?

Gu h-onarach, chan eil mìneachadh nas fheàrr na seo:

“Faodaidh neach-saidheans rionnag ùr a lorg, ach chan urrainn dha fear a chruthachadh. Feumaidh e iarraidh air innleadair a dhèanamh dha."

– Gòrdan Lindsay Glegg

Mar sin, tha àite innleadair dàta gu math cudromach.

Mar a tha an t-ainm ag ràdh, tha innleadaireachd dàta co-cheangailte ri dàta, is e sin lìbhrigeadh, stòradh agus giullachd. Mar sin, is e prìomh obair innleadairean bun-structar earbsach a thoirt seachad airson dàta. Ma choimheadas sinn air rangachd feumalachdan AI, tha innleadaireachd dàta a’ gabhail a-steach a’ chiad ìrean 2-3: cruinneachadh, gluasad agus stòradh, ullachadh dàta.

Cò a th’ ann an innleadairean dàta, agus ciamar a thig thu gu bhith nad aon?

Dè a bhios innleadair dàta a’ dèanamh?

Le teachd dàta mòr, tha farsaingeachd an uallaich air atharrachadh gu mòr. Ma sgrìobh na h-eòlaichean sin roimhe seo ceistean mòra SQL agus a’ tarraing dàta le bhith a’ cleachdadh innealan leithid Informatica ETL, Pentaho ETL, Talend, a-nis tha na riatanasan airson innleadairean dàta air a dhol suas.

Tha na riatanasan a leanas aig a’ mhòr-chuid de chompanaidhean le dreuchdan bàna airson dreuchd innleadair dàta:

  • Eòlas fìor mhath air SQL agus Python.
  • Eòlas le àrd-ùrlaran sgòthan, gu sònraichte Seirbheisean Lìn Amazon.
  • B’ fheàrr le eòlas air Java/Scala.
  • Tuigse mhath air stòran-dàta SQL agus NoSQL (modaileadh dàta, stòradh dàta).

Cumaibh cuimhne, chan eil annta seo ach na rudan riatanach. Bhon liosta seo, faodar gabhail ris gu bheil innleadairean dàta nan eòlaichean ann an raon leasachadh bathar-bog agus backend.
Mar eisimpleir, ma thòisicheas companaidh a’ gineadh tòrr dàta bho dhiofar thùsan, is e an obair agad mar innleadair dàta cruinneachadh fiosrachaidh a chuir air dòigh, a ghiullachd agus a stòradh.

Faodaidh an liosta de na h-innealan a thathar a 'cleachdadh sa chùis seo a bhith eadar-dhealaichte, tha e uile an urra ri meud an dàta seo, astar a gheibhear agus iomadachd. Cha bhith a’ mhòr-chuid de chompanaidhean a’ dèiligeadh ri dàta mòr idir, mar sin mar stòr meadhanaichte, taigh-bathair dàta ris an canar, faodaidh tu stòr-dàta SQL (PostgreSQL, MySQL, msaa) a chleachdadh le seata beag de sgriobtaichean a bheir an dàta a-steach. an taigh-bathair.

Tha riatanasan nas àirde aig fuamhairean IT leithid Google, Amazon, Facebook no Dropbox: eòlas air Python, Java no Scala.

  • Eòlas le dàta mòr: Hadoop, Spark, Kafka.
  • Eòlas air algorithms agus structaran dàta.
  • Tuigsinn bunaitean siostaman sgaoilte.
  • Bidh eòlas air innealan fradharc dàta leithid Tableau no ElasticSearch na bhuannachd.

Is e sin, tha gluasad soilleir a dh’ ionnsaigh dàta mòr, is e sin ann an làimhseachadh fo luchdan àrda. Tha na companaidhean sin air riatanasan àrdachadh airson fulangas lochdan siostam.

Innleadairean Dàta Vs. luchd-saidheans dàta

Cò a th’ ann an innleadairean dàta, agus ciamar a thig thu gu bhith nad aon?
Gu ceart, b 'e coimeas sìmplidh agus èibhinn a bha sin (chan eil dad pearsanta), ach ann an da-rìribh tha e tòrr nas iom-fhillte.

An toiseach, bu chòir dhut fios a bhith agad gu bheil tòrr mì-chinnt ann a bhith a’ mìneachadh dreuchdan agus sgilean neach-saidheans dàta agus innleadair dàta. Is e sin, faodaidh tu a bhith troimh-chèile gu furasta mu na sgilean a tha a dhìth gus a bhith nad innleadair dàta soirbheachail. Gu dearbh, tha cuid de sgilean ann a tha a 'dol thairis air an dà dhreuchd. Ach tha grunn sgilean ann an aghaidh diametrically.

Is e fìor ghnìomhachas a th’ ann an saidheans dàta, ach tha sinn a’ gluasad a dh’ ionnsaigh saoghal de shaidheans dàta gnìomh far am bi e comasach do luchd-cleachdaidh an anailis fhèin a dhèanamh. Gus pìoban dàta agus structaran dàta aonaichte a chomasachadh, feumaidh tu innleadairean dàta, chan e luchd-saidheans dàta.

A bheil barrachd iarrtas air innleadair dàta na neach-saidheans dàta?

- Tha, oir mus urrainn dhut cèic curran a dhèanamh, feumaidh tu an toiseach cruinneachadh, craiceann agus curranan a stòradh!

Bidh innleadair dàta a’ tuigsinn prògramadh nas fheàrr na neach-saidheans dàta sam bith, ach nuair a thig e gu staitistig, tha a chaochladh fìor.

Ach seo buannachd innleadair dàta:

Às aonais, tha luach a ’mhodail prototype, mar as trice a’ toirt a-steach pìos de chòd càileachd uamhasach ann am faidhle Python, a gheibhear bho neach-saidheans dàta agus dòigh air choireigin a ’toirt a-mach toradh, buailteach gu neoni.

Às aonais innleadair dàta, cha tig an còd seo gu bhith na phròiseact gu bràth agus cha tèid duilgheadas gnìomhachais sam bith fhuasgladh gu h-èifeachdach. Tha an innleadair dàta a’ feuchainn ri seo uile a thionndadh gu toradh.

Fiosrachadh bunaiteach a bu chòir fios a bhith aig innleadair dàta

Cò a th’ ann an innleadairean dàta, agus ciamar a thig thu gu bhith nad aon?

Mar sin, ma bheir an obair seo a-mach an solas annad agus gu bheil thu dealasach - faodaidh tu ionnsachadh, faodaidh tu na sgilean riatanach uile a mhaighstir agus a bhith nad fhìor rionnag roc ann an raon innleadaireachd dàta. Agus, tha, faodaidh tu seo a tharraing dheth eadhon às aonais sgilean prògramadh no eòlas teignigeach eile. Tha e duilich, ach comasach!

Dè na ciad cheumannan?

Bu chòir beachd coitcheann a bhith agad air dè a th’ ann.

An toiseach, tha Innleadaireachd Dàta a’ toirt iomradh air saidheans coimpiutaireachd. Gu sònraichte, feumaidh tu algorithms èifeachdach agus structaran dàta a thuigsinn. San dàrna h-àite, leis gu bheil innleadairean dàta ag obair le dàta, feumar prionnsapalan stòran-dàta agus na structaran a tha nam bunait a thuigsinn.

Mar eisimpleir, tha stòran-dàta àbhaisteach B-tree SQL stèidhichte air structar dàta B-Tree, a bharrachd air, ann an stòran sgaoilte ùr-nodha, LSM-Tree agus atharrachaidhean eile air clàran hash.

* Tha na ceumannan seo stèidhichte air artaigil sgoinneil Adilya Khashtamov. Mar sin, ma tha eòlas agad air Ruiseanach, cuir taic ris an ùghdar seo agus leugh a phost.

1. Algorithms agus structaran dàta

Faodaidh cleachdadh an structair dàta ceart leasachadh mòr a thoirt air coileanadh algairim. Mas fheàrr, bu chòir dhuinn uile a bhith ag ionnsachadh mu structaran dàta agus algoirmean nar sgoiltean, ach is ann ainneamh a bhios seo air a chòmhdach. Ann an suidheachadh sam bith, chan eil e a-riamh ro fhadalach airson eòlas fhaighinn.
Mar sin seo na cùrsaichean an-asgaidh as fheàrr leam airson structaran dàta agus algorithms ionnsachadh:

Cuideachd, na dìochuimhnich mun obair clasaigeach aig Thomas Corman air algorithms - Ro-ràdh Algorithms. Is e seo an t-iomradh foirfe nuair a dh’ fheumas tu do chuimhne ùrachadh.

  • Gus do sgilean adhartachadh, cleachd Leetcode.

Faodaidh tu cuideachd dàibheadh ​​​​a-steach do shaoghal stòran-dàta le bhideothan iongantach bho Oilthigh Charnegie Mellon air Youtube:

2. Ionnsaich SQL

Is e dàta ar beatha gu lèir. Agus gus an dàta seo a thoirt a-mach às an stòr-dàta, feumaidh tu “bruidhinn” an aon chànan ris.

Is e SQL (Cànan Ceist Structaraichte) an cànan conaltraidh anns an raon dàta. Ge bith dè a chanas duine, tha SQL air a bhith beò, tha e beò, agus bidh e beò airson ùine mhòr.

Ma tha thu air a bhith ann an leasachadh airson ùine mhòr, is dòcha gu bheil thu air mothachadh gu bheil fathannan mu bhàs SQL a’ nochdadh bho àm gu àm. Chaidh an cànan a leasachadh tràth anns na 70an agus tha fèill mhòr air fhathast am measg luchd-anailis, luchd-leasachaidh agus dìreach luchd-dealasach.
Às aonais eòlas air SQL chan eil dad ri dhèanamh ann an innleadaireachd dàta oir tha e do-sheachanta gum feum thu ceistean a chruthachadh gus dàta fhaighinn air ais. Bidh a h-uile taigh-bathair dàta mòr ùr-nodha a’ toirt taic do SQL:

  • Amazon RedShift
  • HP Vertica
  • Oracle
  • Freiceadan SQL

... agus mòran eile.

Gus sgrùdadh a dhèanamh air sreath mhòr de dhàta air a stòradh ann an siostaman sgaoilte leithid HDFS, chaidh einnseanan SQL a chruthachadh: Apache Hive, Impala, msaa. Faic, chan eil e a’ dol a dh'àite sam bith.

Ciamar a dh'ionnsachadh SQL? Dìreach dèan e ann an cleachdadh.

Gus seo a dhèanamh, bhithinn a’ moladh sùil a thoirt air oideachadh sàr-mhath, a tha, leis an t-slighe, an-asgaidh, bho Mion-sgrùdadh modh.

  1. SQL eadar-mheadhanach
  2. A 'ceangal dàta ann an SQL

Is e an rud a tha a’ dèanamh nan cùrsaichean seo sònraichte gu bheil àrainneachd eadar-ghnìomhach aca far an urrainn dhut ceistean SQL a sgrìobhadh agus a ruith sa bhrobhsair agad. Goireas SQL ùr-nodha cha bhi e iomarcach. Agus faodaidh tu an t-eòlas seo a chuir an sàs Gnìomhan leetcode anns an roinn Stòr-dàta.

3. Prògramadh ann am Python agus Java/Scala

Carson a bu chòir dhut cànan prògramadh Python ionnsachadh, sgrìobh mi san artaigil mu thràth Python vs R. A 'taghadh an inneal as fheàrr airson AI, ML agus Saidheans Dàta. Nuair a thig e gu Java agus Scala, tha a’ mhòr-chuid de na h-innealan airson tòrr mòr dàta a stòradh agus a ghiullachd sgrìobhte anns na cànanan sin. Mar eisimpleir:

  • Apache Kafka (Scala)
  • Hadoop, HDFS (Java)
  • Apache Spark (Scala)
  • Apache Cassandra (Java)
  • HBase (Java)
  • Apache Hive (Java)

Gus tuigse fhaighinn air mar a tha na h-innealan sin ag obair, feumaidh fios a bhith agad air na cànanan anns a bheil iad sgrìobhte. Leigidh dòigh-obrach gnìomh Scala leat fuasgladh èifeachdach a dhèanamh air duilgheadasan giollachd dàta co-shìnte. Gu mì-fhortanach, chan urrainn dha Python a bhith a 'bòstadh luaths agus giollachd co-shìnte. San fharsaingeachd, tha eòlas air grunn chànanan agus paradigms prògramadh math airson farsaingeachd dhòighean air fuasgladh fhaighinn air duilgheadasan.

Gus dàibheadh ​​​​a-steach don chànan Scala, faodaidh tu leughadh Prògramachadh ann an Scala bho ùghdar a’ chànain. Dh’ fhoillsich Twitter cuideachd deagh stiùireadh tòiseachaidh - Sgoil Scala.

A thaobh Python, tha mi a’ creidsinn Python fileanta An leabhar meadhan-ìre as fheàrr a.

4. Innealan airson a bhith ag obair le dàta mòr

Seo liosta de na h-innealan as mòr-chòrdte ann an saoghal dàta mòr:

  • Apache Spark
  • Apache Kafka
  • Apache Hadoop (HDFS, HBase, Hive)
  • Apache Cassandra

Gheibh thu barrachd fiosrachaidh mu bhith a 'togail bhlocaichean dàta mòra anns an iongantach seo àrainneachd eadar-ghnìomhach. Is e na h-innealan as mòr-chòrdte Spark agus Kafka. Is fhiach sgrùdadh a dhèanamh orra gu cinnteach, tha e ciallach tuigsinn mar a tha iad ag obair bhon taobh a-staigh. Dh'fhoillsich Jay Kreps (co-ùghdar Kafka) obair chudromach ann an 2013 An Log: Na bu chòir fios a bhith aig gach leasaiche bathar-bog mu tharraing dàta fìor-ùineAir an t-slighe, chaidh na prìomh bheachdan bhon Talmud seo a chleachdadh gus Apache Kafka a chruthachadh.

5. Àrd-ùrlaran sgòthan

Cò a th’ ann an innleadairean dàta, agus ciamar a thig thu gu bhith nad aon?

Tha eòlas air co-dhiù aon àrd-ùrlar sgòthan air an liosta de riatanasan bunaiteach airson tagraichean airson dreuchd innleadair dàta. Is fheàrr le fastaichean Seirbheisean Lìn Amazon, le àrd-ùrlar sgòthan Google san dàrna àite agus Microsoft Azure a’ cruinneachadh nan trì as àirde.

Feumaidh eòlas math a bhith agad air Amazon EC2, AWS Lambda, Amazon S3, DynamoDB.

6. Siostaman sgaoilte

Tha a bhith ag obair le dàta mòr a’ ciallachadh gu bheil cruinneachaidhean de choimpiutairean a tha ag obair gu neo-eisimeileach an làthair, agus tha conaltradh eadar sin air a dhèanamh thairis air lìonra. Mar as motha a tha am braisle, is ann as motha a tha an coltachd gum bi na nòsan ball aige a’ fàiligeadh. Gus a bhith nad neach-saidheans dàta sgoinneil, feumaidh tu na duilgheadasan agus na fuasglaidhean a th ’ann airson siostaman sgaoilte a thuigsinn. Tha an raon seo sean agus iom-fhillte.

Tha Anndra Tanenbaum air a mheas mar thùsaire san raon seo. Dhaibhsan aig nach eil eagal air teòiridh, tha mi a 'moladh an leabhar aige "Siostam sgaoilte", is dòcha gum bi e eagallach do luchd-tòiseachaidh, ach cuidichidh e thu gu mòr gus do sgilean adhartachadh.

Tha mi a ’beachdachadh A’ dealbhadh thagraidhean dian-dàta le Martin Kleppmann leabhar tòiseachaidh as fheàrr. Co-dhiù, tha sàr-obair aig Màrtainn блог. Cuidichidh an obair aige le bhith a’ siostamachadh eòlas mu bhith a’ togail bun-structair ùr-nodha airson stòradh agus giullachd dàta mòr.
Dhaibhsan a tha dèidheil air a bhith a’ coimhead bhideothan, tha cùrsa air Youtube Siostaman coimpiutair air an sgaoileadh.

7. Pìoban dàta

Cò a th’ ann an innleadairean dàta, agus ciamar a thig thu gu bhith nad aon?

Tha pìoban dàta rudeigin nach urrainn dhut a bhith beò às aonais mar innleadair dàta.

A’ mhòr-chuid den ùine, bidh innleadair dàta a’ togail loidhne-phìoban dàta ris an canar, is e sin, bidh e a’ cruthachadh pròiseas airson dàta a lìbhrigeadh bho aon àite gu àite eile. Dh’ fhaodadh iad seo a bhith nan sgriobtaichean àbhaisteach a thèid gu API seirbheis taobh a-muigh no a nì ceist SQL, a chuireas ris an dàta, agus a chuir ann an stòr meadhanaichte (stòr dàta) no stòr dàta neo-structaraichte (lochan dàta).

Gus geàrr-chunntas: an liosta sgrùdaidh bunaiteach airson innleadair dàta

Cò a th’ ann an innleadairean dàta, agus ciamar a thig thu gu bhith nad aon?

Airson geàrr-chunntas, tha feum air tuigse mhath air na leanas:

  • Siostaman Fiosrachaidh;
  • Leasachadh bathar-bog (Agile, DevOps, Design Techniques, SOA);
  • Siostaman sgaoilte agus prògramadh co-shìnte;
  • Bun-stèidh Stòr-dàta - Planadh, Dealbhadh, Gnìomh agus Fuasgladh Thrublaidean;
  • Dealbhadh dheuchainnean - Deuchainnean A/B gus bun-bheachdan a dhearbhadh, earbsachd, coileanadh siostam a dhearbhadh, agus slighean earbsach a leasachadh gus fuasglaidhean math a lìbhrigeadh gu sgiobalta.

Is e seo dìreach beagan de na riatanasan airson a bhith nad innleadair dàta, mar sin ionnsaich agus tuig siostaman dàta, siostaman fiosrachaidh, lìbhrigeadh / cleachdadh / amalachadh leantainneach, cànanan prògramaidh, agus cuspairean saidheans coimpiutair eile (chan eil a h-uile raon cuspair).

Agus mu dheireadh, an rud mu dheireadh ach glè chudromach a tha mi airson a ràdh.

Chan eil an t-slighe gu bhith na Innleadaireachd Dàta cho sìmplidh sa dh’ fhaodadh e a bhith. Chan eil e a 'toirt maitheanas, tha e duilich, agus feumaidh tu a bhith deiseil airson seo. Is dòcha gum bi amannan den turas seo gad phutadh gus a leigeil seachad. Ach is e fìor obair agus pròiseas ionnsachaidh a tha seo.

Dìreach na cuir siùcar air bhon toiseach. Is e an t-àite siubhail gu lèir a bhith ag ionnsachadh nas urrainn dhut agus a bhith deiseil airson dùbhlain ùra.
Seo dealbh sgoinneil air an tàinig mi tarsainn a tha a’ nochdadh a’ phuing seo gu math:

Cò a th’ ann an innleadairean dàta, agus ciamar a thig thu gu bhith nad aon?

Agus tha, cuimhnich gun seachain thu losgadh agus fois. Tha seo glè chudromach cuideachd. Beannachd leat

Dè do bheachd air an artaigil, a charaidean? Tha sinn a’ toirt cuireadh dhut webinar saor an asgaidh, a thachras an-diugh aig 20.00. Rè an webinar, bruidhnidh sinn air mar a thogas sinn siostam giollachd dàta èifeachdach agus scalable airson companaidh bheag no tòiseachadh aig a ’chosgais as ìsle. Mar chleachdadh, gheibh sinn eòlas air innealan giullachd dàta Google Cloud. Bidh mi gad fhaicinn!

Source: www.habr.com

Cuir beachd ann