Otu anyị si hazie DataLake dị oke ọnụ yana ihe kpatara nke a ji dị

Anyị na-ebi n'oge dị ịtụnanya mgbe ị nwere ike ngwa ngwa na ngwa ngwa jikọọ ọtụtụ ngwaọrụ mepere emepe emebere, hazie ya na “ngbanwe nsụhọ gị” dị ka ndụmọdụ nke stackoverflow si dị, na-abanyeghị n'ime “ọtụtụ mkpụrụedemede” wee malite ịmalite. ha na-arụ ọrụ azụmahịa. Ma mgbe ị chọrọ imelite / gbasaa ma ọ bụ mmadụ na mberede reboots a di na nwunye nke igwe - ị na-aghọta na ụdị ụfọdụ nke obsessive ọjọọ nrọ amalitela, ihe niile aghọwo n'ụzọ dị ịrịba ama mgbagwoju anya karịrị ude, ọ dịghị nchigharị azụ, ọdịnihu bụ edoghi anya na nchekwa, kama ime ihe, zuo aṅụ ma mee cheese.

Ọ bụghị n'efu ka ndị ọrụ ibe nwere ahụmahụ karị, na isi ha jupụtara na ahụhụ na ya mere na-acha ntụ ntụ, na-atụgharị uche na ntinye ngwa ngwa nke ngwugwu nke "containers" na "cubes" na ọtụtụ sava na "asụsụ ndị mara mma" na nkwado arụnyere maka ya. asynchronous anaghị egbochi I/O, mụmụọ ọnụ ọchị. Ha na-eji nwayọọ na-aga n'ihu na-agụgharị "man ps", banye n'ime koodu "nginx" ruo mgbe anya ha gbawara, wee dee, dee, dee ule otu. Ndị ọrụ ibe maara na ihe kacha adọrọ mmasị ga-abịa mgbe "ihe a nile" otu ụbọchị ga-abụ staked n'abalị na New Year's Eve. A ga-enyere ha aka naanị site na nghọta miri emi banyere ọdịdị nke unix, tebụl steeti TCP/IP nke echekwara na isi nhazi-nchọ algọridim. Iji mee ka usoro ahụ dịghachi ndụ ka chimes na-akụ.

Ee ee, enwere m ntakịrị ihe ndọpụ uche, mana enwere m olileanya na m jisiri ike gosipụta ọnọdụ atụmanya.
Taa, achọrọ m ikesa ahụmịhe anyị na ibuga nchịkọta dị ọnụ ala na nke dị ọnụ ala maka DataLake, nke na-edozi ọtụtụ ọrụ nyocha na ụlọ ọrụ maka ngalaba nhazi dị iche iche.

Oge ụfọdụ gara aga, anyị bịara ghọta na ụlọ ọrụ na-achọwanye mkpụrụ nke ma ngwaahịa na nyocha teknụzụ (ọ bụghị ikwu banyere icing na achicha n'ụdị igwe mmụta) na ịghọta ọnọdụ na ihe ize ndụ - anyị kwesịrị ịnakọta na nyochaa. metrik ọzọ na ndị ọzọ.

Ntụle teknụzụ bụ isi na Bitrix24

Ọtụtụ afọ gara aga, n'otu oge na mwepụta nke ọrụ Bitrix24, anyị na-etinye oge na akụrụngwa na-arụsi ọrụ ike n'ịmepụta usoro nyocha dị mfe ma bụrụ nke a pụrụ ịdabere na ya nke ga-enyere aka ịhụ nsogbu ngwa ngwa na akụrụngwa ma hazie usoro ọzọ. N'ezie, ọ bụ ihe amamihe dị na ya iburu ngwá ọrụ ndị a kwadebere nke dị mfe na nghọta dị ka o kwere mee. N'ihi ya, a họọrọ nagios maka nlekota na munin maka nyocha na nhụta anya. Ugbu a, anyị nwere ọtụtụ puku akwụkwọ ndenye ego na nagios, ọtụtụ narị eserese na munin, ndị ọrụ ibe anyị na-eji ha eme ihe nke ọma kwa ụbọchị. Ihe metrik doro anya, eserese ndị ahụ doro anya, sistemụ ahụ na-arụ ọrụ ntụkwasị obi ruo ọtụtụ afọ na a na-agbakwunye ule na eserese ọhụrụ na ya mgbe niile: mgbe anyị na-etinye ọrụ ọhụrụ n'ọrụ, anyị na-agbakwunye ọtụtụ ule na eserese. Jisie ike.

Mkpịsị aka na Pulse - Nyocha nka dị elu

Ọchịchọ ịnata ozi gbasara nsogbu "ngwa ngwa o kwere mee" dugara anyị na nnwale na-arụsi ọrụ ike na ngwaọrụ dị mfe na nghọta - pinba na xhprof.

Pinba zitere anyị ọnụ ọgụgụ na ngwugwu UDP banyere ọsọ nke ọrụ nke akụkụ nke ibe weebụ na PHP, na anyị nwere ike ịhụ online na MySQL nchekwa (Pinba na-abịa na ya MySQL engine maka ngwa ngwa omume nchịkọta) a obere ndepụta nsogbu na-azaghachi. ha. Na xhprof na-ekwe ka anyị na-anakọta eserese nke ogbugbu nke ibe PHP dị nwayọ n'aka ndị ahịa wee nyochaa ihe nwere ike ibute nke a - nwayọ, ịwụsa tii ma ọ bụ ihe siri ike.

Oge ụfọdụ gara aga, ejiri igwe ọzọ dị mfe ma dịkwa mfe nghọta mejupụta ngwa ngwa ahụ dabere na ntụgharị indexing algọridim, etinyere ya nke ọma n'ọbá akwụkwọ Lucene a ma ama - Elastic/Kibana. Echiche dị mfe nke ịdekọ akwụkwọ nwere ọtụtụ eriri n'ime ndenye Lucene dị iche dabere na ihe omume dị na ndekọ na nyocha ngwa ngwa site na ha site na iji nkewa facet tụgharịrị bara uru n'ezie.

N'agbanyeghị ọdịdị teknụzụ dị na Kibana nwere echiche dị ala dị ka "ịwụ" "na-agbago elu" na asụsụ emegharịrị nke algebra na-echefubeghị kpamkpam, ngwá ọrụ ahụ malitere inyere anyị aka nke ọma na ọrụ ndị a:

  • Kedu njehie PHP nke onye ahịa Bitrix24 nwere na portal p1 n'ime elekere ikpeazụ na nke ndị? Ghọta, gbaghara ma dozie ngwa ngwa.
  • Oku vidiyo ole ka emere na portals na Germany n'ime awa 24 gara aga, nwere ogo kedu yana enwere nsogbu ọwa / netwọkụ ahụ?
  • Kedu ka arụrụ ọrụ sistemu (mgbakwunye C anyị maka PHP), si na isi mmalite nwelite ọrụ ọhụrụ wee bufee ndị ahịa, na-arụ ọrụ? Enwere segfaults?
  • Data ndị ahịa ọ dabara na ebe nchekwa PHP? Enwere mmejọ ọ bụla gbasara ịgafe ebe nchekwa ekenyela na usoro: “nke ebe nchekwa”? Chọta wee wepụ ya.

Nke a bụ ihe atụ doro anya. N'agbanyeghị ule zuru oke na ọtụtụ ọkwa, onye ahịa ahụ, nke nwere ikpe na-abụghị nke ọkọlọtọ na data ntinye mebiri emebi, nwetara njehie na-akpasu iwe na nke a na-atụghị anya ya, ụda ụda na usoro nke idozi ya ngwa ngwa:

Otu anyị si hazie DataLake dị oke ọnụ yana ihe kpatara nke a ji dị

Ọzọkwa, kibana na-enye gị ohere ịhazi ọkwa maka ihe omume akọwapụtara, na obere oge, ngwá ọrụ dị na ụlọ ọrụ ahụ malitere iji ọtụtụ ndị ọrụ sitere na ngalaba dị iche iche - site na nkwado teknụzụ na mmepe ruo QA.

Ọrụ nke ngalaba ọ bụla n'ime ụlọ ọrụ ahụ adịla mma iji soro na tụọ - kama iji aka gị nyochaa ndekọ na sava, naanị ị ga-achọ ịtọ ndekọ ndekọ otu ugboro wee ziga ha na ụyọkọ na-agbanwe ka ọ nwee ọ enjoyụ, dịka ọmụmaatụ, ịtụgharị uche na kibana. dashboard ọnụ ọgụgụ nke kittens nwere isi abụọ rere ebi na ngwa nbipute 3-D maka ọnwa ikpeazụ.

Ntụle azụmaahịa bụ isi

Onye ọ bụla maara na nyocha azụmahịa na ụlọ ọrụ na-amalitekarị site n'iji ike eme ihe, ee, Excel. Mana isi ihe bụ na ọ naghị akwụsị ebe ahụ. Nchịkọta Google nke dabeere na ígwé ojii na-agbakwụnyekwa mmanụ ọkụ na ọkụ - ị na-amalite ngwa ngwa ịmara ihe ọma ahụ.

N'ime ụlọ ọrụ anyị na-emepe emepe n'otu n'otu, ebe a na "ndị amụma" nke ọrụ kpụ ọkụ n'ọnụ na nnukwu data malitere ịpụta. Mkpa maka akụkọ ndị ọzọ dị omimi na nke dị iche iche malitere ịpụta mgbe niile, na site na mgbalị ụmụ okorobịa sitere na ngalaba dị iche iche, oge ụfọdụ gara aga, a haziri ngwọta dị mfe na nke bara uru - ngwakọta nke ClickHouse na PowerBI.

Ruo ogologo oge, ngwọta a na-agbanwe agbanwe nyeere aka nke ukwuu, mana nke nta nke nta, nghọta malitere ịbịa na ClickHouse abụghị roba na enweghị ike ịkwa emo dị otú ahụ.

N'ebe a, ọ dị mkpa ịghọta nke ọma na ClickHouse, dị ka Druid, dị ka Vertica, dị ka Amazon RedShift (nke dabere na postgres), bụ engines nyocha kachasị maka nyocha dị mma (nchikota, nchịkọta, opekempe-kacha site na kọlụm na ole na ole nwere ike isonyere. ), n'ihi na ahaziri maka nchekwa nke oma nke ogidi nke tebụl mmekọrịta, n'adịghị ka MySQL na ọdụ data ndị ọzọ (gbakwasara n'ahịrị) mara anyị.

N'ụzọ bụ isi, ClickHouse bụ naanị “database” nwere ikike karịa, na-enweghị ntinye ntinye isi site na isi (nke ahụ bụ ebumnuche ya, ihe niile dị mma), mana nyocha na-atọ ụtọ yana otu ọrụ dị ike na-atọ ụtọ maka iji data rụọ ọrụ. Ee, ị nwere ike ịmepụta ụyọkọ - ma ị ghọtara na iji microscope na-agba mbọ mbọ adịghị mma ma anyị malitere ịchọ ngwọta ndị ọzọ.

Achọ maka Python na ndị nyocha

Ụlọ ọrụ anyị nwere ọtụtụ ndị mmepe na-ede koodu fọrọ nke nta ka ọ bụrụ ụbọchị ọ bụla maka afọ 10-20 na PHP, JavaScript, C #, C / C ++, Java, Go, Rust, Python, Bash. E nwekwara ọtụtụ ahụmahụ usoro nchịkwa ndị nwetara ihe karịrị otu nnọọ ịrịba ọdachi nke na-adịghị dabara n'ime iwu nke ọnụ ọgụgụ (atụ, mgbe ọtụtụ n'ime diski na a wakporo-10 na-ebibi site a ike àmụmà iku). N'ọnọdụ ndị dị otú ahụ, ruo ogologo oge, ọ bụghị ihe doro anya ihe "python analyst" bụ. Eke dị ka PHP, naanị aha ahụ dị ntakịrị ogologo ma enwere ntakịrị ihe na-agbanwe uche na koodu isi okwu onye ntụgharị. Agbanyeghị, ka a na-ekepụta akụkọ nyocha na-abawanye ụba, ndị mmepe nwere ahụmahụ malitere ịghọtawanye mkpa ọpụrụiche dị warara na ngwaọrụ dị ka numpy, pandas, matplotlib, seaborn.
Ọrụ dị oke mkpa, o yikarịrị ka ọ bụ na mberede na-ada mbà n'obi nke ndị ọrụ site na nchikota nke okwu "nkwụghachi azụ azụ" na ngosipụta nke ịkọ akụkọ dị irè na nnukwu data na-eji, ee, ee, pyspark.

Apache Spark, usoro ọrụ ya nke algebra mmekọrịta dabara nke ọma, yana ike ya mere ka ndị mmepe mara MySQL na mkpa ọ dị iji wusie ọkwa ya na ndị nyocha nwere ahụmahụ bịara doo anya ka ụbọchị.

Mgbalị ọzọ nke Apache Spark/Hadoop wepụ na ihe na-agaghị nke ọma dịka edemede ahụ siri dị.

Agbanyeghị, n'oge na-adịghị anya, ọ bịara doo anya na ihe adịghị mma na Spark, ma ọ bụ na ọ dị mkpa ịsa aka gị nke ọma. Ọ bụrụ na ndị na-eme mmemme nwere ahụmahụ mere stack Hadoop/MapReduce/Lucene, nke pụtara ìhè ma ọ bụrụ na i leruo anya na koodu isi na Java ma ọ bụ echiche Doug Cutting na Lucene, mgbe ahụ Spark, na mberede, edere ya n'asụsụ Scala dị egwu, nke bụ. nnọọ arụmụka site n'echiche nke ihe bara uru na ugbu a adịghị emepe emepe. Na mgbako oge niile na mgbako na ụyọkọ Spark n'ihi enweghị ezi uche na ọrụ enweghị nghọta na oke ebe nchekwa maka iji belata arụmọrụ (ọtụtụ igodo na-abịa n'otu oge) emeela ka ọ dị egwu gburugburu ya nke ihe nwere ohere itolite. Ọzọkwa, ọnọdụ ahụ ka njọ site na ọnụ ọgụgụ dị ukwuu nke ọdụ ụgbọ mmiri na-emeghe, faịlụ nwa oge na-eto eto na ebe ndị a na-apụghị ịghọta aghọta na hel nke ịdabere na hel - nke mere ka ndị nchịkwa usoro nwee otu mmetụta nke a maara nke ọma site na nwata: ịkpọasị siri ike (ma ọ bụ ma eleghị anya). ha kwesịrị iji ncha saa aka ha).

N'ihi ya, anyị 'lanarị' ọtụtụ ọrụ nyocha nke ime na-arụsi ọrụ ike na Apache Spark (gụnyere Spark Streaming, Spark SQL) na gburugburu ebe obibi Hadoop (na ndị ọzọ na ndị ọzọ). N'agbanyeghị eziokwu na ka oge na-aga, anyị mụtara ịkwadebe na nyochaa "ya" nke ọma, na "ọ" fọrọ nke nta ka ọ kwụsị na mberede n'ihi mgbanwe na ọdịdị nke data na ahaghị nhata nke edo RDD hashing, ọchịchọ iwere ihe dị njikere. , emelitere ma na-elekọta ebe n'igwe ojii na-esiwanye ike ma na-esiwanye ike. Ọ bụ n'oge a ka anyị nwara iji mgbakọ igwe ojii ejirikere nke Amazon Web Services - EMR na, emesia, gbalịrị iji ya dozie nsogbu. EMR bụ Apache Spark nke Amazon kwadebere ya na ngwanrọ mgbakwunye sitere na gburugburu ebe obibi, dị ka Cloudera/Hortonworks na-ewuli.

Nchekwa faịlụ rọba maka nyocha bụ mkpa ngwa ngwa

Ahụmahụ nke "isi nri" Hadoop/Spark na ọkụ n'akụkụ dị iche iche nke ahụ abụghị ihe efu. Ọ dị mkpa ịmepụta otu nchekwa nchekwa faịlụ dị ọnụ ala na nke a pụrụ ịdabere na ya nke ga-eguzogide ọgwụ ọdịda ngwaike na nke ọ ga-ekwe omume ịchekwa faịlụ n'ụdị dị iche iche site na usoro dị iche iche ma mee ka ndị na-arụ ọrụ nke ọma na oge dị mma maka akụkọ sitere na data a bịara na-arịwanye elu. doro anya.

Achọkwara m na imelite sọftụwia nke ikpo okwu a aghọghị ihe nro nke afọ ọhụrụ site n'ịgụ ụzọ Java dị peeji 20 na nyochaa ndekọ zuru ezu nke ụyọkọ ahụ ogologo kilomita site na iji Spark History Server na enyo na-ebuli elu. Achọrọ m ịnweta ngwa dị mfe na nke doro anya nke na-achọghị mmiri mmiri mgbe niile n'okpuru mkpuchi ma ọ bụrụ na arịrịọ ọkọlọtọ MapReduce nke onye nrụpụta kwụsịrị ime mgbe onye ọrụ belata data dara na ebe nchekwa n'ihi usoro nkebi data ahọrọghị nke ọma.

Amazon S3 ọ bụ nwa akwukwo maka DataLake?

Ahụmahụ na Hadoop / MapReduce kụziiri anyị na anyị chọrọ usoro faịlụ nwere ike ịdabere na ya na ndị ọrụ na-arụ ọrụ n'elu ya, "na-abịaru nso" na data ahụ ka ọ ghara ịkwanye data na netwọk. Ndị ọrụ kwesịrị inwe ike ịgụ data n'ụdị dị iche iche, mana ọkacha mma agaghị agụ ozi na-enweghị isi ma nwee ike ịchekwa data tupu oge eruo n'ụdị dabara adaba maka ndị ọrụ.

Ọzọkwa, isi echiche. Enweghị ọchịchọ ịwụnye nnukwu data n'ime otu igwe nyocha nke ụyọkọ, nke ga-eme ngwa ngwa ma ọ bụ mechaa kpagbuo na ị ga-ehichapụ ya nke ọma. Achọrọ m ịchekwa faịlụ, naanị faịlụ, n'ụdị nwere ike ịghọta ma mee ajụjụ nyocha dị irè na ha site na iji ngwaọrụ dị iche iche mana enwere ike nghọta. A ga-enwekwa ọtụtụ faịlụ n'ụdị dị iche iche. Ma ọ ka mma ịkwanye ọ bụghị engine, kama data isi iyi. Anyị chọrọ DataLake nwere ike ịgbatị, anyị kpebiri ...

Kedu ihe ma ọ bụrụ na ị na-echekwa faịlụ na nchekwa igwe ojii ama ama ama ama ama ama scalable igwe ojii Amazon S3, na-enweghị ịkwadebe nke gị site na Hadoop?

O doro anya na data nkeonwe "dị ala", ma gịnị banyere data ndị ọzọ ma ọ bụrụ na anyị ewepụ ya n'ebe ahụ ma "na-anya ya nke ọma"?

Cluster-bigdata-analytics ecosystem of Amazon Web Services - n'okwu dị mfe

N'ikpe ikpe site na ahụmahụ anyị na AWS, Apache Hadoop / MapReduce ejiriwo ya mee ihe ruo ogologo oge n'okpuru nri dị iche iche, dịka ọmụmaatụ na ọrụ DataPipeline (Enwere m anyaụfụ na ndị ọrụ ibe m, ha mụtara otú e si akwadebe ya nke ọma). N'ebe a, anyị na-edozi nkwado ndabere na mpaghara ọrụ dị iche iche site na tebụl DynamoDB:
Otu anyị si hazie DataLake dị oke ọnụ yana ihe kpatara nke a ji dị

Ha na-agbakwa ọsọ mgbe niile na Hadoop/Map wedata ụyọkọ dị ka ọrụ elekere kemgbe ọtụtụ afọ ugbu a. Tọọ ya chefuo ya:

Otu anyị si hazie DataLake dị oke ọnụ yana ihe kpatara nke a ji dị

Ị nwekwara ike itinye aka na satan data nke ọma site na ịtọlite ​​​​laptọọpụ Jupiter n'igwe ojii maka ndị nyocha na iji ọrụ AWS SageMaker na-azụ na ibuga ụdị AI n'ime agha. Nke a bụ ihe ọ dịịrị anyị:

Otu anyị si hazie DataLake dị oke ọnụ yana ihe kpatara nke a ji dị

Ma ee, ị nwere ike iburu laptọọpụ maka onwe gị ma ọ bụ onye nyocha na igwe ojii wee tinye ya na ụyọkọ Hadoop/Spark, mee mgbakọ ahụ wee tụtu ihe niile:

Otu anyị si hazie DataLake dị oke ọnụ yana ihe kpatara nke a ji dị

Ọ dabara nke ọma maka ọrụ nyocha nke onye ọ bụla yana maka ụfọdụ anyị ejirila ọrụ EMR mee nke ọma maka ngụkọ na nyocha buru ibu. Kedu maka usoro usoro maka DataLake, ọ ga-arụ ọrụ? N'oge a, anyị nọ na njedebe nke olileanya na obi nkoropụ wee gaa n'ihu na-achọ.

Glue AWS - Apache Spark ekpokọtara nke ọma na steroid

Ọ tụgharịrị na AWS nwere ụdị nke “Hive/Pig/Spark” tojupụtara. Ọrụ nke Ekwo Ekwo, i.e. A na-arụ katalọgụ faịlụ na ụdị ha dị na DataLake site na ọrụ "Data catalog", nke na-adịghị ezobe ndakọrịta ya na usoro Apache Hive. Ịkwesịrị ịgbakwunye ozi na ọrụ a gbasara ebe faịlụ gị dị yana n'ụdị ha dị. Data nwere ike ọ bụghị naanị na s3, kamakwa na nchekwa data, ma nke ahụ abụghị isiokwu nke post a. Nke a bụ ka esi ahazi ndekọ data DataLake anyị:

Otu anyị si hazie DataLake dị oke ọnụ yana ihe kpatara nke a ji dị

Edebara aha faịlụ ndị ahụ, ọ dị mma. Ọ bụrụ na emelitela faịlụ ndị ahụ, anyị na-ebupụta crawlers ma ọ bụ aka ma ọ bụ na nhazi oge, nke ga-emelite ozi gbasara ha site na ọdọ mmiri wee chekwaa ha. Mgbe ahụ enwere ike ịhazi data sitere na ọdọ mmiri wee bulite nsonaazụ ya ebe. N'okwu kachasị mfe, anyị na-ebugokwa na s3. Enwere ike ịme nhazi data ebe ọ bụla, mana a na-atụ aro ka ị hazie nhazi na ụyọkọ Apache Spark site na iji ike dị elu site na AWS Glue API. N'ezie, ị nwere ike were koodu Python nke ochie na nke maara nke ọma site na iji ọba akwụkwọ pyspark wee hazie ogbugbu ya na N nodes nke ụyọkọ nke ikike na nlekota, na-enweghị igwu ala n'ime eriri nke Hadoop na ịdọrọ igbe docker-moker na iwepu esemokwu ịdabere na ya. .

Ọzọkwa, a dị mfe echiche. Ọ dịghị mkpa ịhazi Apache Spark, naanị ị ga-ede koodu Python maka pyspark, nwalee ya na mpaghara gị na desktọpụ gị wee mee ya na nnukwu ụyọkọ na ígwé ojii, na-akọwa ebe data isi dị na ebe ị ga-etinye nsonaazụ. Mgbe ụfọdụ, nke a dị mkpa ma baa uru, ebe a bụ ka anyị si hazie ya:

Otu anyị si hazie DataLake dị oke ọnụ yana ihe kpatara nke a ji dị

Ya mere, ọ bụrụ na ịchọrọ ịgbakọ ihe na ụyọkọ Spark site na iji data na s3, anyị na-ede koodu na python/pyspark, nwalee ya, wee pụọ anyị na igwe ojii.

Gịnị banyere òtù egwú ahụ? Gịnị ma ọ bụrụ na ọrụ ahụ dara wee pụọ? Ee, a na-atụ aro ka ịme pipeline mara mma na ụdị Apache Pig na anyị nwalere ha, mana ugbu a, anyị kpebiri iji orchestration anyị nwere ahaziri nke ọma na PHP na Javascript (Aghọtara m, enwere dissonance cognitive, mana ọ na-arụ ọrụ, maka afọ na enweghị njehie).

Otu anyị si hazie DataLake dị oke ọnụ yana ihe kpatara nke a ji dị

Ụdị faịlụ echekwara na ọdọ mmiri bụ isi ihe na-arụ ọrụ

Ọ dị ezigbo mkpa ịghọta isi isi ihe abụọ ọzọ. Ka e wee gbuo ajụjụ gbasara data faịlụ na ọdọ mmiri ngwa ngwa o kwere omume yana ịrụ ọrụ ka ọ ghara imebi mgbe agbakwunyere ozi ọhụrụ, ịkwesịrị:

  • Chekwaa ogidi faịlụ iche iche (ka ị ghara ịgụ ahịrị niile iji ghọta ihe dị na kọlụm). Maka nke a, anyị na-ewere usoro parquet na mkpakọ
  • Ọ dị ezigbo mkpa ịkwanye faịlụ n'ime folda dịka: asụsụ, afọ, ọnwa, ụbọchị, izu. Engines ndị ghọtara ụdị sharding a ga-ele anya naanị na nchekwa dị mkpa, na-enweghị ihichapụ data niile n'usoro.

N'ụzọ bụ isi, n'ụzọ dị otú a, ị na-esetịpụ isi iyi data n'ụdị kasị rụọ ọrụ nke ọma maka nyocha engines eyịride n'elu, nke ọbụna na sharded nchekwa nwere ike họrọ họrọ na-agụ naanị mkpa ogidi si faịlụ. Ọ dịghị mkpa ka ị "mejupụta" data ebe ọ bụla (nchekwa ahụ ga-agbawa ngwa ngwa) - jiri amamihe tinye ya ozugbo na faịlụ faịlụ n'ụdị ziri ezi. N'ezie, ọ ga-edo anya ebe a na ịchekwa nnukwu faịlụ csv na DataLake, nke a ga-ebu ụzọ gụọ ahịrị site n'ahịrị site na ụyọkọ iji wepụ ogidi ndị ahụ, ọ bụghị ihe amamihe dị na ya. Chee echiche banyere isi ihe abụọ a dị n'elu ọzọ ma ọ bụrụ na amabeghị ihe kpatara ihe a niile ji eme.

AWS Athena - jack-in-the-box

Ma mgbe ahụ, ka anyị na-eke ọdọ mmiri, anyị na-agafe Amazon Athena na mberede. Na mberede, ọ bịara bụrụ na site n'iji nlezianya hazie nnukwu faịlụ log anyị n'ime nchekwa nchekwa n'ụdị kọlụm ziri ezi (parquet), ị nwere ike ịme nhọrọ na-enye ihe ọmụma ngwa ngwa site na ha wee wuo akụkọ na-enweghị, na-enweghị Apache Spark/Glue ụyọkọ.

Igwe Athena kwadoro site na data dị na s3 dabere na akụkọ ifo Presto - onye nnọchianya nke MPP (oke nhazi nhazi) ezinụlọ nke ụzọ maka nhazi data, na-ewere data ebe ọ dị, site na s3 na Hadoop ruo Cassandra na faịlụ ederede nkịtị. Naanị ị ga-arịọ Athena ka o mebie ajụjụ SQL, mgbe ahụ ihe niile "na-arụ ọrụ ngwa ngwa na akpaghị aka." Ọ dị mkpa iburu n'obi na Athena bụ "maara ihe", ọ na-aga naanị na nchekwa sharded dị mkpa ma gụọ naanị ogidi ndị dị mkpa na arịrịọ ahụ.

Ọnụ ego maka arịrịọ Athena dịkwa ụtọ. Anyị na-akwụ ụgwọ oke nke data nyochara. Ndị ahụ. ọ bụghị maka ọnụ ọgụgụ nke igwe na ụyọkọ kwa nkeji, ma ... n'ihi na data n'ezie scanned na 100-500 igwe, naanị data dị mkpa iji mezue arịrịọ.

Na site na ịrịọ naanị ogidi ndị dị mkpa site na nchekwa nchekwa nke ọma, ọ tụgharịrị na ọrụ Athena na-efu anyị ọtụtụ iri dollar kwa ọnwa. Ọfọn, nnukwu, ọ fọrọ nke nta ka ọ bụrụ n'efu, tụnyere nyocha na ụyọkọ!

Site n'ụzọ, nke a bụ otu anyị si ekewa data anyị na s3:

Otu anyị si hazie DataLake dị oke ọnụ yana ihe kpatara nke a ji dị

N'ihi ya, n'ime obere oge, kpamkpam dị iche iche ngalaba na ụlọ ọrụ, site na ozi nchekwa na nchịkọta, malitere ịrụsi ọrụ ike na-arịọ Athena na ngwa ngwa, na sekọnd, nweta azịza bara uru site na "nnukwu" data n'elu pụtara ogologo oge: ọnwa, ọkara afọ, wdg. P.

Ma anyị gara n'ihu wee malite ịga n'igwe ojii maka azịza site na onye ọkwọ ụgbọ ala ODBC: onye nyocha na-ede ajụjụ SQL na njikwa maara nke ọma, nke na igwe 100-500 "maka pennies" na-eziga data na s3 wee weghachi azịza na-abụkarị n'ime sekọnd ole na ole. Nkasi obi. Na ngwa ngwa. M ka na-apụghị ikweta ya.

N'ihi ya, ebe anyị kpebiri ịchekwa data na s3, n'ụdị kọlụm dị mma yana iji ezi uche na-atụgharị data n'ime nchekwa ... anyị nwetara DataLake na ngwa nyocha ngwa ngwa na ọnụ ala - n'efu. O wee bụrụ onye a ma ama na ụlọ ọrụ ahụ, n'ihi na ... na-aghọta SQL ma na-arụ ọrụ nke ukwuu ngwa ngwa karịa site na ịmalite / nkwụsị / ịtọ ụyọkọ. "Ma ọ bụrụ na nsonaazụ ya bụ otu, gịnị kpatara ịkwụ ụgwọ karịa?"

Arịrịọ a na-arịọ Athena dị ka nke a. Ọ bụrụ na-ịchọrọ, n'ezie, ị nwere ike na-etolite zuru ezu ajụjụ SQL dị mgbagwoju anya na ọtụtụ peeji, ma anyị ga-ejedebe naanị na nchịkọta dị mfe. Ka anyị hụ koodu nzaghachi onye ahịa nwere izu ole na ole gara aga na ndekọ sava weebụ wee hụ na enweghị mmejọ:

Otu anyị si hazie DataLake dị oke ọnụ yana ihe kpatara nke a ji dị

Nchoputa

N'ịbụ onye gafere, ọ bụghị ikwu ogologo ụzọ, mana ọ na-egbu mgbu, na-enyocha nke ọma mgbe niile ihe egwu na ọkwa nke mgbagwoju anya na ọnụ ahịa nkwado, anyị chọtara ngwọta maka DataLake na nchịkọta nke na-akwụsịghị iji ọsọ ọsọ na ọnụ ahịa nke nwe anyị ụtọ.

Ọ tụgharịrị na ịrụ ọrụ dị irè, ngwa ngwa na ọnụ ala iji rụọ ọrụ DataLake maka mkpa nke ngalaba dị iche iche nke ụlọ ọrụ ahụ zuru oke n'ikike nke ọbụna ndị mmepe nwere ahụmahụ bụ ndị na-arụtụbeghị ọrụ dị ka ndị na-ese ụkpụrụ ụlọ na amaghị otú e si adọta square na squares. akụ ma mara usoro 50 site na gburugburu ebe obibi Hadoop.

Na mmalite nke njem ahụ, isi m na-ekewa site na ọtụtụ anụ ọhịa ọhịa nke ngwanrọ mepere emepe na nke mechiri emechi na nghọta nke ibu ọrụ dịịrị ụmụ. Naanị malite ịmepụta DataLake gị site na ngwaọrụ dị mfe: nagios / munin -> elastic / kibana -> Hadoop / Spark / s3 ..., na-anakọta nzaghachi na ịghọta physics nke usoro na-eme. Ihe niile dị mgbagwoju anya na ọchịchịrị - nye ya ndị iro na ndị asọmpi.

Ọ bụrụ na ịchọghị ịga na ígwé ojii ma nwee mmasị ịkwado, melite na kwachie ọrụ mepere emepe, ị nwere ike wuo atụmatụ yiri nke anyị na mpaghara, n'igwe ụlọ ọrụ na-adịghị ọnụ nke nwere Hadoop na Presto n'elu. Isi ihe abụghị ịkwụsị na ịga n'ihu, gụọ, chọọ ngwọta dị mfe na nke doro anya, na ihe niile ga-arụ ọrụ nke ọma! Jisie onye ọ bụla ga-ahụ gị ọzọ!

isi: www.habr.com

Tinye a comment