Na ụzọ ọdụ data enweghị nkesa - otu na ihe kpatara ya

Ndewo, unu niile! Aha m bụ Golov Nikolay. Na mbụ, m na-arụ ọrụ na Avito ma jikwaa Data Platform ruo afọ isii, ya bụ, arụrụ m ọrụ na ọdụ data niile: nyocha (Vertica, ClickHouse), streaming na OLTP (Redis, Tarantool, VoltDB, MongoDB, PostgreSQL). N'ime oge a, m na-emeso ọnụ ọgụgụ dị ukwuu nke ọdụ data - dị nnọọ iche na pụrụ iche, na ndị na-abụghị ọkọlọtọ ikpe nke ha na-eji.

Ana m arụ ọrụ ugbu a na ManyChat. N'ezie, nke a bụ mmalite - ọhụrụ, oké ọchịchọ na-eto ngwa ngwa. Ma mgbe mbụ m sonyeere ụlọ ọrụ ahụ, otu ajụjụ mara mma bilitere: "Gịnị ka mmalite mmalite na-eto eto kwesịrị ịnara na DBMS na ahịa nchekwa data?"

N'isiokwu a, dabere na akụkọ m na mmemme ịntanetị RIT++2020, M ga-aza ajụjụ a. Ụdị vidiyo nke akụkọ a dị na YouTube.

Na ụzọ ọdụ data enweghị nkesa - otu na ihe kpatara ya

Ebe nchekwa data ama ama 2020

Ọ bụ 2020, elegharịrị m anya wee hụ ụdị ọdụ data atọ.

Ụdị mbụ - ọdụ data OLTP kpochapụwo: PostgreSQL, SQL Server, Oracle, MySQL. Edere ha ogologo oge gara aga, mana ka dị mkpa n'ihi na ndị obodo mmepe mara nke ọma.

Ụdị nke abụọ bụ ntọala sitere na "efu". Ha nwara ịpụ n'ụdị oge ochie site n'ịhapụ SQL, ihe owuwu ọdịnala na ACID, site na ịgbakwunye sharding arụnyere na atụmatụ ndị ọzọ mara mma. Dịka ọmụmaatụ, nke a bụ Cassandra, MongoDB, Redis ma ọ bụ Tarantool. Ngwọta ndị a niile chọrọ ịnye ahịa ihe dị ọhụrụ ma were niche ha n'ihi na ha mechara dabara adaba maka ọrụ ụfọdụ. M ga-eji okwu nche anwụ NOSQL gosi ọdụ data ndị a.

"Eze" ahụ agwụla, anyị ejirila NOSQL ọdụ data, na ụwa, site n'echiche m, weere nzọụkwụ ọzọ - na ọdụ data jisiri ike. Ebe nchekwa data ndị a nwere otu isi dị ka ọdụ data OLTP kpochapụrụ ma ọ bụ ndị NoSQL ọhụrụ. Mana ha enweghị mkpa maka DBA na DevOps ma na-agba ọsọ na ngwaike ejiri na igwe ojii. Maka onye mmepụta, nke a bụ "naanị ntọala" na-arụ ọrụ ebe, ma ọ dịghị onye na-eche banyere otú e si etinye ya na ihe nkesa, onye na-ahazi ihe nkesa na onye na-emelite ya.

Ọmụmaatụ nke ọdụ data dị otú ahụ:

  • AWS RDS bụ ihe mkpuchi ejisiri maka PostgreSQL/MySQL.
  • DynamoDB bụ ihe analọgụ AWS nke nchekwa data dabere na akwụkwọ, dịka Redis na MongoDB.
  • Amazon Redshift bụ nchekwa data nyocha ejisiri.

Ndị a bụ ọdụ data ochie ochie, mana ewelitere na gburugburu ebe a na-achịkwa, na-enweghị mkpa iji ngwaike rụọ ọrụ.

Rịba ama. Ewere ihe atụ ndị a maka gburugburu AWS, mana analogues ha dịkwa na Microsoft Azure, Google Cloud, ma ọ bụ Yandex.Cloud.

Na ụzọ ọdụ data enweghị nkesa - otu na ihe kpatara ya

Kedu ihe dị ọhụrụ na nke a? Na 2020, ọ nweghị nke a.

Echiche enweghị nkesa

Ihe dị ọhụrụ n'ahịa n'afọ 2020 bụ ngwọta enweghị nkesa ma ọ bụ nke enweghị nkesa.

M ga-agbalị ịkọwa ihe nke a pụtara iji ihe atụ nke ọrụ oge niile ma ọ bụ ngwa azụ azụ.
Iji wepụta ngwa azụ azụ mgbe niile, anyị na-azụta ma ọ bụ gbazite ihe nkesa, detuo koodu na ya, bipụta njedebe n'èzí ma na-akwụ ụgwọ maka mgbazinye, ọkụ eletrik na ọrụ data center mgbe niile. Nke a bụ ụkpụrụ ọkọlọtọ.

Ọ nwere ụzọ ọzọ? Site na ọrụ enweghị ihe nkesa ị nwere ike.

Kedu ihe a na-elekwasị anya na usoro a: enweghị ihe nkesa, ọ dịghị ọbụna ịgbazite ihe atụ mebere na igwe ojii. Iji bugharịa ọrụ ahụ, detuo koodu (ọrụ) na ebe nchekwa ma bipụta ya na njedebe. Mgbe ahụ, anyị na-akwụ ụgwọ maka oku ọ bụla maka ọrụ a, na-eleghara ngwaike anya kpamkpam ebe a na-egbu ya.

M ga-agbalị iji foto kọwaa ụzọ a.
Na ụzọ ọdụ data enweghị nkesa - otu na ihe kpatara ya

Omuma ntinye. Anyị nwere ọrụ nwere ụfọdụ ibu. Anyị na-ebuli ikpe abụọ: sava anụ ahụ ma ọ bụ ihe atụ na AWS. A na-ezigara arịrịọ ndị ọzọ na ọnọdụ ndị a ma hazie ya ebe ahụ.

Dị ka ị na-ahụ na foto a, a naghị atụfu ihe nkesa ahụ n'otu aka ahụ. Otu na-eji 100%, enwere arịrịọ abụọ, na otu bụ naanị 50% - nke na-abaghị uru. Ọ bụrụ na ọ bụghị arịrịọ atọ abịarute, ma 30, mgbe ahụ, usoro ahụ dum agaghị enwe ike ịnagide ibu ahụ ma malite ịmalite nwayọọ.

Na ụzọ ọdụ data enweghị nkesa - otu na ihe kpatara ya

Nbunye enweghị nkesa. N'ebe enweghị ihe nkesa, ọrụ dị otú ahụ enweghị ihe atụ ma ọ bụ ihe nkesa. Enwere ụfọdụ ọdọ mmiri ọkụ ọkụ - obere akpa Docker a kwadebere nke nwere koodu ọrụ ebugara. Sistemu na-enweta arịrịọ mpụga na nke ọ bụla n'ime ha usoro enweghị nkesa na-ebuli obere akpa nwere koodu: ọ na-edozi arịrịọ a ma gbuo akpa ahụ.

Otu arịrịọ - otu akpa ewelitere, arịrịọ 1000 - igbe 1000. Na ntinye na sava ngwaike abụrụlarị ọrụ nke ndị na-eweta igwe ojii. A na-ezobe ya kpamkpam site na usoro enweghị ihe nkesa. N'ime echiche a, anyị na-akwụ ụgwọ maka oku ọ bụla. Dịka ọmụmaatụ, otu oku na-abịa otu ụbọchị - anyị kwụrụ otu oku, otu nde na-abịa kwa nkeji - anyị kwụrụ otu nde. Ma ọ bụ n'ime sekọnd, nke a na-emekwa.

Echiche nke ibipụta ọrụ enweghị ihe nkesa dabara adaba maka ọrụ enweghị obodo. Ma ọ bụrụ na ịchọrọ ọrụ (steeti) zuru oke, mgbe ahụ anyị na-agbakwunye nchekwa data na ọrụ ahụ. N'okwu a, a bịa n'ịrụ ọrụ na steeti, ọrụ steeti ọ bụla na-ede ma na-agụ site na nchekwa data. Ọzọkwa, site na nchekwa data nke ọ bụla n'ime ụdị atọ a kọwara na mmalite nke isiokwu.

Kedu oke njedebe nke ọdụ data ndị a niile? Ndị a bụ ụgwọ nke igwe ojii ma ọ bụ ihe nkesa ngwaike (ma ọ bụ ọtụtụ sava). Ọ baghị uru ma anyị na-eji nchekwa data kpochapụla ma ọ bụ jikwaa, ma anyị nwere Devops na onye nchịkwa ma ọ bụ na anyị enweghị, anyị ka na-akwụ ụgwọ maka ngwaike, ọkụ eletrik na ebe mgbazinye data 24/7. Ọ bụrụ na anyị nwere ntọala kpochapụ, anyị na-akwụ ụgwọ maka nna ukwu na ohu. Ọ bụrụ na ọ bụ nchekwa data echekwabara nke ukwuu, anyị na-akwụ ụgwọ maka sava 10, 20 ma ọ bụ 30, anyị na-akwụkwa ụgwọ mgbe niile.

Ọnụnọ nke sava echekwara na-adịgide adịgide na nhazi ọnụ ahịa ka aghọtabu dị ka ihe ọjọọ dị mkpa. Ebe nchekwa data omenala nwekwara ihe isi ike ndị ọzọ, dị ka oke na ọnụ ọgụgụ njikọ, mmachi mgbochi, nkwenye nke kesara geo - enwere ike idozi ha na ụfọdụ ọdụ data, mana ọ bụghị otu oge na ọ bụghị ezigbo.

nchekwa data enweghị nkesa - tiori

Ajụjụ nke 2020: ọ ga-ekwe omume ịme nchekwa data enweghị nkesa? Onye ọ bụla anụla banyere backend enweghị ihe nkesa ... ka anyị gbalịa ime ka nchekwa data enweghị nkesa?

Nke a dị ka iju, n'ihi na nchekwa data bụ ọrụ steeti zuru oke, ọ dabara nke ọma maka akụrụngwa enweghị nkesa. N'otu oge ahụ, ọnọdụ nke nchekwa data dị nnọọ ukwuu: gigabytes, terabytes, na na ọdụ data nyocha ọbụna petabytes. Ọ dịghị mfe ibuli ya na arịa Docker dị fechaa.

N'aka nke ọzọ, ihe fọrọ nke nta ka ọ bụrụ ọdụ data niile nke oge a nwere nnukwu echiche na ihe mejupụtara: azụmahịa, nchikota iguzosi ike n'ezi ihe, usoro, ịdabere na mmekọrịta na ọtụtụ echiche. Maka ọtụtụ mgbagha nchekwa data, obere steeti ezuola. Gigabytes na Terabytes na-eji naanị obere akụkụ nke nchekwa data metụtara na ime ajụjụ ozugbo.

N'ihi ya, echiche bụ: ọ bụrụ na akụkụ nke mgbagha na-enye ohere igbu onye na-enweghị obodo, gịnị ma ị kewaa ntọala ahụ n'ime akụkụ nke Stateful na Stateless.

Enweghị sava maka ngwọta OLAP

Ka anyị hụ ihe ịbelata nchekwa data n'ime akụkụ steeti na enweghị obodo nwere ike ịdị ka iji ihe atụ bara uru.

Na ụzọ ọdụ data enweghị nkesa - otu na ihe kpatara ya

Dịka ọmụmaatụ, anyị nwere nchekwa data nyocha: data mpụga (silinda uhie n'aka ekpe), usoro ETL nke na-ebu data n'ime nchekwa data, yana onye nyocha na-eziga ajụjụ SQL na nchekwa data. Nke a bụ atụmatụ ọrụ ụlọ nkwakọba ihe data kpochapụwo.

N'ime atụmatụ a, ETL na-arụ ọrụ otu ugboro. Mgbe ahụ ịkwesịrị ịkwụ ụgwọ mgbe niile maka sava nke nchekwa data na-eji data jupụtara na ETL, nke mere na enwere ihe ị ga-ezigara ajụjụ.

Ka anyị lelee ụzọ ọzọ etinyere na AWS Athena Serverless. Enweghị ngwaike raara onwe ya nye nke echekwara data ebudatara na ya. Kama nke a:

  • Onye ọrụ na-enyefe ajụjụ SQL na Athena. Athena optimizer na-enyocha ajụjụ SQL wee chọọ ụlọ ahịa metadata (Metadata) maka data akọwapụtara nke achọrọ iji mebie ajụjụ a.
  • Onye na-ebuli elu, dabere na data anakọtara, na-ebudata data dị mkpa site na isi mmalite mpụga n'ime nchekwa nwa oge (data data nwa oge).
  • A na-egbu ajụjụ SQL sitere na onye ọrụ na nchekwa nwa oge wee weghachi onye ọrụ nsonaazụ ya.
  • A kpochapụrụ nchekwa nwa oge wee wepụta akụrụngwa.

N'ime ihe owuwu a, anyị na-akwụ naanị maka usoro imezu arịrịọ ahụ. Enweghị arịrịọ - enweghị akwụ ụgwọ.

Na ụzọ ọdụ data enweghị nkesa - otu na ihe kpatara ya

Nke a bụ ụzọ na-arụ ọrụ ma mejuputa ọ bụghị naanị na Athena Serverless, kamakwa na Redshift Spectrum (na AWS).

Ihe atụ Athena na-egosi na nchekwa data enweghị Server na-arụ ọrụ na ezigbo ajụjụ na iri iri na narị Terabytes nke data. Ọtụtụ narị Terabytes ga-achọ ọtụtụ narị sava, mana anyị agaghị akwụ ụgwọ maka ha - anyị na-akwụ maka arịrịọ. Ọsọ nke arịrịọ ọ bụla (dị oke) dị ala ma e jiri ya tụnyere ọdụ data nyocha pụrụ iche dị ka Vertica, mana anyị anaghị akwụ ụgwọ maka oge ezumike.

Ebe nchekwa data dị otú ahụ dị maka ajụjụ ad-hoc nyocha dị ụkọ. Dịka ọmụmaatụ, mgbe anyị na-ekpebi n'otu ntabi anya iji nwalee nkwupụta na ụfọdụ oke oke data. Athena zuru oke maka ọnọdụ ndị a. Maka arịrịọ mgbe niile, usoro dị otú ahụ dị oke ọnụ. Na nke a, cache data na ụfọdụ pụrụ iche ngwọta.

Enweghị sava maka ngwọta OLTP

Ihe atụ gara aga lere anya na ọrụ OLAP (analytical). Ugbu a, ka anyị leba anya na ọrụ OLTP.

Ka anyị were ya na PostgreSQL ma ọ bụ MySQL nwere ike ịbelata. Ka anyị bulie ihe atụ a na-achịkwa mgbe niile PostgreSQL ma ọ bụ MySQL nwere obere akụrụngwa. Mgbe ihe atụ na-anata ibu karịa, anyị ga-ejikọta nsụgharị ọzọ nke anyị ga-ekesa akụkụ nke ibu ọgụgụ. Ọ bụrụ na enweghị arịrịọ ma ọ bụ ibu, anyị na- gbanyụọ oyiri. Ihe atụ mbụ bụ nna ukwu, ndị ọzọ bụ ihe atụgharịrị.

Emebere echiche a na nchekwa data akpọrọ Aurora Serverless AWS. Ụkpụrụ ahụ dị mfe: arịrịọ sitere na ngwa mpụga na-anabata ndị nnọchiteanya proxy. N'ịhụ ka ibu na-abawanye, ọ na-ekenye akụrụngwa kọmpụta site na obere oge ekpochara ọkụ - a na-eme njikọ ngwa ngwa o kwere mee. Ụdị nkwụsị na-eme n'otu ụzọ ahụ.

N'ime Aurora enwere echiche nke Aurora Capacity Unit, ACU. Nke a bụ (n'ọnọdụ) ihe atụ (ihe nkesa). ACU ọ bụla akọwapụtara nwere ike ịbụ nna ukwu ma ọ bụ ohu. Ngalaba ikike nke ọ bụla nwere RAM nke ya, processor na obere diski. N'ihi ya, otu bụ nna ukwu, ndị ọzọ na-agụ naanị oyiri.

Ọnụọgụ nke nkeji ike Aurora ndị a na-agba ọsọ bụ oke nhazi. Opekempe kacha nta nwere ike ịbụ otu ma ọ bụ efu (na nke a, nchekwa data anaghị arụ ọrụ ma ọ bụrụ na enweghị arịrịọ).

Na ụzọ ọdụ data enweghị nkesa - otu na ihe kpatara ya

Mgbe ntọala ahụ nwetara arịrịọ, ụgbọ mmiri proxy na-ebuli Aurora CapacityUnits, na-abawanye akụrụngwa arụmọrụ nke sistemụ. Ikike ịba ụba na ibelata akụrụngwa na-enye ohere ka sistemu ike “juggle” akụrụngwa: gosipụta ACU n'otu n'otu na-akpaghị aka (jiri nke ọhụrụ dochie ha) wee wepụta mmelite niile dị ugbu a na akụrụngwa ewepụrụ.

Ebe Aurora Serverless nwere ike ịbawanye ibu ọgụgụ. Mana akwụkwọ anaghị ekwu nke a ozugbo. Ọ nwere ike ịdị ka ha nwere ike ibuli ọtụtụ nna ukwu. Enweghị anwansi.

Ebe nchekwa data a dabara nke ọma iji zere itinye nnukwu ego na sistemụ nwere ohere enweghị atụ. Dịka ọmụmaatụ, mgbe ị na-eke MVP ma ọ bụ saịtị kaadị azụmaahịa, anyị anaghị atụ anya ibu kwụsiri ike. N'ihi ya, ọ bụrụ na enweghị ohere, anyị anaghị akwụ ụgwọ maka ihe atụ. Mgbe ibu a na-atụghị anya ya mere, dịka ọmụmaatụ mgbe nnọkọ ogbako ma ọ bụ mgbasa ozi mgbasa ozi gasịrị, ìgwè mmadụ na-aga na saịtị ahụ na ibu ahụ na-abawanye nke ukwuu, Aurora Serverless na-eburu ibu a na-akpaghị aka ma jikọta ihe ndị na-efu efu (ACU). Mgbe ahụ, ogbako ahụ na-agafe, onye ọ bụla na-echefu maka prototype, sava (ACU) na-agba ọchịchịrị, ọnụ ahịa na-adaba na efu - adaba.

Ihe ngwọta a adịghị mma maka nnukwu ibu kwụsiri ike n'ihi na ọ naghị atụba ibu ederede. Njikọ ndị a niile na nkwụsị nke akụrụngwa na-eme na nke a na-akpọ "ọnụego ọnụ ọgụgụ" - oge mgbe nchekwa data anaghị akwado azụmahịa ma ọ bụ tebụl nwa oge. Dịka ọmụmaatụ, n'ime otu izu ọnụ ọgụgụ ọnụ ọgụgụ ahụ nwere ike ọ gaghị eme, na isi na-arụ ọrụ n'otu ihe onwunwe na enweghị ike ịgbasa ma ọ bụ nkwekọrịta.

Enweghị anwansi - ọ bụ PostgreSQL mgbe niile. Mana usoro ịgbakwụnye igwe na ịpụpụ ha bụ nke akpaaka.

Enweghị sava site na imewe

Aurora Serverless bụ nchekwa data ochie edegharịrị maka igwe ojii iji nweta uru ụfọdụ nke Serverless. Ma ugbu a, m ga-agwa gị banyere isi, nke e dere na mbụ maka igwe ojii, maka ụzọ enweghị nkesa - Serverless-by-design. E mepụtara ya ozugbo na-enweghị echiche na ọ ga-agba ọsọ na sava anụ ahụ.

A na-akpọ ntọala a Snowflake. O nwere ihe mgbochi atọ.

Na ụzọ ọdụ data enweghị nkesa - otu na ihe kpatara ya

Nke mbụ bụ ngọngọ metadata. Nke a bụ ọrụ nchekwa ngwa ngwa nke na-edozi nsogbu na nchekwa, metadata, azụmahịa, na njikarịcha ajụjụ (gosiri na ihe atụ dị n'aka ekpe).

Ihe mgbochi nke abụọ bụ ụyọkọ kọmpụta mebere maka ịgbakọ (n'ihe atụ a, enwere okirikiri okirikiri na-acha anụnụ anụnụ).

Ihe mgbochi nke atọ bụ usoro nchekwa data dabere na S3. S3 bụ nchekwa ihe na-enweghị akụkụ na AWS, ụdị Dropbox enweghị akụkụ maka azụmahịa.

Ka anyị hụ ka Snowflake si arụ ọrụ, na-eche na mmalite oyi. Ya bụ, enwere nchekwa data, a na-etinye data n'ime ya, enweghị ajụjụ na-agba ọsọ. N'ihi ya, ọ bụrụ na enweghị arịrịọ na nchekwa data, mgbe ahụ, anyị ebulila ọrụ Metadata ngwa ngwa na ebe nchekwa (mgbochi mbụ). Na anyị nwere S3 nchekwa, ebe a na-echekwa data tebụl, kewara n'ime ihe a na-akpọ micropartitions. Maka ịdị mfe: ọ bụrụ na tebụl nwere azụmahịa, mgbe ahụ micropartitions bụ ụbọchị azụmahịa. Ụbọchị ọ bụla bụ micropartition dị iche, faịlụ dị iche. Ma mgbe nchekwa data na-arụ ọrụ na ọnọdụ a, ị na-akwụ ụgwọ naanị maka ohere nke data ahụ nwere. Ọzọkwa, ọnụego kwa oche dị nnọọ ala (karịsịa na-eburu n'uche mkpakọ dị ịrịba ama). Ọrụ metadata na-arụkwa ọrụ mgbe niile, mana ị chọghị ọtụtụ ihe onwunwe iji bulie ajụjụ, yana ọrụ ahụ nwere ike ịtụle shareware.

Ugbu a, ka anyị were ya na onye ọrụ bịara na nchekwa data anyị wee ziga ajụjụ SQL. A na-eziga ajụjụ SQL ozugbo na ọrụ metadata maka nhazi. N'ihi ya, mgbe ị natara arịrịọ, ọrụ a na-enyocha arịrịọ, data dị, ikike onye ọrụ na, ọ bụrụ na ihe niile dị mma, na-ewepụta atụmatụ maka nhazi arịrịọ ahụ.

Na-esote, ọrụ ahụ na-ebute mmalite nke ụyọkọ kọmputa. Ụyọkọ kọmputa bụ ụyọkọ nke sava na-eme mgbako. Ya bụ, nke a bụ ụyọkọ nwere ike ịnwe ihe nkesa 1, sava 2, 4, 8, 16, 32 - dị ka ịchọrọ. Ị tụfuru arịrịọ ma mmalite nke ụyọkọ a ga-amalite ozugbo. Ọ na-ewe n'ezie sekọnd.

Na ụzọ ọdụ data enweghị nkesa - otu na ihe kpatara ya

Na-esote, mgbe ụyọkọ ahụ malitechara, micropartitions chọrọ iji hazie arịrịọ gị ga-amalite ka e depụtaghachi ya na ụyọkọ ahụ site na S3. Ya bụ, ka anyị were ya na iji mezuo ajụjụ SQL ị chọrọ akụkụ abụọ site na otu tebụl na otu site na nke abụọ. N'okwu a, ọ bụ naanị akụkụ atọ dị mkpa ka a ga-e depụtaghachiri na ụyọkọ ahụ, ọ bụghịkwa tebụl niile kpamkpam. Ọ bụ ya mere, na kpomkwem n'ihi na ihe niile dị n'ime otu data center na jikọọ na ngwa ngwa ọwa, dum nyefe usoro emee ngwa ngwa: na sekọnd, nnọọ adịkarịghị na nkeji, ọ gwụla ma anyị na-ekwu banyere ụfọdụ nnukwu arịrịọ . N'ihi nke a, a na-eṅomi micropartitions na ụyọkọ mgbakọ na mwepụ, ma, mgbe emechara, a na-eme ajụjụ SQL na ụyọkọ mgbakọ a. Nsonaazụ nke arịrịọ a nwere ike ịbụ otu ahịrị, ọtụtụ ahịrị ma ọ bụ tebụl - a na-ezigara onye ọrụ ya n'èzí ka o nwee ike ibudata ya, gosipụta ya na ngwa BI ya, ma ọ bụ jiri ya mee ihe n'ụzọ ọzọ.

Ajụjụ SQL ọ bụla nwere ike ọ bụghị naanị ịgụ nchịkọta sitere na data ebugoro na mbụ, kamakwa ibu / mepụta data ọhụrụ na nchekwa data. Ya bụ, ọ nwere ike ịbụ ajụjụ na, dịka ọmụmaatụ, na-etinye ihe ndekọ ọhụrụ n'ime tebụl ọzọ, nke na-eduga n'ọdịdị nkebi ọhụrụ na ụyọkọ kọmputa, nke, n'aka nke ya, na-echekwa na-akpaghị aka na otu nchekwa S3.

Ọnọdụ ahụ akọwara n'elu, site na mbata nke onye ọrụ ruo n'ịkwalite ụyọkọ ahụ, na-ebufe data, na-eme ajụjụ, nweta nsonaazụ, a na-akwụ ụgwọ maka nkeji nkeji nke iji ụyọkọ kọmpụta mebere, ụlọ nkwakọba ihe. Ọnụego ya dịgasị iche dabere na mpaghara AWS na nha ụyọkọ, mana na nkezi ọ bụ dollar ole na ole kwa elekere. Otu ụyọkọ igwe anọ dị ọnụ okpukpu abụọ karịa ụyọkọ igwe abụọ, ụyọkọ igwe asatọ ka dịkwa ọnụ okpukpu abụọ. Nhọrọ nke igwe 16, 32 dị, dabere na mgbagwoju anya nke arịrịọ. Mana ị na-akwụ ụgwọ naanị maka nkeji ndị ahụ mgbe ụyọkọ na-agba ọsọ n'ezie, n'ihi na mgbe enweghị arịrịọ, ị ga-ewepụ aka gị, ma mgbe nkeji 5-10 chere (ihe nhazi nhazi) ọ ga-apụ n'onwe ya, tọhapụrụ akụrụngwa wee bụrụ onwe gị.

Ihe dị adị n'ezie bụ mgbe izipu arịrịọ, ụyọkọ ahụ na-apụta, na-ekwu okwu nke ọma, n'otu nkeji, ọ ga-ewe nkeji ọzọ, wee mechie nkeji ise, wee kwụọ ụgwọ maka nkeji asaa nke ọrụ nke ụyọkọ a, na ọ bụghị maka ọnwa na afọ.

Ọnọdụ mbụ akọwara iji Snowflake na ntọala otu onye ọrụ. Ugbu a, ka anyị were ya na e nwere ọtụtụ ndị ọrụ, nke dị nso na ezigbo ọnọdụ.

Ka anyị kwuo na anyị nwere ọtụtụ ndị nyocha na akụkọ Tableau na-eji ọtụtụ ajụjụ SQL nyocha dị mfe na-atụba nchekwa data anyị mgbe niile.

Na mgbakwunye, ka anyị kwuo na anyị nwere ndị ọkà mmụta sayensị na-emepụta data na-anwa iji data mee ihe dị egwu, jiri iri iri Terabyte rụọ ọrụ, nyochaa ọtụtụ ijeri na puku ijeri ahịrị data.

Maka ụdị ọrụ abụọ akọwara n'elu, Snowflake na-enye gị ohere ibulite ọtụtụ ụyọkọ kọmpụta nwere ikike dị iche iche. Ọzọkwa, ụyọkọ kọmpụta ndị a na-arụ ọrụ n'adabereghị, mana yana data na-agbanwe agbanwe.

Maka ọnụ ọgụgụ dị ukwuu nke ajụjụ ọkụ, ị nwere ike ibuli obere ụyọkọ 2-3, ihe dịka igwe 2 ọ bụla. Enwere ike itinye omume a, n'etiti ihe ndị ọzọ, site na iji ntọala akpaaka. Ya mere, ị na-asị, "Snowflake, bulie obere ụyọkọ. Ọ bụrụ na ibu dị na ya na-abawanye n'elu otu oke, bulie otu nke abụọ, nke atọ. Mgbe ibu ahụ malitere ibelata, menyụọ ngafe.” Nke mere na n'agbanyeghị ole ndị nyocha bịara malite ilele akụkọ, onye ọ bụla nwere ihe onwunwe zuru oke.

N'otu oge ahụ, ọ bụrụ na ndị nyocha na-ehi ụra ma ọ dịghị onye na-eleba anya na akụkọ ndị ahụ, ụyọkọ ahụ nwere ike ịgba ọchịchịrị kpamkpam, ị kwụsịrị ịkwụ ụgwọ ha.

N'otu oge ahụ, maka ajụjụ dị arọ (site na ndị ọkà mmụta sayensị data), ị nwere ike ibuli otu nnukwu ụyọkọ maka igwe 32. A ga-akwụkwa ụyọkọ a naanị maka nkeji na awa ndị ahụ mgbe nnukwu arịrịọ gị na-aga ebe ahụ.

Ohere akọwara n'elu na-enye gị ohere ikewa ọ bụghị naanị 2, kamakwa ụdị ọrụ dị iche iche n'ime ụyọkọ (ETL, nlekota oru, ịkọ akụkọ, ...).

Ka anyị chịkọta Snowflake. Isi ihe na-ejikọta echiche mara mma na mmejuputa a na-arụ ọrụ. Na ManyChat, anyị na-eji Snowflake nyochaa data niile anyị nwere. Anyị enweghị ụyọkọ atọ, dịka ọmụmaatụ, mana site na 5 ruo 9, nke nha dị iche iche. Anyị nwere igwe 16-igwe, igwe 2, yana kwa obere igwe 1 maka ụfọdụ ọrụ. Ha na-ekesa ibu ahụ nke ọma ma na-enye anyị ohere ịchekwa ọtụtụ ihe.

Ebe nchekwa data na-enyocha ibu ọgụgụ na ide ihe nke ọma. Nke a bụ nnukwu ọdịiche na nnukwu ọganihu ma e jiri ya tụnyere otu "Aurora", nke na-ebu naanị ibu ọgụgụ. Snowflake na-enye gị ohere iji ụyọkọ kọmpụta ndị a tụọ ọrụ ide ihe gị. Ya bụ, dị ka m kwuru, anyị na-eji ọtụtụ ụyọkọ na ManyChat, obere na nnukwu-obere ụyọkọ na-ejikarị maka ETL, maka loading data. Ndị nyocha na-ebikwarị na ụyọkọ ọkara, nke ibu ETL na-emetụtaghị kpamkpam, yabụ na-arụ ọrụ ngwa ngwa.

N'ihi ya, nchekwa data dabara adaba maka ọrụ OLAP. Otú ọ dị, ọ dị mwute ikwu, ọ kabeghị maka ibu ọrụ OLTP. Nke mbụ, nchekwa data a bụ columnar, yana nsonaazụ niile na-esote. Nke abuo, ụzọ n'onwe ya, mgbe maka arịrịọ ọ bụla, ọ bụrụ na ọ dị mkpa, ị na-ebuli ụyọkọ kọmpụta wee jujuo ya na data, ọ dị mwute ikwu, erubeghị ngwa ngwa maka ibu OLTP. Ichere sekọnd maka ọrụ OLAP bụ ihe nkịtị, mana maka ọrụ OLTP ọ dịghị anabata; 100 ms ga-aka mma, ma ọ bụ 10 ms ga-aka mma.

Nsonaazụ

Ebe nchekwa data na-enweghị ihe nkesa ga-ekwe omume site n'ikewa nchekwa data n'ime akụkụ ndị na-enweghị obodo na nke steeti. O nwere ike ịbụ na ị chọpụtala na n'ihe atụ niile ndị a dị n'elu, akụkụ steeti ahụ bụ, na-ekwu okwu dịtụ ala, na-echekwa obere akụkụ na S3, na enweghị mba bụ ihe kachasị mma, na-arụ ọrụ na metadata, na-ejikwa okwu nchekwa nke enwere ike iwelite dị ka ọrụ enweghị steeti kwụụrụ onwe ya.

Ịme ajụjụ SQL nwekwara ike ịghọta dị ka ọrụ steeti ọkụ nwere ike ịmalite na ọnọdụ enweghị ihe nkesa, dị ka ụyọkọ mgbakọ Snowflake, budata naanị data dị mkpa, mebie ajụjụ ahụ wee "pụọ."

Ebe nchekwa data mmepụta ọkwa enweghị nkesa adịlarị maka ojiji, ha na-arụ ọrụ. Ebe nchekwa data ndị a na-enweghị ihe nkesa adịlarị njikere ijikwa ọrụ OLAP. N'ụzọ dị mwute, maka ọrụ OLTP ha na-eji ... na nuances, ebe ọ bụ na e nwere njedebe. N'otu aka, nke a bụ mwepu. Ma, n'aka nke ọzọ, nke a bụ ohere. Ikekwe otu n'ime ndị na-agụ akwụkwọ ga-achọta ụzọ isi mee ka nchekwa data OLTP enweghị ihe ọ bụla, na-enweghị njedebe nke Aurora.

Enwere m olileanya na ọ masịrị gị. Enweghị sava bụ ọdịnihu :)

isi: www.habr.com

Tinye a comment