Formáidí comhaid i sonraí móra: clár oideachais gairid

Formáidí comhaid i sonraí móra: clár oideachais gairid
Aimsir Deity le Remarin

Foireann Mail.ru Cloud Solutions tairiscintí aistriúchán alt innealtóir Rahul Bhatia ó Clairvoyant faoi na formáidí comhaid atá i sonraí móra, cad iad na gnéithe is coitianta a bhaineann le formáidí Hadoop agus cén fhormáid is fearr a úsáid.

Cén fáth a bhfuil formáidí éagsúla comhaid ag teastáil?

Buaic mhór feidhmíochta d’fheidhmchláir atá cumasaithe le HDFS mar MapReduce agus Spark ná an t-am a thógann sé sonraí a chuardach, a léamh agus a scríobh. Déantar na fadhbanna seo níos measa ag an deacracht a bhaineann le tacair mhóra sonraí a bhainistiú má tá scéimre athraitheach againn seachas scéim shocraithe, nó má tá roinnt srianta stórála ann.

Méadaíonn próiseáil sonraí móra an t-ualach ar an bhfochóras stórála - stórálann Hadoop sonraí go iomarcach chun lamháltas lochtanna a bhaint amach. Chomh maith le dioscaí, luchtaítear an próiseálaí, an líonra, an córas ionchuir/aschuir, agus mar sin de. De réir mar a thagann méadú ar líon na sonraí, is amhlaidh a thagann méadú ar chostas próiseála agus stórála.

Formáidí comhaid éagsúla i Hadoop invented chun na fadhbanna seo a réiteach go beacht. Má roghnaítear an fhormáid comhaid chuí is féidir roinnt buntáistí suntasacha a sholáthar:

  1. Am léitheoireachta níos tapúla.
  2. Am taifeadta níos tapúla.
  3. Comhaid roinnte.
  4. Tacaíocht d'éabhlóid scéimre.
  5. Tacaíocht comhbhrú leathnaithe.

Tá roinnt formáidí comhaid beartaithe le haghaidh úsáide ginearálta, cinn eile le haghaidh úsáidí níos sainiúla, agus tá cuid acu deartha chun saintréithe sonraí sonracha a chomhlíonadh. Mar sin tá an rogha i ndáiríre sách mór.

Formáid comhaid Avro

Chun sraithiú sonraí Úsáidtear Avro go forleathan - é teaghrán bunaithe, is é sin, formáid stórála sonraí teaghrán i Hadoop. Stórálann sé an scéimre i bhformáid JSON, rud a fhágann go bhfuil sé éasca é a léamh agus a léirmhíniú ag aon ríomhchlár. Tá na sonraí féin i bhformáid dhénártha, dlúth agus éifeachtach.

Tá córas srathaithe Avro neodrach ó thaobh na teanga de. Is féidir comhaid a phróiseáil i dteangacha éagsúla, faoi láthair C, C++, C#, Java, Python agus Ruby.

Príomhghné de Avro is ea an tacaíocht láidir atá aige do scéimeanna sonraí a athraíonn le himeacht ama, is é sin, forás. Tuigeann Avro athruithe scéimre - réimsí a scriosadh, a chur leis nó a athrú.

Tacaíonn Avro le struchtúir sonraí éagsúla. Mar shampla, is féidir leat taifead a chruthú ina bhfuil eagar, cineál áirimh, agus fothaifead.

Formáidí comhaid i sonraí móra: clár oideachais gairid
Tá an fhormáid seo oiriúnach chun scríobh chuig crios tuirlingthe (aistriú) loch sonraí (loch sonraí, nó loch sonraí - bailiúchán cásanna chun cineálacha éagsúla sonraí a stóráil go díreach i dteannta le foinsí sonraí).

Mar sin, is fearr an fhormáid seo chun scríobh chuig crios tuirlingthe loch sonraí ar na cúiseanna seo a leanas:

  1. Is gnách go léitear sonraí ón gcrios seo ina n-iomláine le haghaidh tuilleadh próiseála ag córais iartheachtacha - agus tá formáid atá bunaithe ar rónna níos éifeachtaí sa chás seo.
  2. Is féidir le córais iartheachtacha táblaí scéimre a aisghabháil go héasca ó chomhaid - ní gá scéimrí a stóráil ar leithligh i meitea-stóráil sheachtrach.
  3. Is furasta aon athrú ar an scéimre bunaidh a phróiseáil (éabhlóid scéimre).

Formáid Comhaid iontlaise

Is formáid comhaid foinse oscailte é Parquet do Hadoop a stórálann struchtúir sonraí neadaithe i bhformáid colún cothrom.

I gcomparáid leis an gcur chuige traidisiúnta as a chéile, tá Parquet níos éifeachtaí i dtéarmaí stórála agus feidhmíochta.

Tá sé seo úsáideach go háirithe le haghaidh fiosrúcháin a léann colúin shonracha ó thábla leathan (go leor colún). A bhuí le formáid an chomhaid, ní léitear ach na colúin riachtanacha, mar sin coinnítear I/O chomh híseal agus is féidir.

A digression beag agus míniú: Chun formáid comhaid Parquet i Hadoop a thuiscint níos fearr, feicfimid cad is formáid bunaithe ar cholún - i.e. columnar - ann. Stórálann an fhormáid seo luachanna comhchosúla do gach colún le chéile.

Mar shampla, cuimsíonn an taifead na réimsí ID, Ainm agus Roinn. Sa chás seo, stórálfar na luachanna colún ID go léir le chéile, mar a bheidh na luachanna colún Ainm, agus mar sin de. Breathnóidh an tábla ar rud éigin mar seo:

ID
Ainm
Roinn

1
mp1. XNUMX
d1

2
mp2. XNUMX
d2

3
mp3. XNUMX
d3

I bhformáid teaghrán, déanfar na sonraí a shábháil mar seo a leanas:

1
mp1. XNUMX
d1
2
mp2. XNUMX
d2
3
mp3. XNUMX
d3

I bhformáid cholún comhaid, déanfar na sonraí céanna a shábháil mar seo:

1
2
3
mp1. XNUMX
mp2. XNUMX
mp3. XNUMX
d1
d2
d3

Tá an fhormáid columnar níos éifeachtaí nuair is gá duit a fhiosrú colúin iolracha ó tábla. Ní léifidh sé ach na colúin riachtanacha toisc go bhfuil siad in aice láimhe. Ar an mbealach seo, coinnítear oibríochtaí I/O chomh híseal agus is féidir.

Mar shampla, níl uait ach an colún NAME. IN formáid teaghrán Ní mór gach taifead sa tacar sonraí a luchtú, a pharsáil de réir réimse, agus ansin na sonraí NAME a bhaint as. Ceadaíonn formáid an cholúin duit druileáil síos go díreach chuig an gcolún Ainm mar go bhfuil na luachanna go léir don cholún sin stóráilte le chéile. Ní gá duit an taifeadadh iomlán a scanadh.

Mar sin, feabhsaíonn formáid an cholúin feidhmíocht na gceisteanna toisc go dteastaíonn níos lú ama cuardaigh chun na colúin riachtanacha a bhaint amach agus laghdaíonn sé líon na n-oibríochtaí I/O toisc nach léitear ach na colúin atá ag teastáil.

Ceann de na gnéithe uathúla iontlaise is é sin san fhormáid seo is féidir sonraí a stóráil le struchtúir neadaithe. Ciallaíonn sé seo gur féidir fiú páirceanna neadaithe a léamh ina n-aonar i gcomhad iontlaise gan a bheith ag léamh na réimsí go léir sa struchtúr neadaithe. Úsáideann iontlaise algartam stiallta agus cóimeála chun struchtúir neadaithe a stóráil.

Formáidí comhaid i sonraí móra: clár oideachais gairid
Chun formáid comhaid Parquet in Hadoop a thuiscint, ní mór duit na téarmaí seo a leanas a bheith ar eolas agat:

  1. Grúpa sraith (grúpa as a chéile): roinnt cothrománach loighciúil sonraí ina sraitheanna. Is éard atá i ngrúpa róil ná blúire de gach colún sa tacar sonraí.
  2. Blúire colún (smután colún): Blúire de cholún ar leith. Cónaíonn na blúirí colún seo i ngrúpa ar leith sraitheanna agus tá ráthaíocht orthu go bhfuil siad tadhlach sa chomhad.
  3. Leathanach (leathanach): Roinntear blúirí colún i leathanaigh scríofa ceann i ndiaidh a chéile. Tá teideal coitianta ag na leathanaigh, mar sin is féidir leat na cinn nach bhfuil gá leo a scipeáil agus tú ag léamh.

Formáidí comhaid i sonraí móra: clár oideachais gairid
Níl sa teideal anseo ach an uimhir draíochta PAR1 (4 beart) a shainaithníonn an comhad mar chomhad Parquet.

Deir an buntásc an méid seo a leanas:

  1. Meiteashonraí comhaid ina bhfuil comhordanáidí tosaigh mheiteashonraí gach colúin. Agus tú ag léamh, ní mór duit meiteashonraí an chomhaid a léamh ar dtús chun na blúirí colún ar fad a bhfuil spéis acu ann a fháil. Ba chóir codanna an cholúin a léamh go seicheamhach ansin. Áirítear le meiteashonraí eile an leagan formáide, scéimre, agus aon phéirí eochairluacha breise.
  2. Fad meiteashonraí (4 bytes).
  3. uimhir draíochta PAR1 (4 beart).

Formáid Chomhaid ORC

Formáid comhaid ró-cholún optamaithe (Colún Rae Optamaithe, CRO) a thairgeann bealach an-éifeachtach chun sonraí a stóráil agus dearadh é chun teorainneacha formáidí eile a shárú. Stóráiltear sonraí i bhfoirm dhlúth, rud a ligeann duit sonraí nach bhfuil gá leo a scipeáil - gan gá le hinnéacsanna móra, casta nó a chothabháil de láimh.

Buntáistí an fhormáid ORC:

  1. Is éard atá i gcomhad amháin aschur gach tasc, rud a laghdaíonn an t-ualach ar an NameNode (nód ainm).
  2. Tacaíocht do chineálacha sonraí Hive, lena n-áirítear DateTime, cineálacha sonraí deachúla agus casta (structúr, liosta, léarscáil agus aontas).
  3. Léamh comhuaineach an chomhaid chéanna ag próisis éagsúla RecordReader.
  4. Cumas comhaid a roinnt gan scanadh le haghaidh marcóirí.
  5. Meastachán ar an leithdháileadh cuimhne carn uasta is féidir do phróisis léite/scríofa bunaithe ar fhaisnéis sa bhuntásc comhaid.
  6. Stóráiltear meiteashonraí i bhformáid sraitheachú dhénártha Maoláin Phrótacail, a cheadaíonn réimsí a chur leis agus a bhaint.

Formáidí comhaid i sonraí móra: clár oideachais gairid
Stórálann ORC bailiúcháin teaghrán in aon chomhad amháin, agus laistigh den bhailiúchán, stóráiltear sonraí teaghrán i bhformáid cholúin.

Stórálann comhad ORC grúpaí línte ar a dtugtar stríoca agus faisnéis tacaíochta i mbuntásc an chomhaid. Tá paraiméadair chomhbhrú agus méid an bhuntásc chomhbhrúite san Postscript ag deireadh an chomhaid.

Is é an méid stripe réamhshocraithe 250 MB. Mar gheall ar stríoca móra den sórt sin, déantar léamh ó HDFS ar bhealach níos éifeachtaí: i mbloic mhóra tadhlacha.

Taifeadann buntásc an chomhaid liosta na lánaí sa chomhad, líon na sraitheanna in aghaidh an lána, agus cineál sonraí gach colúin. Scríobhtar ansin freisin luach an chomhairimh, an íosmhéid, an uas agus an tsuim do gach colún mar thoradh air.

Tá eolaire de láithreacha sruthanna ag buntásc na stráice.

Úsáidtear sonraí rónna agus táblaí á scanadh.

Áiríonn sonraí innéacs na luachanna íosta agus uasta do gach colún agus suíomh na sraitheanna i ngach colún. Ní úsáidtear innéacsanna ORC ach amháin chun stríoca agus grúpaí sraitheanna a roghnú, ní chun ceisteanna a fhreagairt.

Comparáid idir formáidí comhaid éagsúla

Avro i gcomparáid le Parquet

  1. Is formáid stórála rónna é Avro, agus stórálann Parquet sonraí i gcolúin.
  2. Tá iontlaise níos oiriúnaí do cheisteanna anailíseacha, rud a chiallaíonn go bhfuil oibríochtaí léite agus sonraí fiosrúcháin i bhfad níos éifeachtaí ná mar a scríobhann.
  3. Déantar oibríochtaí scríbhneoireachta in Avro ar bhealach níos éifeachtaí ná mar a dhéantar in Parquet.
  4. Déileálann Avro le héabhlóid chiorcaid ar bhealach níos aibí. Ní thacaíonn iontlaise ach cur leis an scéimre, agus tacaíonn Avro le héabhlóid ilfheidhmeach, is é sin, colúin a chur leis nó a athrú.
  5. Tá iontlaise oiriúnach chun fothacar de cholúin a cheistiú i dtábla ilcholún. Tá Avro oiriúnach le haghaidh oibríochtaí ETL ina gcuirimid gach ceist faoi na colúin.

ORC vs Parquet

  1. Siopaí iontlaise sonraí neadaithe níos fearr.
  2. Tá ORC níos oiriúnaí do bhrú síos a thuar.
  3. Tacaíonn ORC le hairíonna ACID.
  4. Déanann ORC sonraí a chomhbhrú níos fearr.

Cad eile atá le léamh ar an ábhar:

  1. Anailís mhór sonraí sa scamall: conas is féidir le cuideachta a bheith dírithe ar shonraí.
  2. Treoir Humble do Scéimeanna Bunachar Sonraí.
  3. Ár gcainéal teileagram faoi chlaochlú digiteach.

Foinse: will.com

Add a comment