Tabellae formatae in magnis datae: breves institutionis progressio;

Tabellae formatae in magnis datae: breves institutionis progressio;
Tempestas Numinis per Remarin

bigas Mail.ru Cloud Solutions deals articulus translation ingeniarius Rahul Bhatia de Clairvoyant de quibus formats fasciculi in magnis datae sunt, quae sunt notae communissimarum formarum Hadoop et quae forma melius ad utendum est.

Cur variae formae fasciculi requiruntur?

Maior perficientur bottleneck pro HDFS applicationes para ut MapReduce et Scintilla tempus est data quaerendi, legendi et scribendi. Hae problemata componuntur difficultas magnas notitias disponendi, si schema evolutorium potius quam certum habemus, vel si aliqua sint angustiae reposita.

Processus magnae notitiae auget sarcinam in subsystem repositione - Hadoop thesaurorum notitia redundanter ad tolerantiam culpae consequendam. Praeter orbis, processus, reticulum, input/output ratio, et sic onusta sunt. Sicut volumen notitiarum crescit, sic sumptus processus ac recondendum est.

Variae formae fasciculi in Hadoop inventa solvere problemata. Apta forma fasciculi eligens aliquas utilitates significantes praebere potest:

  1. Ocius legendi tempus.
  2. Ocius notare tempus.
  3. Communes ordines.
  4. Suscipe schema evolutionis.
  5. Dilatata cogo lorem.

Formae fasciculi quaedam ad usum generalem destinantur, aliae ad usus specialiores, et quaedam ad notas specificas pertinentes. Itaque electio satis magna est.

Avro lima forma

Ad notitia serialization Avro late adhibetur - it linea secundum, id est, chorda data repositionis forma in Hadoop. Schema in JSON forma reponit, ut facile legatur et interpretetur quavis ratione. Ipsa notitia in forma binaria, compacta et efficax est.

Avro serialization ratio linguae neutrae est. Tabulae in variis linguis procederi possunt, nunc C, C++, C#, Java, Python et Ruby.

Praecipuum notae Avro est firmamentum validum pro schematibus datarum quae super tempus mutant, id est, evolutionis. Avro schema mutat, delendo, addendo vel mutando agros.

Avro varias notitias structuras sustinet. Exempli gratia, creare potes testimonium continens ordinem, genus recensitum, et subrecordum.

Tabellae formatae in magnis datae: breves institutionis progressio;
Haec forma est specimen scribendo ad portum (transitu) zonam datae lacus.data lacusseu lacus notitiarum - instantiarum collectio ad varias notitiarum genera accommodandas praeter fontes directe datos).

Haec igitur forma aptissima est ad portum zonae datae lacus scribendae ob has causas:

  1. Data ex hac zona plerumque in integro legi pro ulteriore processui ab amni systemata - et forma biremis substructio in hoc casu efficacior est.
  2. Systema amni facile possunt tabulas schematis de lima recuperare - nullum opus est schemata separatim in meta externa reponere.
  3. Quaevis mutatio schematis originalis facile discursum est (evolutionis schema).

Parquet Tabellae

Parquet apertum est fons formae file Hadoop pro thesauris plana columnar forma in notitia opera nested.

Accessus ad ordinem traditum comparatus, Parquet efficacior est secundum repositionis et effectus.

Hoc maxime utile est in quaestionibus quae certas columnas ex tabula lata (multas columnas) legunt. Per formam tabellae tantum necessariae columnae leguntur, sic I/O ad minimum servatur.

Parva digressio et explicatio: Ut melius intelligatur forma fasciculi Parquet in Hadoop, videamus quid sit columna - forma i.e. columnaris. Haec forma addit valores similes in unaquaque columna.

exempli gratiarecordum ID, Nomen, et Agros Department comprehendit. Hoc in casu, omnes ID columnae valores simul reponentur, ut valorum Nomen columnae, et sic porro. Mensa aliquid simile hoc spectabit:

ID
nomine
Donec

1
emp1
d1

2
emp2
d2

3
emp3
d3

In forma chorda, notitia salvabitur hoc modo:

1
emp1
d1
2
emp2
d2
3
emp3
d3

In forma fasciculi columnari eadem notitia servabitur sic:

1
2
3
emp1
emp2
emp3
d1
d2
d3

Forma columnaris efficacior est cum plures columnas ex tabula interrogatione debes. Hoc solum requiritur columnas legere, quia vicinae sunt. Hoc modo conservantur operationes ad minimum.

Verbi gratia, columna tantum opus est. IN' linea forma Singulae notae in actis datae onerari debent, parsed per agrum onerari, et inde nomen inditum excerpere. Forma columnae directe ad columnam Nomen terebrare permittit quod omnia valores illius columnae simul reponuntur. Totam tabulam recensere non debes.

Ita forma columnaris melioris inquisitionis effectus est quia minus specula tempus requirit ut ad columnas requiritur et numerum operationum I/O reducat quia tantum columnae desideratae leguntur.

Una e singularibus parquet quod in hac forma non potest copia notitia cum nested structurae. Hoc significat in Lima Parquet, etiam agros habitos singillatim legi posse sine omnibus agris in nidificatione structurae legere. Parquetus incisuris utitur et algorithmus conventus ad structuras nidificandas congregandas.

Tabellae formatae in magnis datae: breves institutionis progressio;
Ad intelligendum formas fasciculi Parqueti in Hadoop, debes scire sequentia verba:

  1. Manipulus chordarum (coetus ordo): divisio data in ordines horizontalis. Circulus ordo constat fragmento uniuscuiusque columnae in notitia copiae.
  2. Columna fragment (column FRUSTUM): fragmentum columnae certae. Haec fragmenta columnae in certo ordine ordinum vivunt et in tabella contigua praestantur.
  3. page (pagina): fragmenta in paginas altera post alteram scriptae dividuntur. Paginae titulum commune habent, ut supervacuas legere possis.

Tabellae formatae in magnis datae: breves institutionis progressio;
Hic titulus tantum numerum magicam continet PAR1 (4 bytes) quae tabellam tabellam parquet designat.

Haec dicit footer:

  1. Fasciculus metadata continens coordinatas metadatas cuiusque columnae initium. Cum legeris, primum metadatae tabulae lege debes ut omnia columnae usoris fragmenta invenias. Partes igitur columnae consequenter legantur. Alia metadata includit versionem formatam, schema et paria quaevis additamenta pretii clavis.
  2. Metadata longitudo (4 bytes).
  3. Magia numerus PAR1 (4 bytes).

ORC Tabellae

Optimized row-column file format (Optimized Row Columna, CRO) efficacissima via ad notitias thesaurorum praebet et ad limites aliarum formarum superandas destinatus est. Copiae notae in forma perfecte compacta, sino ut singula superflua omittas - non exigens indices magnos, implicatos vel manuales conservatos.

Orc format commoda:

  1. Scapus unus est output cuiusque operis quae onus in NameNode (nomen nodi reducit).
  2. Auxilia ad rationes datas Hive, inclusa DateTime, decimales et composita genera datarum (instruunt, indicem, tabulam et unionem).
  3. Simultanea lectionis eiusdem fasciculi per varios processuum Recordreader.
  4. Facultatem ad scindendum files sine intuens venalicium.
  5. Aestimatio maximi fieri potest memoriae tumuli destinatio pro lege/scribe processibus secundum informationes in tabella footer.
  6. Metadata reponitur in Protocollo Buffers forma binarii serializationis, quae agros addi et removeri sinit.

Tabellae formatae in magnis datae: breves institutionis progressio;
ORC collectiones chordarum in uno fasciculo, et intra collectionem data chorda in forma columnari reponitur.

Fasciculi ORC globi tabulae linearum dictae verbera et informationes sustinentes in tabella footer. Postscriptum in fine tabellae parametros compressionem et magnitudinem pedis compressi continet.

Defectum clavum magnitudo 250 MB est. Ob tantas plagas, lectio ex HDFS efficacius exercetur: in magnis contiguis caudices.

Tabella footer enumerat vicos in tabella, ordines per laneum, et singulae columnae species datae. Valor inde comes, min, max et summa in singulis columnis etiam ibi scriptum est.

The footer of the stripes continet directorium fluminis locorum.

Row data adhibetur cum tabulis intuens.

Index notitiarum continet valores minimos et maximos in unaquaque columna et situs ordinum in unaquaque columna. ORC indices tantum ad verbera eligenda et ad circulos remigandi adhibita, non ad interrogationes solvendas.

Comparatio diversae formae fasciculi

Avro comparati Parquet

  1. Avro forma reposita est ordo, cum notitia in columnis Parquet reponit.
  2. Parquet aptior est quaestionibus analyticis, operationes legere et notitia interrogationis significationem multo efficaciorem esse quam scribit.
  3. Operationes in Avro scribe efficacius peraguntur quam in Parquet.
  4. Avro gyro evolutionis maturius agit. Parquet tantum schema additionis sustinet, dum Avro evolutionem multifunctionalem sustinet, id est, columnas addens vel mutans.
  5. Parquet est specimen pro interrogatione subset columnarum in tabula multi-columna. Avro etL operationibus apta est ubi omnes columnas investigamus.

ORC vs Parquet

  1. Parqueti thesauri melioris notitia nidificaverunt.
  2. ORC aptior est praedicationi pushdown.
  3. ORC AClDO FOVET PROPRIETATES.
  4. ORC comprimit data melior.

Quid aliud legere in topic?:

  1. Analysis magna in nube: quomodo societas potest fieri notitia-orientatur?.
  2. Supplex ad Database Schemas.
  3. Nostrum telegraphum channel de digitalis transmutatio.

Source: www.habr.com