Cum habeas Sber squamas. Usura Ab Initio cum Alveare et GreenPlum

Iam dudum coram sumus interrogationi ETL instrumentum eligendi ad operandum cum Data Maximo. Solotio informatica BDM antea adhibita nobis ob limitatam functionem non congruebat. Usus eius ad compagem redactus est ut scintillas submittere iubeat. Non multae analogiae in foro, quae in principio fuerunt, operari possunt cum codice notitiarum, quae per singulos dies tractamus. In fine elegimus ab Initio. In demonstrationibus gubernatoris, productum praecelsum celeritatis processus notitiae ostendit. Nulla fere notitia est de Ab Initio in Russian, ideo de experientia nostra in Habré loqui decrevimus.

Ab Initio multas habet classicas et inusitatas transmutationes, quarum codicem PDL lingua utens extendi potest. Ad parvum negotium, tam validum instrumentum overkill verisimile erit, et plurimae eius facultates pretiosae et insuetae possunt esse. Sed si scala tua appropinquat Sberov's, ab Initio te interesting esse potest.

Negotium adiuvat ut globaliter scientiam cumulet et oecosystematis excolat, et elit ad artes suas in ETL emendandas, cognitionem suam in testa meliorem, occasionem praebeat linguae PDL vincendi, dat imaginem visibilium processuum loading et progressionem simplificat. ob multitudinem functionis tium.

In hoc posto de Ab Initio facultates loquar et notas comparativas operis sui cum Hive et GreenPlum praebebo.

  • Descriptio machinae et operis MDW de sua cssmerciatione ad GreenPlum
  • Ab Initio perficiendi comparatio inter Alvum et GreenPlum
  • Operationis Ab Initio apud GreenPlum in Near Real Time modus


Operatio huius operis amplissima est ac multum temporis ad studium requirit. Attamen, cum propriis artibus et recti operis occasus, eventus notitiae processus valde gravis sunt. Usura Ab Initio pro elit experientiam interesting praebere potest. Hoc novum est accipere progressionem ETL, hybrida inter ambitum visualem et progressionem in lingua scriptionis similis download.

Negotiationes oecosystemata earum explicant et hoc instrumentum in promptu plus quam umquam venit. Cum Ab Initio, cognitionem de re praesenti cumulare potes et hac scientia uteris ad novas res veteres dilatandas et aperiendas. Alterna ab Initio includunt ambitus evolutionis visuales Informatica BDM et non visivae evolutionis ambitus Apache Spark.

Description of Ab Initio

Ab Initio, sicut cetera instrumenta ETL, productorum collectio est.

Cum habeas Sber squamas. Usura Ab Initio cum Alveare et GreenPlum

Ab Initio GDE (Graphical Development Environment) ambitus elit est in quo notitias transmutationes configurat easque cum notitia fluit in forma sagittarum connectit. Hoc in casu, talis graphi mutationum copia appellatur:

Cum habeas Sber squamas. Usura Ab Initio cum Alveare et GreenPlum

Input et output nexus partium functionum sunt portus et agros continent intra transformationes computatas. Plures graphes connexae in forma sagittarum influentiarum in ordine executionis vocantur consilium.

Plures centum partes functionis sunt, quod multum est. Multi ex eis sunt valde speciales. Facultates mutationum classicarum in Ab Initio latiores sunt quam in aliis instrumentis ETL. Exempli gratia, Join plures outputs habet. Praeter effectus iungendi datasetes, tabulas inputare datastarum, quarum claves connecti non poterant, outputare potes. Possis etiam rejicere, errores et truncum transformationis operationis, quae in eadem columna legi possunt sicut fasciculus textus et cum aliis transformationibus processus;

Cum habeas Sber squamas. Usura Ab Initio cum Alveare et GreenPlum

Vel, exempli gratia, materia receptaculum in modum tabulae materiari potes et ex eo datam legere in eadem columna.

Originales mutationes. Pro exemplo, in Scan transmutatio functionality habet similes functionibus analyticis. Mutationes nomina sunt propria explanatoria: crea Data, Lege Praecedo, Normalize, Sort intra Societates, Curre Programma, Curre SQL, Coniunge cum DB, etc. Graphs parametris currere possunt, cum facultate parametri transeundi ab vel ad ratio operandi. Tabulae cum parametris parametris ad graphum transeuntibus vocantur parametri (psets).

Ut expectatur, Ab Initio GDE suum EME repositum habet (Intraprise Meta Environment). Facultatem habent tincidunt operandi cum versionibus localibus Codicis et in suis evolutionibus in repositorio centrali coercenda.

Fieri potest, in executione vel peractae graphae, ut strepat in quovis fluxu connexione transformationis et inspicere notitias quae inter has transmutationes transierunt;

Cum habeas Sber squamas. Usura Ab Initio cum Alveare et GreenPlum

Potest etiam deprimere aliquem rivum et singula persequi, quot parallelae transmutatio operata est, quot lineae et bytes in quibus parallelorum onusta sunt;

Cum habeas Sber squamas. Usura Ab Initio cum Alveare et GreenPlum

Fieri potest ut executionem graphi in augmenta dividere et notare aliquas transformationes primo (in nulla periodo), alterae in prima periodo, proximae in secunda periodo, etc.

Ad unamquamque transmutationem, eligere potes sic dictam extensionem (ubi agetur): sine parallelis vel in filis parallelis quorum numerus specificari potest. Eodem tempore, tabellae temporales quas Ab Initio creat, cum transformationes currant, collocari possunt tam in ratiocinii fasciculi quam in HDFS.

In unaquaque transmutatione, ex defectu templates, proprium tuum scriptum creare potes in PDL, quae paulum conchae est.

Cum PDL functionem transmutationis extendere potes et, praesertim, dynamice (in runtime) generare potes fragmentum arbitrarium secundum parametri runtimorum.

Ab Initio etiam integratio bene evoluta cum testa OS via. Speciatim Sberbank utitur linux ksh. Variabiles cum putamine commutare potes et uti graphio parametris. Potes dicere exsecutionem Ab Initio graphi e testa et administra Ab Initio.

Praeter Ab Initio GDE multa alia producta in traditione comprehenduntur. Propria est Co>operation System cum petitione systematis operantis appellatur. Imperium>Center ubi schedula fluit ac monitor download est. Producta sunt ad progressionem faciendam in gradu primitivo quam Ab Initio GDE permittit.

Descriptio machinae et operis MDW de sua cssmerciatione ad GreenPlum

Cum suis fructibus, venditor praebet MDW (Metadata CELLA agitata) productum, quod est graphium configuratoris destinatum adiuvare ad opera typica popularis notitiarum apothecarum vel testudines datas.

Mos (project-specialis) parsers metadatarum continet et codicem generantium e capsa praeparatum factum continet.

Cum habeas Sber squamas. Usura Ab Initio cum Alveare et GreenPlum
Sicut input, MDW exemplar datae accipit, limam configurationem ut nexum datorum (Oraculum, Teradata vel Hive) et nonnulla alia loca constituat. Pars certa, exempli gratia, exemplar dat database. Pars producti extra-thecam graphas gignit et tabellas configurandas eis datas in tabulas exemplaribus onerantibus. Hoc in casu, graphi (et psetes) aliquot modos creantur initializationis et incrementi operis in adaequationis entia.

In casibus de Hive et RDBMS, variae graphes generantur ad initializationem et incrementa notitiarum updates.

In Alveario, ineuntes della notitia coniungitur per Ab Initio Cum data quae erat in tabula ante renovationem. Datae onerariae in MDW (tam in Hive et RDBMS) non solum novas notitias delta inserunt, sed etiam tempora congruentia notitiarum claudunt, quarum primariae claves Delta acceperunt. Praeterea pars immutata RESCRIBO tibi data. Sed hoc factum est quia Hive non habet operationes delere vel renovationem.

Cum habeas Sber squamas. Usura Ab Initio cum Alveare et GreenPlum

In casu RDBMS, graphi ad incrementales notitias adaequationis magis spectant, quia RDBMS facultates reales adaequationis habent.

Cum habeas Sber squamas. Usura Ab Initio cum Alveare et GreenPlum

Delta recepta in mensa media in datorum oneratur. Postea coniungitur della notitia quae erat in mensa ante renovationem. Hoc autem fit utens SQL utens interrogatione generatae SQL. Deinde, utens mandata SQL delere+inserta, nova notitia e della tabula scopo inseritur et tempora congruentia notitiarum quarum primariae claves delta receptae sunt, clausae sunt.
Nihil opus est notitia immutata RESCRIBO.

Itaque ad conclusionem venimus in casu Hive, MDW ire totam mensam rescribere quia Hive munus renovationis non habet. Et nihil melius quam notitias omnino rescribere cum adaequationis inventa est. In RDBMS, e contra, creatores producti necessarium invenerunt nexum et adaequationem tabularum ad usum SQL committendum.

Ad consilium apud Sberbank, novum, reusable exsecutionem oneris database pro GreenPlum creavimus. Hoc factum est secundum versionem quam MDW pro Teradata generat. Teradata erat, non Oraculum, hoc proximum et optimum, quia... est etiam ratio MPP. Modi operandi, sicuti in syntaxi, Teradata et GreenPlum evasit similes esse.

Exempla differentiarum criticarum MDW inter RDBMSs diversae sunt hae. In GreenPlum, dissimilis Teradata, cum tabulis creandis clausulam scribere debes

distributed by

Teradata scribit:

delete <table> all

et in GreenPlum scribunt

delete from <table>

In Oraculo ad optimas causas scribunt

delete from t where rowid in (<соединение t с дельтой>)

et Teradata et GreenPlum scribe

delete from t where exists (select * from delta where delta.pk=t.pk)

Etiam notamus pro Ab Initio ad operandum cum GreenPlum, necesse erat clientem GreenPlum instituere in omnes nodos Ab Initio botri. Hoc est, quia simul ab omnibus nodis in botro nostro GreenPlum conexi sumus. Et ut legendi ex GreenPlum sint parallelae et singulae parallelae Ab Initio sequelae ad legendum datae suae portionem de GreenPlum, constructionem ab Initio in "ubi" sectione SQL queries intellectam ponere debebamus.

where ABLOCAL()

et valorem huius constructionis determinando modulum lectionis ex datorum transformatione determinando

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

Quae conscribit ad aliquid simile

mod(sk,10)=3

, i.e. Habes GreenPlum promptum ad singulas partitiones cum explicata colum. Pro aliis databases (Teradata, Oracle), Ab Initio hanc parallelizationem ipso facto praestare possunt.

Ab Initio perficiendi comparatio inter Alvum et GreenPlum

Sberbank experimentum gessit ad comparandas graphes generatorum MDW faciendos in relatione ad Hive et in relatione ad GreenPlum. Ex parte experimenti in alveari erant 5 nodi in eodem botro cum Ab Initio, et in GreenPlum erant 4 nodi in racemo separato. Illae. Hive habuit aliquod commodum supra GreenPlum hardware.

Duo paria graphorum consideravimus idem negotium faciendi notitias augendi in Alveare et GreenPlum. Eodem tempore graphs generatorum a MDW configuratore deductae sunt;

  • primum onus + incremental passim generatur notitia onus in Alveare mensam
  • primum onus + incremental onus passim generatae data in eandem GreenPlum mensam

In utroque casu (Hive et GreenPlum) impositi cucurrerunt ad 10 stamina parallela in eodem Ab Initio botri. Ab Initio data intermedia servata pro calculis in HDFS (ab Initio, MFS layout utens HDFS adhibitus est). Una linea passim generata notitias 200 bytes in utroque casu occupavit.

eventus talis erat;

Def:

Coepi loading in Alveare

Ordines inserti
6 000 000
60 000 000
600 000 000

Initialization durationis
downloads in seconds
41
203
1 601

Incremental loading in Alveare

Numerus ordinum available in
scopum mensam in initio experimentorum
6 000 000
60 000 000
600 000 000

Numerus della linea applicata ad
scopum mensa per experimentum
6 000 000
6 000 000
6 000 000

Durationem incremental
downloads in seconds
88
299
2 541

GreenPlum:

Coepi loading in GreenPlum

Ordines inserti
6 000 000
60 000 000
600 000 000

Initialization durationis
downloads in seconds
72
360
3 631

Incremental loading in GreenPlum

Numerus ordinum available in
scopum mensam in initio experimentorum
6 000 000
60 000 000
600 000 000

Numerus della linea applicata ad
scopum mensa per experimentum
6 000 000
6 000 000
6 000 000

Durationem incremental
downloads in seconds
159
199
321

Videmus celeritas initialis onerationis in utroque Alveare et GreenPlum linealiter a copia notitiarum pendere et, melioris ferramentis rationibus, paulo velocius est pro Alveare quam pro GreenPlum.

Incremental loading in Alvearia etiam linearly dependet a volumine quod ante onustum datarum quae in mensa scopo praesto sunt, et satis lente procedit sicut volumen crescit. Hoc causatur ex necessitate mensae scopo rescribe omnino. Hoc significat parvas mutationes ingentibus tabulis applicandis pro Hive non bene usus est.

Incrementales loading in GreenPlum aegre pendent a volumine antehac onusto datarum quae praesto sunt in mensa scopo et satis cito procedit. Hoc factum est propter architecturae SQL Joins et GreenPlum, quae operationem delere permittit.

Ita, GreenPlum addit delta utens methodo deleto+inserta, sed Hive non habet operationes vel renovationes delete, ideo tota notitia ordinata coactus est in incremento renovatio omnino rescripta esse. Comparatio cellularum quae in audacibus allatae sunt maxime revelat, quia respondet communi optioni ad utendi intensive downloads. Videmus GreenPlum in hoc experimento per 8 times verberare Alvum.

Operationis Ab Initio apud GreenPlum in Near Real Time modus

In hoc experimento probabimus facultatem Ab Initio ad tabulam GreenPlum renovandam cum passim generata chunkis notitiarum prope realem tempus. Consideremus tabulam GreenPlum dev42_1_db_usl.TESTING_SUBJ_org_finval, quacum laboramus.

Tres Ab Initio graphs utemur ad operandum cum eo:

1) Graph Create_test_data.mp - dat tabellas in HDFS cum 10 ordines in 6 filis parallelis creat. Notitia temere est, structura eius ad inserendum in tabulam nostram ordinatur

Cum habeas Sber squamas. Usura Ab Initio cum Alveare et GreenPlum

Cum habeas Sber squamas. Usura Ab Initio cum Alveare et GreenPlum

2) Aliquam lacinia purus mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset - MDW graphi generatur ex insertione data initializing in tabulam nostram in 10 filis parallelis (test notitia ex graphi generata) adhibetur)

Cum habeas Sber squamas. Usura Ab Initio cum Alveare et GreenPlum

3) Graph mdw_load.regular.current.dev42_1_d_usl_testing_subj_org_finval.pset - grapha generata a MDW ad incremental adaequationis nostrae tabulae in 10 filis parallelis utens portione data nuper recepta (delta) ex grapho generato.

Cum habeas Sber squamas. Usura Ab Initio cum Alveare et GreenPlum

Curramus infra scriptum in NRT modus:

  • test generare 6 lineas
  • praestare initiali onere inserta 6 test ordines in vacuam mensam
  • repetere incremental download V temporibus
    • test generare 6 lineas
    • persoluta incrementali inserta ex 6 ordinibus testium in tabula (hoc in casu, tempus valid_to_ts expirationis positum est ad notitias antiquas et recentiores notitias cum eisdem clavis primaria insertis)

Haec missionis modum aemulatur verae operationis cuiusdam systematis negotii - magna portio novarum notitiarum in reali tempore apparet ac statim in GreenPlum effunditur.

Intueamur iam scriptoris stipes:

Committitur Create_test_data.input.pse at 2020-06-04 11:49:11
Perfice Create_test_data.input.pset at 2020-06-04 11:49:37
Committitur mdw_load.day_one.current.dev42_1_d_usl_testing_subj_org_finval.pse at 2020-06-04 11:49:37
Perfice mdw_load.day_one.current.dev42_1_d_usl_testing_subj_org_finval.pse at 2020-06-04 11:50:42
Committitur Create_test_data.input.pse at 2020-06-04 11:50:42
Perfice Create_test_data.input.pset at 2020-06-04 11:51:06
Committitur mdw_load.regular.current.dev42_1_d_usl_testing_subj_org_finval.pse at 2020-06-04 11:51:06
Perfice mdw_load.regular.current.dev42_1_d_usl_testing_subj_org_finval.pse at 2020-06-04 11:53:41
Committitur Create_test_data.input.pse at 2020-06-04 11:53:41
Perfice Create_test_data.input.pset at 2020-06-04 11:54:04
Committitur mdw_load.regular.current.dev42_1_d_usl_testing_subj_org_finval.pse at 2020-06-04 11:54:04
Perfice mdw_load.regular.current.dev42_1_d_usl_testing_subj_org_finval.pse at 2020-06-04 11:56:51
Committitur Create_test_data.input.pse at 2020-06-04 11:56:51
Perfice Create_test_data.input.pset at 2020-06-04 11:57:14
Committitur mdw_load.regular.current.dev42_1_d_usl_testing_subj_org_finval.pse at 2020-06-04 11:57:14
Perfice mdw_load.regular.current.dev42_1_d_usl_testing_subj_org_finval.pse at 2020-06-04 11:59:55
Committitur Create_test_data.input.pse at 2020-06-04 11:59:55
Perfice Create_test_data.input.pset at 2020-06-04 12:00:23
Committitur mdw_load.regular.current.dev42_1_d_usl_testing_subj_org_finval.pse at 2020-06-04 12:00:23
Perfice mdw_load.regular.current.dev42_1_d_usl_testing_subj_org_finval.pse at 2020-06-04 12:03:23
Committitur Create_test_data.input.pse at 2020-06-04 12:03:23
Perfice Create_test_data.input.pset at 2020-06-04 12:03:49
Committitur mdw_load.regular.current.dev42_1_d_usl_testing_subj_org_finval.pse at 2020-06-04 12:03:49
Perfice mdw_load.regular.current.dev42_1_d_usl_testing_subj_org_finval.pse at 2020-06-04 12:06:46

Vertit hanc imaginem:

Aliquam lacinia purus
Satus tempus
Tempus consummare
Length

Create_test_data.input.pset
04.06.2020 11: 49: 11
04.06.2020 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 49: 37
04.06.2020 11: 50: 42
00:01:05

Create_test_data.input.pset
04.06.2020 11: 50: 42
04.06.2020 11: 51: 06
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 51: 06
04.06.2020 11: 53: 41
00:02:35

Create_test_data.input.pset
04.06.2020 11: 53: 41
04.06.2020 11: 54: 04
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 54: 04
04.06.2020 11: 56: 51
00:02:47

Create_test_data.input.pset
04.06.2020 11: 56: 51
04.06.2020 11: 57: 14
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 57: 14
04.06.2020 11: 59: 55
00:02:41

Create_test_data.input.pset
04.06.2020 11: 59: 55
04.06.2020 12: 00: 23
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 00: 23
04.06.2020 12: 03: 23
00:03:00

Create_test_data.input.pset
04.06.2020 12: 03: 23
04.06.2020 12: 03: 49
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 03: 49
04.06.2020 12: 06: 46
00:02:57

Videmus 6 lineas incrementi in tribus minutis procedere, quod admodum celeriter est.
Notitia in mensa scopo evenit ut sic distribuatur:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Cum habeas Sber squamas. Usura Ab Initio cum Alveare et GreenPlum
Potes videre correspondentiam notitiarum insertarum ad tempora graphorum deductarum.
Hoc modo potes currere incrementales notitiarum onerationum in GreenPlum in Ab Initio cum frequentia altissima, et vide magnam celeritatem inserendi haec data in GreenPlum. Utique non poterit semel in secunda mittere, quoniam Ab Initio, sicut aliquod instrumentum ETL, tempus "incipere" postulat, cum deductae sunt.

conclusio,

Ab Initio currently adhibetur apud Sberbank aedificandae Semanticae Datae Stratum Unificatum (ESS). Hoc consilium involvit structuram unam versionem status variarum rerum argentariarum negotiationum. Informatio venit ex variis fontibus, quarum replicationes in Hadoop praeparantur. Negotiationis necessitates fundatae, exemplum notitiae praeparatur et translationes notitiae describuntur. Ab Initio informationes onerat in ESN et data receptacula non solum interest rei in se, sed etiam inservit fons pro aedificatione data martis. Eodem tempore, functio functionis permittit vos variis systematibus uti receptaculo (Alveo, Greenplum, Teradata, Oraculo), quod efficit ut facile notitias ad negotium praeparet in variis formis quae requirit.

Facultates Ab Initio latae sunt, exempli gratia, compage MDW inclusa efficit ut notitias historicas technicas et negotiationes aedificare e archa. Pro tincidunt, Ab Initio efficit ut rotam non renovet, sed utatur pluribus elementis functionibus exsistentibus, quae per se bibliothecae opus sunt cum notitia operando.

Auctor peritus est in communitate professionali Sberbank SberProfi DWH/BigData. Communitas professionalis SberProfi DWH/BigData responsabilis est ad explicandas facultates in talibus locis sicut oeconomia Hadoop, Teradata, Oraculum DB, GreenPlum, necnon instrumenta BI Qlik, SAP BO, Tableau, etc.

Source: www.habr.com

Add a comment