Nuair a bhios lannan Sber agad. A’ cleachdadh Ab Initio le Hive agus GreenPlum

O chionn ùine, bha a’ cheist againn mu bhith a’ taghadh inneal ETL airson a bhith ag obair le Dàta Mòr. Cha robh am fuasgladh Informatica BDM a chaidh a chleachdadh roimhe seo freagarrach dhuinn air sgàth gnìomhachd cuibhrichte. Chaidh a chleachdadh a lughdachadh gu frèam airson òrdughan cuir a-steach spark a chuir air bhog. Cha robh mòran analogues air a 'mhargaid a bha, ann am prionnsabal, comasach air obrachadh leis an tomhas de dhàta a tha sinn a' dèiligeadh ris a h-uile latha. Mu dheireadh thagh sinn Ab Initio. Aig taisbeanaidhean pìleat, sheall an toradh astar giollachd dàta fìor àrd. Cha mhòr nach eil fiosrachadh sam bith ann mu Ab Initio ann an Ruisis, agus mar sin chuir sinn romhainn bruidhinn mun eòlas againn air Habré.

Tha mòran atharrachaidhean clasaigeach agus neo-àbhaisteach aig Ab Initio, agus faodar an còd aca a leudachadh a’ cleachdadh a chànan PDL fhèin. Airson gnìomhachas beag, tha coltas ann gum bi inneal cho cumhachdach air a dhol thairis air, agus dh'fhaodadh gum bi a 'mhòr-chuid de na comasan aige daor agus gun chleachdadh. Ach ma tha an sgèile agad faisg air Sberov, is dòcha gum bi Ab Initio inntinneach dhut.

Bidh e a’ cuideachadh gnìomhachas gus eòlas a chruinneachadh air feadh na cruinne agus eag-shiostam a leasachadh, agus leasaiche gus a sgilean ann an ETL adhartachadh, an eòlas aige san t-slige adhartachadh, a’ toirt cothrom maighstireachd a dhèanamh air cànan PDL, a’ toirt dealbh lèirsinneach de phròiseasan luchdachadh, agus a’ sìmpleachadh leasachadh air sgàth pailteas de phàirtean gnìomh.

Anns an dreuchd seo bruidhnidh mi mu chomasan Ab Initio agus bheir mi seachad feartan coimeasach den obair aige le Hive agus GreenPlum.

  • Tuairisgeul air frèam MDW agus obair air a ghnàthachadh airson GreenPlum
  • Coimeas coileanaidh Ab Initio eadar Hive agus GreenPlum
  • Ag obair Ab Initio le GreenPlum ann am modh Near Real Time


Tha comas-gnìomh an toraidh seo gu math farsaing agus feumaidh e tòrr ùine airson sgrùdadh. Ach, leis na sgilean obrach ceart agus na suidheachaidhean coileanaidh ceart, tha toraidhean giollachd dàta gu math drùidhteach. Faodaidh cleachdadh Ab Initio airson leasaiche eòlas inntinneach a thoirt seachad. Is e sealladh ùr a tha seo air leasachadh ETL, measgachadh eadar àrainneachd lèirsinneach agus leasachadh luchdachadh sìos ann an cànan coltach ri sgriobt.

Tha gnìomhachasan a’ leasachadh an eag-shiostaman agus tha an inneal seo a’ tighinn a-steach nas fheumail na bha e a-riamh. Le Ab Initio, faodaidh tu eòlas a chruinneachadh mun ghnìomhachas gnàthach agad agus an t-eòlas seo a chleachdadh gus seann ghnìomhachasan agus gnìomhachasan ùra fhosgladh. Tha roghainnean eile an àite Ab Initio a’ toirt a-steach àrainneachdan leasachaidh lèirsinneach Informatica BDM agus àrainneachdan leasachaidh neo-lèirsinneach Apache Spark.

Tuairisgeul air Ab Initio

Tha Ab Initio, mar innealan ETL eile, na chruinneachadh de thoraidhean.

Nuair a bhios lannan Sber agad. A’ cleachdadh Ab Initio le Hive agus GreenPlum

Tha Ab Initio GDE (Àrainneachd Leasachaidh Grafaigeach) na àrainneachd airson an leasaiche anns am bi e a’ rèiteachadh cruth-atharrachaidhean dàta agus gan ceangal le sruthan dàta ann an cruth saighdean. Anns a 'chùis seo, canar graf ris an t-seata seo de chruth-atharrachaidhean:

Nuair a bhios lannan Sber agad. A’ cleachdadh Ab Initio le Hive agus GreenPlum

Is e puirt a th’ ann an ceanglaichean cuir a-steach is toraidh de phàirtean gnìomh agus tha raointean ann air an tomhas taobh a-staigh cruth-atharrachaidhean. Canar plana ri grunn ghrafaichean ceangailte le sruthan ann an cruth saighdean san òrdugh cur an gnìomh.

Tha grunn cheudan de phàirtean gnìomh ann, rud a tha tòrr. Tha mòran dhiubh gu math sònraichte. Tha comasan cruth-atharrachaidhean clasaigeach ann an Ab Initio nas fharsainge na ann an innealan ETL eile. Mar eisimpleir, tha grunn thoraidhean aig Join. A bharrachd air toradh ceangal dàta, gheibh thu clàran toraidh de stòran-dàta cuir a-steach nach b’ urrainnear na h-iuchraichean aca a cheangal. Gheibh thu cuideachd diùltadh, mearachdan agus log den obair cruth-atharrachaidh, a ghabhas leughadh san aon cholbh ri faidhle teacsa agus a phròiseasadh le cruth-atharrachaidhean eile:

Nuair a bhios lannan Sber agad. A’ cleachdadh Ab Initio le Hive agus GreenPlum

No, mar eisimpleir, faodaidh tu cuidhteas dàta a thoirt gu buil ann an cruth clàr agus leugh dàta bhuaithe san aon cholbh.

Tha atharrachaidhean tùsail ann. Mar eisimpleir, tha comas-gnìomh aig cruth-atharrachadh Scan coltach ri gnìomhan anailis. Tha cruth-atharrachaidhean ann le ainmean fèin-mhìneachaidh: Cruthaich Dàta, Leugh Excel, Normalize, Deasaich taobh a-staigh Buidhnean, Run Program, Run SQL, Thig còmhla ri DB, msaa. an siostam-obrachaidh. Canar seataichean paramadair (pset) ri faidhlichean le seata de pharamadairean deiseil a chaidh a chuir chun ghraf.

Mar a bhiodh dùil, tha an stòr aige fhèin aig Ab Initio GDE ris an canar EME (Enterprise Meta Environment). Tha cothrom aig luchd-leasachaidh a bhith ag obair le dreachan ionadail de chòd agus sùil a thoirt air na leasachaidhean aca a-steach don phrìomh ionad-tasgaidh.

Tha e comasach, aig àm cur gu bàs no às deidh an graf a chuir an gnìomh, cliogadh air sruth sam bith a tha a’ ceangal a’ chruth-atharrachaidh agus coimhead air an dàta a chaidh seachad eadar na h-atharrachaidhean sin:

Nuair a bhios lannan Sber agad. A’ cleachdadh Ab Initio le Hive agus GreenPlum

Tha e comasach cuideachd briogadh air sruth sam bith agus mion-fhiosrachadh tracadh fhaicinn - cia mheud co-shìnte a dh’ obraich an cruth-atharrachadh, cia mheud loidhne is bytes a chaidh a luchdachadh a-steach dè an co-shìnte:

Nuair a bhios lannan Sber agad. A’ cleachdadh Ab Initio le Hive agus GreenPlum

Tha e comasach coileanadh a’ ghraf a roinn ann an ìrean agus comharrachadh gu feumar cuid de chruth-atharrachaidhean a dhèanamh an toiseach (anns an ìre neoni), an ath fheadhainn sa chiad ìre, an ath fheadhainn san dàrna ìre, msaa.

Airson gach cruth-atharrachadh, faodaidh tu an cruth ris an canar a thaghadh (far am bi e air a chur gu bàs): gun co-shìnte no ann an snàithleanan co-shìnte, faodar an àireamh dhiubh a shònrachadh. Aig an aon àm, faodar faidhlichean sealach a chruthaicheas Ab Initio nuair a bhios cruth-atharrachaidhean a’ ruith a chuir an dà chuid ann an siostam faidhle an fhrithealaiche agus ann an HDFS.

Anns gach cruth-atharrachadh, stèidhichte air an teamplaid bunaiteach, faodaidh tu do sgriobt fhèin a chruthachadh ann am PDL, a tha car coltach ri slige.

Le PDL faodaidh tu gnìomhachd cruth-atharrachaidhean a leudachadh agus, gu sònraichte, faodaidh tu gu dinamach (aig àm ruith) mìrean còd neo-riaghailteach a ghineadh a rèir paramadairean ùine ruith.

Tha amalachadh adhartach aig Ab Initio cuideachd leis an OS tro shlige. Gu sònraichte, bidh Sberbank a’ cleachdadh linux ksh. Faodaidh tu caochladairean iomlaid leis an t-slige agus an cleachdadh mar pharaimearan grafa. Faodaidh tu fios a chuir gu bàs grafaichean Ab Initio bhon t-slige agus Ab Initio a rianachd.

A bharrachd air Ab Initio GDE, tha mòran thoraidhean eile air an toirt a-steach don lìbhrigeadh. Tha an siostam Co-obrachaidh aige fhèin ann le tagradh ris an canar siostam obrachaidh. Tha Smachd> Ionad ann far an urrainn dhut sruthan luchdachadh sìos a chlàradh agus a sgrùdadh. Tha toraidhean ann airson leasachadh a dhèanamh aig ìre nas prìomhadaiche na tha Ab Initio GDE a’ ceadachadh.

Tuairisgeul air frèam MDW agus obair air a ghnàthachadh airson GreenPlum

Còmhla ris na toraidhean aige, bidh an neach-reic a’ toirt seachad toradh MDW (Metadata Driven Warehouse), a tha na rèitiche graf a chaidh a dhealbhadh gus cuideachadh le gnìomhan àbhaisteach ann a bhith a’ tional stòran dàta no seilearan dàta.

Tha parsairean meata-dàta gnàthaichte (pròiseict sònraichte) ann agus gineadairean còd deiseil a-mach às a’ bhogsa.

Nuair a bhios lannan Sber agad. A’ cleachdadh Ab Initio le Hive agus GreenPlum
Mar chur-a-steach, gheibh MDW modail dàta, faidhle rèiteachaidh airson ceangal ri stòr-dàta (Oracle, Teradata no Hive) agus cuid de shuidheachaidhean eile a stèidheachadh. Bidh am pàirt a tha sònraichte don phròiseact, mar eisimpleir, a’ cleachdadh a’ mhodail gu stòr-dàta. Bidh am pàirt taobh a-muigh a’ bhogsa den toradh a’ gineadh grafaichean agus faidhlichean rèiteachaidh dhaibh le bhith a’ luchdachadh dàta gu clàran modail. Anns a 'chùis seo, tha grafaichean (agus psets) air an cruthachadh airson grunn dhòighean tòiseachaidh agus obair mean air mhean air ùrachadh aonadan.

Ann an cùisean Hive agus RDBMS, thèid diofar ghrafaichean a chruthachadh airson tòiseachadh agus ùrachadh dàta mean air mhean.

A thaobh Hive, tha an dàta delta a tha a’ tighinn a-steach ceangailte tro Ab Initio Thig còmhla ris an dàta a bha sa chlàr ron ùrachadh. Bidh luchdan dàta ann an MDW (an dà chuid ann an Hive agus RDBMS) chan ann a-mhàin a’ cuir a-steach dàta ùr bhon delta, ach cuideachd a’ dùnadh amannan buntainneachd an dàta a fhuair na prìomh iuchraichean aca an delta. A bharrachd air an sin, feumaidh tu am pàirt neo-atharraichte den dàta ath-sgrìobhadh. Ach feumar seo a dhèanamh leis nach eil gnìomhachd cuir às no ùrachadh aig Hive.

Nuair a bhios lannan Sber agad. A’ cleachdadh Ab Initio le Hive agus GreenPlum

A thaobh RDBMS, tha grafaichean airson ùrachadh dàta mean air mhean a’ coimhead nas fheàrr, leis gu bheil fìor chomasan ùrachadh aig RDBMS.

Nuair a bhios lannan Sber agad. A’ cleachdadh Ab Initio le Hive agus GreenPlum

Tha an delta a gheibhear air a luchdachadh a-steach do chlàr eadar-mheadhanach san stòr-dàta. Às deidh seo, tha an delta ceangailte ris an dàta a bha sa chlàr ron ùrachadh. Agus tha seo air a dhèanamh le bhith a’ cleachdadh SQL a’ cleachdadh ceist SQL a chaidh a chruthachadh. An ath rud, a’ cleachdadh na h-òrdughan SQL sguab às + cuir a-steach, tha dàta ùr bhon delta air a chuir a-steach don chlàr targaid agus tha amannan buntainneachd an dàta aig a bheil na prìomh iuchraichean a fhuair an delta dùinte.
Chan eil feum air dàta gun atharrachadh ath-sgrìobhadh.

Mar sin thàinig sinn chun cho-dhùnadh, a thaobh Hive, gum feum MDW a dhol gus an clàr gu lèir ath-sgrìobhadh leis nach eil gnìomh ùrachaidh aig Hive. Agus chan eil dad nas fheàrr na bhith ag ath-sgrìobhadh an dàta gu tur nuair a chaidh ùrachadh a chruthachadh. A thaobh RDBMS, air an làimh eile, bha e riatanach do luchd-cruthachaidh an toraidh earbsa a bhith ann an ceangal agus ùrachadh chlàran gu cleachdadh SQL.

Airson pròiseact aig Sberbank, chruthaich sinn buileachadh ùr, ath-chleachdadh de luchdan stòr-dàta airson GreenPlum. Chaidh seo a dhèanamh stèidhichte air an dreach a bhios MDW a’ gineadh airson Teradata. B’ e Teradata, agus chan e Oracle, a thàinig as fhaisge agus a b’ fheàrr airson seo, oir... Tha e cuideachd na shiostam MPP. Thionndaidh na dòighean obrach, a bharrachd air co-chòrdadh, Teradata agus GreenPlum gu bhith coltach.

Tha eisimpleirean de dh’ eadar-dhealachaidhean deatamach MDW eadar diofar RDBMS mar a leanas. Ann an GreenPlum, eu-coltach ri Teradata, nuair a chruthaicheas tu clàran feumaidh tu clàs a sgrìobhadh

distributed by

Tha Teradata a’ sgrìobhadh:

delete <table> all

, agus ann an GreenPlum bidh iad a’ sgrìobhadh

delete from <table>

Ann an Oracle, airson adhbharan optimization bidh iad a’ sgrìobhadh

delete from t where rowid in (<соединение t с дельтой>)

, agus bidh Teradata agus GreenPlum a’ sgrìobhadh

delete from t where exists (select * from delta where delta.pk=t.pk)

Tha sinn cuideachd a’ toirt fa-near, airson Ab Initio a bhith ag obair le GreenPlum, bha e riatanach an neach-dèiligidh GreenPlum a chuir a-steach air a h-uile nod de bhuidheann Ab Initio. Tha seo air sgàth gun do cheangail sinn ri GreenPlum aig an aon àm bho gach nod sa bhuidheann againn. Agus gus am biodh leughadh bho GreenPlum co-shìnte agus gach snàthainn Ab Initio co-shìnte airson a chuibhreann fhèin de dhàta bho GreenPlum a leughadh, bha againn ri togail a chuir Ab Initio a thuigsinn anns an roinn “far a bheil” de cheistean SQL.

where ABLOCAL()

agus dearbhaich luach an togail seo le bhith a’ sònrachadh an leughadh paramadair bhon stòr-dàta cruth-atharrachaidh

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

, a tha a 'tighinn còmhla ri rudeigin mar

mod(sk,10)=3

, i.e. feumaidh tu GreenPlum a bhrosnachadh le criathrag soilleir airson gach sgaradh. Airson stòran-dàta eile (Teradata, Oracle), faodaidh Ab Initio an co-shìnteadh seo a dhèanamh gu fèin-ghluasadach.

Coimeas coileanaidh Ab Initio eadar Hive agus GreenPlum

Rinn Sberbank deuchainn gus coimeas a dhèanamh eadar coileanadh ghrafaichean a ghineadh le MDW a thaobh Hive agus a thaobh GreenPlum. Mar phàirt den deuchainn, ann an cùis Hive bha 5 nodan air an aon bhuidheann ri Ab Initio, agus a thaobh GreenPlum bha 4 nodan air buidheann fa leth. An fheadhainn sin. Bha beagan buannachd bathar-cruaidh aig Hive thairis air GreenPlum.

Bheachdaich sinn air dà phaidhir ghrafaichean a’ coileanadh an aon ghnìomh airson dàta ùrachadh ann an Hive agus GreenPlum. Aig an aon àm, chaidh na grafaichean a chruthaich an neach-rèiteachaidh MDW a chuir air bhog:

  • luchd tùsail + luchd mean air mhean de dhàta air a chruthachadh air thuaiream gu clàr Hive
  • luchd tùsail + luchd mean air mhean de dhàta air a chruthachadh air thuaiream a-steach don aon chlàr GreenPlum

Anns gach cùis (Hive agus GreenPlum) ruith iad suas gu 10 snàithleanan co-shìnte air an aon bhuidheann Ab Initio. Shàbhail Ab Initio dàta eadar-mheadhanach airson àireamhachadh ann an HDFS (a thaobh Ab Initio, chaidh cruth MFS a’ cleachdadh HDFS a chleachdadh). Bha aon loidhne de dhàta air a chruthachadh air thuaiream a’ gabhail a-steach 200 byte anns gach cùis.

Bha an toradh mar seo:

bothan:

A 'chiad luchdachadh ann an Hive

Sreathan air an cur a-steach
6 000 000
60 000 000
600 000 000

Ùine tòiseachaidh
luchdachadh sìos ann an diogan
41
203
1 601

Meudachadh air luchdachadh ann an Hive

An àireamh de shreathan rim faighinn a-steach
clàr targaid aig toiseach an deuchainn
6 000 000
60 000 000
600 000 000

An àireamh de loidhnichean delta a chaidh a chuir a-steach
clàr targaid rè an deuchainn
6 000 000
6 000 000
6 000 000

Fad meudachaidh
luchdachadh sìos ann an diogan
88
299
2 541

GreenPlum:

A’ chiad luchdachadh ann an GreenPlum

Sreathan air an cur a-steach
6 000 000
60 000 000
600 000 000

Ùine tòiseachaidh
luchdachadh sìos ann an diogan
72
360
3 631

Meudachadh air luchdachadh ann an GreenPlum

An àireamh de shreathan rim faighinn a-steach
clàr targaid aig toiseach an deuchainn
6 000 000
60 000 000
600 000 000

An àireamh de loidhnichean delta a chaidh a chuir a-steach
clàr targaid rè an deuchainn
6 000 000
6 000 000
6 000 000

Fad meudachaidh
luchdachadh sìos ann an diogan
159
199
321

Tha sinn a’ faicinn gu bheil astar a’ chiad luchdachadh ann an Hive agus GreenPlum gu sreathach an urra ris na tha de dhàta ann agus, airson adhbharan bathar-cruaidh nas fheàrr, tha e beagan nas luaithe airson Hive na tha e airson GreenPlum.

Bidh luchdachadh mean air mhean ann an Hive cuideachd gu sreathach an urra ris na tha de dhàta luchdaichte roimhe a tha ri fhaighinn sa chlàr targaid agus a’ dol air adhart gu math slaodach mar a bhios an tomhas-lìonaidh a’ fàs. Tha seo air adhbhrachadh leis an fheum air an clàr targaid ath-sgrìobhadh gu tur. Tha seo a’ ciallachadh nach e deagh chleachdadh a th’ ann an Hive airson atharrachaidhean beaga air bùird mòra.

Tha luchdachadh mean air mhean ann an GreenPlum gu lag an urra ris na tha de dhàta luchdaichte roimhe a tha ri fhaighinn sa chlàr targaid agus a’ dol air adhart gu math luath. Thachair seo le taing do SQL Joins agus ailtireachd GreenPlum, a leigeas leis an obair sguabaidh às.

Mar sin, bidh GreenPlum a’ cur ris an delta a’ cleachdadh an dòigh sguab às + cuir a-steach, ach chan eil gnìomhachd cuir às no ùrachadh aig Hive, agus mar sin thàinig air an raon dàta gu lèir ath-sgrìobhadh gu tur rè ùrachadh mean air mhean. Tha an coimeas eadar na ceallan a tha air an comharrachadh ann an clò trom nas nochdte, leis gu bheil e a’ freagairt ris an roghainn as cumanta airson luchdachadh sìos dian-ghoireasan a chleachdadh. Chì sinn gun do rinn GreenPlum a’ chùis air Hive san deuchainn seo 8 tursan.

Ag obair Ab Initio le GreenPlum ann am modh Near Real Time

Anns an deuchainn seo, nì sinn deuchainn air comas Ab Initio an clàr GreenPlum ùrachadh le pìosan dàta air an cruthachadh air thuaiream faisg air fìor àm. Beachdaichidh sinn air clàr GreenPlum dev42_1_db_usl.TESTING_SUBJ_org_finval, leis am bi sinn ag obair.

Cleachdaidh sinn trì grafaichean Ab Initio airson obrachadh leis:

1) Graf Create_test_data.mp - a’ cruthachadh faidhlichean dàta ann an HDFS le 10 sreathan ann an 6 snàithleanan co-shìnte. Tha an dàta air thuaiream, tha an structar aige air a chuir air dòigh airson a chuir a-steach don bhòrd againn

Nuair a bhios lannan Sber agad. A’ cleachdadh Ab Initio le Hive agus GreenPlum

Nuair a bhios lannan Sber agad. A’ cleachdadh Ab Initio le Hive agus GreenPlum

2) Graf mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset - graf air a chruthachadh le MDW le bhith a’ tòiseachadh dàta a chuir a-steach don chlàr againn ann an 10 snàithleanan co-shìnte (tha dàta deuchainn air a chruthachadh le graf (1) air a chleachdadh)

Nuair a bhios lannan Sber agad. A’ cleachdadh Ab Initio le Hive agus GreenPlum

3) Graf mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset - graf air a chruthachadh le MDW airson ùrachadh mean air mhean air a’ chlàr againn ann an 10 snàithleanan co-shìnte a’ cleachdadh cuibhreann de dhàta a fhuaireadh às ùr (delta) air a chruthachadh le graf (1)

Nuair a bhios lannan Sber agad. A’ cleachdadh Ab Initio le Hive agus GreenPlum

Feuch an ruith sinn an sgriobt gu h-ìosal ann am modh NRT:

  • cruthaich 6 loidhne deuchainn
  • dèan eallach tùsail cuir a-steach 6 sreath deuchainn a-steach do bhòrd falamh
  • Luchdaich a-nuas 5 tursan a-rithist
    • cruthaich 6 loidhne deuchainn
    • cuir a-steach mean air mhean de 6 sreath deuchainn a-steach don chlàr (sa chùis seo, tha an ùine crìochnachaidh valid_to_ts air a shuidheachadh don t-seann dàta agus tha dàta nas ùire leis an aon phrìomh iuchair air a chuir a-steach)

Bidh an suidheachadh seo ag atharrais air modh fìor obrachaidh siostam gnìomhachais sònraichte - tha cuibhreann meadhanach mòr de dhàta ùr a ’nochdadh ann an àm fìor agus ga dhòrtadh sa bhad a-steach do GreenPlum.

A-nis leig dhuinn sùil a thoirt air log an sgriobt:

Tòisich Create_test_data.input.pset aig 2020-06-04 11:49:11
Crìochnaich Create_test_data.input.pset aig 2020-06-04 11:49:37
Tòisich mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset aig 2020-06-04 11:49:37
Crìochnaich mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset aig 2020-06-04 11:50:42
Tòisich Create_test_data.input.pset aig 2020-06-04 11:50:42
Crìochnaich Create_test_data.input.pset aig 2020-06-04 11:51:06
Tòisich mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset aig 2020-06-04 11:51:06
Crìochnaich mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset aig 2020-06-04 11:53:41
Tòisich Create_test_data.input.pset aig 2020-06-04 11:53:41
Crìochnaich Create_test_data.input.pset aig 2020-06-04 11:54:04
Tòisich mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset aig 2020-06-04 11:54:04
Crìochnaich mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset aig 2020-06-04 11:56:51
Tòisich Create_test_data.input.pset aig 2020-06-04 11:56:51
Crìochnaich Create_test_data.input.pset aig 2020-06-04 11:57:14
Tòisich mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset aig 2020-06-04 11:57:14
Crìochnaich mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset aig 2020-06-04 11:59:55
Tòisich Create_test_data.input.pset aig 2020-06-04 11:59:55
Crìochnaich Create_test_data.input.pset aig 2020-06-04 12:00:23
Tòisich mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset aig 2020-06-04 12:00:23
Crìochnaich mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset aig 2020-06-04 12:03:23
Tòisich Create_test_data.input.pset aig 2020-06-04 12:03:23
Crìochnaich Create_test_data.input.pset aig 2020-06-04 12:03:49
Tòisich mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset aig 2020-06-04 12:03:49
Crìochnaich mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset aig 2020-06-04 12:06:46

Tha e a 'tionndadh a-mach an dealbh seo:

Graf
Tòisich ùine
Crìochnaich ùine
Length

Create_test_data.input.pset
04.06.2020: 11: 49: 11
04.06.2020: 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 49: 37
04.06.2020: 11: 50: 42
00:01:05

Create_test_data.input.pset
04.06.2020: 11: 50: 42
04.06.2020: 11: 51: 06
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 51: 06
04.06.2020: 11: 53: 41
00:02:35

Create_test_data.input.pset
04.06.2020: 11: 53: 41
04.06.2020: 11: 54: 04
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 54: 04
04.06.2020: 11: 56: 51
00:02:47

Create_test_data.input.pset
04.06.2020: 11: 56: 51
04.06.2020: 11: 57: 14
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 11: 57: 14
04.06.2020: 11: 59: 55
00:02:41

Create_test_data.input.pset
04.06.2020: 11: 59: 55
04.06.2020: 12: 00: 23
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 12: 00: 23
04.06.2020: 12: 03: 23
00:03:00

Create_test_data.input.pset
04.06.2020: 12: 03: 23
04.06.2020: 12: 03: 49
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020: 12: 03: 49
04.06.2020: 12: 06: 46
00:02:57

Chì sinn gu bheil 6 loidhnichean meudachaidh air an giullachd ann an 000 mionaidean, a tha gu math luath.
Thàinig an dàta sa chlàr targaid gu bhith air a sgaoileadh mar a leanas:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Nuair a bhios lannan Sber agad. A’ cleachdadh Ab Initio le Hive agus GreenPlum
Chì thu conaltradh an dàta a chaidh a chuir a-steach gu na h-amannan a chaidh na grafaichean a chuir air bhog.
Tha seo a’ ciallachadh gun urrainn dhut luchdachadh mean air mhean de dhàta a-steach do GreenPlum ann an Ab Initio gu math tric agus coimhead air astar àrd airson an dàta seo a chuir a-steach do GreenPlum. Gu dearbh, cha bhith e comasach a chuir air bhog aon uair san diog, leis gu feum Ab Initio, mar inneal ETL sam bith, ùine airson “tòiseachadh” nuair a thèid a chuir air bhog.

co-dhùnadh

Tha Ab Initio an-dràsta air a chleachdadh aig Sberbank gus Sreath Dàta Semantic Aonaichte (ESS) a thogail. Tha am pròiseact seo a’ toirt a-steach togail dreach aonaichte de staid diofar bhuidhnean gnìomhachais bancaidh. Tha fiosrachadh a’ tighinn bho dhiofar thobraichean, agus tha na mac-samhail dhiubh gan ullachadh air Hadoop. Stèidhichte air feumalachdan gnìomhachais, tha modail dàta air ullachadh agus tha cruth-atharrachadh dàta air a mhìneachadh. Bidh Ab Initio a’ luchdachadh fiosrachadh a-steach don ESN agus tha an dàta a chaidh a luchdachadh sìos chan ann a-mhàin inntinneach don ghnìomhachas ann fhèin, ach tha e cuideachd na thùs airson margaidhean dàta a thogail. Aig an aon àm, tha gnìomhachd an toraidh a 'toirt cothrom dhut diofar shiostaman a chleachdadh mar ghlacadair (Hive, Greenplum, Teradata, Oracle), a tha ga dhèanamh comasach dàta ullachadh gu furasta airson gnìomhachas anns na diofar chruthan a dh' fheumas e.

Tha comasan Ab Initio farsaing; mar eisimpleir, tha am frèam MDW a tha air a ghabhail a-steach ga dhèanamh comasach dàta eachdraidheil teicnigeach agus gnìomhachais a thogail a-mach às a’ bhogsa. Do luchd-leasachaidh, tha Ab Initio ga dhèanamh comasach gun a bhith ag ath-thòiseachadh a ’chuibhle, ach a bhith a’ cleachdadh mòran de phàirtean gnìomh a tha ann mar-thà, a tha gu ìre mhòr nan leabharlannan a dh ’fheumar nuair a bhios iad ag obair le dàta.

Tha an t-ùghdar na eòlaiche ann an coimhearsnachd proifeasanta Sberbank SberProfi DWH/BigData. Tha uallach air coimhearsnachd proifeasanta SberProfi DWH / BigData airson comasan a leasachadh ann an raointean leithid eag-shiostam Hadoop, Teradata, Oracle DB, GreenPlum, a bharrachd air innealan BI Qlik, SAP BO, Tableau, msaa.

Source: www.habr.com

Cuir beachd ann