Вақте ки шумо тарозуҳои Sber доред. Истифодаи Ab Initio бо Hive ва GreenPlum

Чанде пеш, мо бо саволи интихоби воситаи ETL барои кор бо Big Data дучор шудем. Ҳалли қаблан истифодашудаи Informatica BDM аз сабаби маҳдуд будани функсия ба мо мувофиқ набуд. Истифодаи он ба чаҳорчӯбаи оғоз кардани фармонҳои шарора-фиристодан кам карда шудааст. Дар бозор аналогҳои зиёде вуҷуд надоштанд, ки аслан қодиранд бо ҳаҷми маълумоте, ки мо ҳар рӯз сарукор дорем, кор кунанд. Дар охир мо Ab Initio-ро интихоб кардем. Ҳангоми намоишҳои озмоишӣ маҳсулот суръати хеле баланди коркарди маълумотро нишон дод. Дар бораи Ab Initio ба забони русӣ тақрибан маълумоте нест, аз ин рӯ мо тасмим гирифтем, ки дар бораи таҷрибаи худ дар Habré сӯҳбат кунем.

Ab Initio дорои бисёр дигаргуниҳои классикӣ ва ғайриоддӣ мебошад, ки рамзи онҳоро метавон бо истифода аз забони PDL худ васеъ кард. Барои тиҷорати хурд, чунин асбоби пурқувват эҳтимолан аз ҳад зиёд хоҳад буд ва аксари қобилиятҳои он метавонанд гарон ва истифоданашуда бошанд. Аммо агар миқёси шумо ба миқёси Сберов наздик бошад, пас Ab Initio метавонад барои шумо ҷолиб бошад.

Он ба тиҷорат барои ҷамъ овардани дониш дар саросари ҷаҳон ва рушди экосистема ва ба таҳиягар барои такмил додани малакаҳои худ дар ETL, такмил додани дониши худ дар қабат, имкони азхуд кардани забони PDL фароҳам меорад, тасвири визуалии равандҳои боркунӣ медиҳад ва рушдро содда мекунад. аз сабаби фаровонии ҷузъҳои функсионалӣ.

Дар ин мақола ман дар бораи имкониятҳои Ab Initio сӯҳбат хоҳам кард ва хусусиятҳои муқоисавии кори онро бо Hive ва GreenPlum пешниҳод мекунам.

  • Тавсифи чаҳорчӯбаи MDW ва кор оид ба мутобиқсозии он барои GreenPlum
  • Муқоисаи иҷрои Ab Initio байни Hive ва GreenPlum
  • Кор Ab Initio бо GreenPlum дар реҷаи наздики вақти воқеӣ


Функсияи ин маҳсулот хеле васеъ аст ва барои омӯзиш вақти зиёдро талаб мекунад. Бо вуҷуди ин, бо малакаҳои дурусти корӣ ва танзимоти дурусти кор, натиҷаҳои коркарди маълумот хеле таъсирбахшанд. Истифодаи Ab Initio барои таҳиягар метавонад ба ӯ таҷрибаи ҷолиб диҳад. Ин як барраси нав дар бораи таҳияи ETL, гибриди байни муҳити визуалӣ ва таҳияи зеркашиҳо бо забони ба скрипт монанд аст.

Соҳибкорон экосистемаҳои худро инкишоф медиҳанд ва ин асбоб беш аз ҳарвақта муфид аст. Бо Ab Initio, шумо метавонед дар бораи тиҷорати кунунии худ дониш ҷамъ кунед ва ин донишро барои васеъ кардани тиҷорати кӯҳна ва кушодани нав истифода баред. Алтернативаҳои Ab Initio дорои муҳитҳои рушди визуалии Informatica BDM ва муҳитҳои рушди ғайривизуалии Apache Spark мебошанд.

Тавсифи Ab Initio

Ab Initio, мисли дигар асбобҳои ETL, маҷмӯи маҳсулот аст.

Вақте ки шумо тарозуҳои Sber доред. Истифодаи Ab Initio бо Hive ва GreenPlum

Ab Initio GDE (Муҳити рушди графикӣ) як муҳити таҳиякунанда мебошад, ки дар он ӯ тағироти додаҳоро танзим мекунад ва онҳоро бо ҷараёнҳои додаҳо дар шакли тирчаҳо мепайвандад. Дар ин ҳолат чунин маҷмӯи тағирот график номида мешавад:

Вақте ки шумо тарозуҳои Sber доред. Истифодаи Ab Initio бо Hive ва GreenPlum

Пайвастҳои вуруд ва баромади ҷузъҳои функсионалӣ портҳо мебошанд ва дорои майдонҳое мебошанд, ки дар доираи трансформатсияҳо ҳисоб карда шудаанд. Якчанд графикҳое, ки тавассути ҷараёнҳо дар шакли тирчаҳо аз рӯи тартиби иҷрои онҳо пайвастанд, нақша номида мешавад.

Якчанд сад ҷузъҳои функсионалӣ мавҷуданд, ки ин хеле зиёд аст. Бисьёрии онхо мах-суси баландихтисос мебошанд. Имкониятҳои тағироти классикӣ дар Ab Initio нисбат ба дигар абзорҳои ETL васеътаранд. Масалан, Join якчанд баромад дорад. Илова ба натиҷаи пайваст кардани маҷмӯаҳои додаҳо, шумо метавонед сабтҳои баромади маҷмӯи додаҳои вурудиро, ки калидҳои онҳо пайваст карда нашуданд, гиред. Шумо инчунин метавонед раддҳо, хатогиҳо ва сабти амалиёти трансформатсияро гиред, ки онҳоро дар як сутун ҳамчун файли матнӣ хондан ва бо дигар тағиротҳо коркард кардан мумкин аст:

Вақте ки шумо тарозуҳои Sber доред. Истифодаи Ab Initio бо Hive ва GreenPlum

Ё, масалан, шумо метавонед қабулкунаки маълумотро дар шакли ҷадвал сохта, маълумотро аз он дар ҳамон сутун хонед.

Дигаргуниҳои аслӣ вуҷуд доранд. Масалан, табдилдиҳии скан дорои функсияҳои шабеҳ ба вазифаҳои таҳлилӣ мебошад. Тағйиротҳо бо номҳои худфаъолкунанда мавҷуданд: Эҷоди маълумот, Хондан Excel, Нормализатсия, Гузариш дар дохили гурӯҳҳо, Иҷро кардани барнома, Иҷро кардани SQL, ҳамроҳ бо DB ва ғайра. Графикаҳо метавонанд параметрҳои вақти иҷроро истифода баранд, аз ҷумла имкони интиқоли параметрҳо аз ё ба системаи амалиётӣ. Файлҳое, ки маҷмӯи тайёри параметрҳо ба график интиқол дода шудаанд, маҷмӯи параметрҳо (псетҳо) номида мешаванд.

Тавре ки интизор мерафт, Ab Initio GDE дорои анбори худро бо номи EME (Enterprise Meta Environment) дорад. Таҳиягарон имкон доранд, ки бо версияҳои маҳаллии код кор кунанд ва коркарди онҳоро дар анбори марказӣ тафтиш кунанд.

Дар давоми иҷро ё пас аз иҷрои график мумкин аст, ки ба ягон ҷараёне, ки трансформатсияро мепайвандад, клик кунед ва ба маълумоте, ки байни ин тағиротҳо гузаштааст, бубинед:

Вақте ки шумо тарозуҳои Sber доред. Истифодаи Ab Initio бо Hive ва GreenPlum

Инчунин мумкин аст, ки дилхоҳ ҷараёнро клик кунед ва тафсилоти пайгирӣро бубинед - тағирот дар чанд параллел кор кардааст, чанд сатр ва байт ба кадоме аз параллелҳо бор карда шудааст:

Вақте ки шумо тарозуҳои Sber доред. Истифодаи Ab Initio бо Hive ва GreenPlum

Иҷрои графикро ба марҳилаҳо тақсим кардан мумкин аст ва қайд кардан мумкин аст, ки баъзе тағиротҳоро аввал (дар марҳилаи сифр), дигарҳоро дар марҳилаи якум, дигарҳоро дар марҳилаи дуюм ва ғайра иҷро кардан лозим аст.

Барои ҳар як табдил, шумо метавонед тарҳбандии номдоштаро интихоб кунед (дар он ҷо он иҷро карда мешавад): бе параллелҳо ё риштаҳои параллелӣ, ки шумораи онҳоро метавон муайян кард. Ҳамзамон, файлҳои муваққатие, ки Ab Initio ҳангоми иҷро кардани тағиротҳо эҷод мекунад, метавонанд ҳам дар системаи файлии сервер ва ҳам дар HDFS ҷойгир карда шаванд.

Дар ҳар як трансформатсия, дар асоси қолаби пешфарз, шумо метавонед скрипти худро дар PDL эҷод кунед, ки он каме ба қабат монанд аст.

Бо PDL, шумо метавонед функсияҳои тағиротро васеъ кунед ва махсусан, шумо метавонед ба таври динамикӣ (дар вақти корӣ) вобаста ба параметрҳои вақти корӣ порчаҳои коди худсарона тавлид кунед.

Ab Initio инчунин бо OS тавассути shell ҳамгироии хуб таҳияшуда дорад. Махсусан, Сбербанк linux ksh -ро истифода мебарад. Шумо метавонед тағирёбандаҳоро бо қабат иваз кунед ва онҳоро ҳамчун параметрҳои графикӣ истифода баред. Шумо метавонед иҷрои графикҳои Ab Initio-ро аз қабил даъват кунед ва Ab Initio -ро идора кунед.

Илова ба Ab Initio GDE, бисёр маҳсулоти дигар ба таҳвил дохил карда шудаанд. Системаи Co>Operation-и худ вуҷуд дорад, ки даъвои онро системаи оператсионӣ меноманд. Дар он ҷо шумо метавонед ҷараёнҳои зеркаширо ба нақша гиред ва назорат кунед. Маҳсулоте ҳастанд, ки барои таҳия дар сатҳи ибтидоӣ бештар аз он ки Ab Initio GDE иҷозат медиҳад.

Тавсифи чаҳорчӯбаи MDW ва кор оид ба мутобиқсозии он барои GreenPlum

Дар баробари маҳсулоти худ, фурӯшанда маҳсулоти MDW (Metadata Driven Warehouse) -ро таъмин мекунад, ки конфигуратори графикӣ мебошад, ки барои кӯмак дар иҷрои вазифаҳои маъмулии пур кардани анборҳои додаҳо ё анбори додаҳо пешбинӣ шудааст.

Он дорои таҳлилгари метамаълумоти фармоишӣ (бо лоиҳа) ва генераторҳои коди омодаи берун аз қуттӣ мебошад.

Вақте ки шумо тарозуҳои Sber доред. Истифодаи Ab Initio бо Hive ва GreenPlum
Ҳамчун вуруд, MDW модели маълумот, файли конфигуратсияро барои насб кардани пайвастшавӣ ба пойгоҳи додаҳо (Oracle, Teradata ё Hive) ва баъзе танзимоти дигар мегирад. Қисми мушаххаси лоиҳа, масалан, моделро дар пойгоҳи додаҳо ҷойгир мекунад. Қисми берун аз қуттии маҳсулот графикҳо ва файлҳои конфигуратсияро барои онҳо тавассути бор кардани маълумот ба ҷадвалҳои намунавӣ тавлид мекунад. Дар ин ҳолат, графикҳо (ва пссетҳо) барои якчанд шеваҳои оғозёбӣ ва корҳои афзоянда оид ба навсозии объектҳо сохта мешаванд.

Дар ҳолатҳои Hive ва RDBMS, графикҳои гуногун барои оғозёбӣ ва навсозии афзояндаи маълумот тавлид мешаванд.

Дар ҳолати Hive, маълумоти делта воридшаванда тавассути Ab Initio Join бо маълумоте, ки пеш аз навсозӣ дар ҷадвал буд, пайваст карда мешавад. Боркунакҳои маълумот дар MDW (ҳам дар Hive ва ҳам дар RDBMS) на танҳо маълумоти навро аз дельта дохил мекунанд, балки давраҳои мувофиқати додаҳоеро, ки калидҳои аввалияашон дельтаро гирифтаанд, мепӯшанд. Илова бар ин, шумо бояд қисми тағирнаёфтаи маълумотро аз нав нависед. Аммо ин бояд анҷом дода шавад, зеро Hive амалиёти нест кардан ё навсозӣ надорад.

Вақте ки шумо тарозуҳои Sber доред. Истифодаи Ab Initio бо Hive ва GreenPlum

Дар мавриди RDBMS, графикҳо барои навсозии афзояндаи додаҳо оптималтаранд, зеро RDBMS дорои қобилиятҳои воқеии навсозӣ мебошанд.

Вақте ки шумо тарозуҳои Sber доред. Истифодаи Ab Initio бо Hive ва GreenPlum

Делтаи қабулшуда ба ҷадвали мобайнӣ дар пойгоҳи додаҳо бор карда мешавад. Пас аз ин, дельта ба маълумоте пайваст карда мешавад, ки пеш аз навсозӣ дар ҷадвал буд. Ва ин бо истифода аз SQL бо истифода аз дархости тавлидшудаи SQL анҷом дода мешавад. Баъдан, бо истифода аз фармонҳои SQL delete+insert, маълумоти нав аз дельта ба ҷадвали мақсаднок ворид карда мешавад ва давраҳои мувофиқати маълумоте, ки калидҳои ибтидоии онҳо дельтаро гирифтаанд, баста мешаванд.
Барои аз нав навиштани маълумоти бетағйир лозим нест.

Ҳамин тавр, мо ба хулосае омадем, ки дар мавриди Hive, MDW бояд тамоми ҷадвалро аз нав сабт кунад, зеро Hive функсияи навсозӣ надорад. Ва чизе беҳтар аз пурра аз нав навиштани маълумот ҳангоми навсозӣ ихтироъ шудааст. Дар мавриди RDBMS, баръакс, созандагони маҳсулот зарур донистанд, ки пайвастшавӣ ва навсозии ҷадвалҳоро ба истифодаи SQL вогузор кунанд.

Барои лоиҳа дар Сбербанк, мо татбиқи нав ва такроран истифодашавандаи боркунаки махзани маълумотро барои GreenPlum эҷод кардем. Ин дар асоси версияе анҷом дода шуд, ки MDW барои Teradata тавлид мекунад. Ин Терадата буд, на Oracle, ки барои ин наздиктарин ва беҳтарин буд, зеро ... инчунин системаи MPP мебошад. Усулҳои кор, инчунин синтаксиси Teradata ва GreenPlum шабеҳ буданд.

Намунаҳои фарқиятҳои муҳими MDW байни RDBMS-ҳои гуногун инҳоянд. Дар GreenPlum, бар хилофи Teradata, ҳангоми сохтани ҷадвалҳо шумо бояд банд нависед

distributed by

Терадата менависад:

delete <table> all

, ва дар GreenPlum онҳо менависанд

delete from <table>

Дар Oracle, бо мақсади оптимизатсия онҳо менависанд

delete from t where rowid in (<соединение t с дельтой>)

, ва Teradata ва GreenPlum менависанд

delete from t where exists (select * from delta where delta.pk=t.pk)

Мо инчунин қайд мекунем, ки барои кор кардани Ab Initio бо GreenPlum лозим буд, ки мизоҷи GreenPlum дар ҳама гиреҳҳои кластери Ab Initio насб карда шавад. Ин аз он сабаб аст, ки мо ба GreenPlum ҳамзамон аз ҳама гиреҳҳои кластери худ пайвастем. Ва барои он ки хондан аз GreenPlum мувозӣ бошад ва ҳар як риштаи мувозии Ab Initio барои хондани қисми худ аз маълумот аз GreenPlum, мо бояд сохтмонеро, ки Ab Initio мефаҳмад, дар бахши "куҷо" -и дархостҳои SQL ҷойгир мекардем.

where ABLOCAL()

ва арзиши ин конструксияро бо нишон додани хониши параметр аз базаи табдилдиҳӣ муайян кунед

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

, ки ба чизе монанди тартиб медиҳад

mod(sk,10)=3

, яъне. шумо бояд ба GreenPlum бо филтри возеҳ барои ҳар як қисм муроҷиат кунед. Барои дигар пойгоҳи додаҳо (Teradata, Oracle), Ab Initio метавонад ин параллелизатсияро ба таври худкор иҷро кунад.

Муқоисаи иҷрои Ab Initio байни Hive ва GreenPlum

Сбербанк озмоишеро барои муқоисаи иҷрои графикҳои аз ҷониби MDW тавлидшуда дар робита бо Hive ва нисбат ба GreenPlum анҷом дод. Дар доираи озмоиш, дар мавриди Hive 5 гиреҳ дар ҳамон кластер бо Ab Initio ва дар мавриди GreenPlum 4 гиреҳ дар кластери алоҳида мавҷуд буданд. Онхое. Hive бартарии сахтафзор нисбат ба GreenPlum дошт.

Мо ду ҷуфт графикҳоро баррасӣ кардем, ки як вазифаи навсозии маълумотро дар Hive ва GreenPlum иҷро мекунанд. Ҳамзамон, графикҳое, ки аз ҷониби конфигуратори MDW тавлид шудаанд, оғоз карда шуданд:

  • сарбории ибтидоӣ + сарбории афзояндаи маълумоти ба таври тасодуфӣ тавлидшуда ба ҷадвали Hive
  • сарбории ибтидоӣ + сарбории афзояндаи маълумоти ба таври тасодуфӣ тавлидшуда ба ҳамон ҷадвали GreenPlum

Дар ҳарду ҳолат (Hive ва GreenPlum) онҳо ба 10 риштаи параллелӣ дар ҳамон кластери Ab Initio боргузорӣ карданд. Ab Initio маълумоти фосилавиро барои ҳисобҳо дар HDFS захира кард (аз нуқтаи назари Ab Initio, тарҳбандии MFS бо истифода аз HDFS истифода шудааст). Як сатри маълумоти ба таври тасодуфӣ тавлидшуда дар ҳарду ҳолат 200 байтро ишғол мекард.

Натиҷа чунин буд:

Занбӯр:

Боркунии аввалия дар Hive

Сатрҳо ворид карда шуданд
6 000 000
60 000 000
600 000 000

Давомнокии ибтидоӣ
дар сонияҳо зеркашӣ карда мешавад
41
203
1 601

Боркунии афзоянда дар Hive

Шумораи сатрҳои дастрас дар
ҷадвали мақсаднок дар оғози таҷриба
6 000 000
60 000 000
600 000 000

Шумораи хатҳои делта ба
ҷадвали мақсаднок дар давоми таҷриба
6 000 000
6 000 000
6 000 000

Давомнокии афзоянда
дар сонияҳо зеркашӣ карда мешавад
88
299
2 541

GreenPlum:

Боркунии аввалия дар GreenPlum

Сатрҳо ворид карда шуданд
6 000 000
60 000 000
600 000 000

Давомнокии ибтидоӣ
дар сонияҳо зеркашӣ карда мешавад
72
360
3 631

Боркунии афзоянда дар GreenPlum

Шумораи сатрҳои дастрас дар
ҷадвали мақсаднок дар оғози таҷриба
6 000 000
60 000 000
600 000 000

Шумораи хатҳои делта ба
ҷадвали мақсаднок дар давоми таҷриба
6 000 000
6 000 000
6 000 000

Давомнокии афзоянда
дар сонияҳо зеркашӣ карда мешавад
159
199
321

Мо мебинем, ки суръати боркунии ибтидоӣ ҳам дар Hive ва ҳам GreenPlum ба таври хаттӣ аз ҳаҷми маълумот вобаста аст ва бо сабаби сахтафзори беҳтар он барои Hive нисбат ба GreenPlum каме тезтар аст.

Боркунии афзоянда дар Hive инчунин ба таври хаттӣ аз ҳаҷми маълумоти қаблан боршуда дар ҷадвали ҳадаф мавҷудбуда вобаста аст ва бо афзоиши ҳаҷм хеле суст давом мекунад. Ин аз зарурати аз нав навиштани ҷадвали мақсаднок ба вуҷуд омадааст. Ин маънои онро дорад, ки татбиқи тағиротҳои хурд ба ҷадвалҳои азим як ҳолати хуби истифода барои Hive нест.

Боркунии афзоянда дар GreenPlum аз ҳаҷми маълумоти қаблан боршуда дар ҷадвали мақсаднок суст вобаста аст ва хеле зуд идома меёбад. Ин ба шарофати SQL Joins ва меъмории GreenPlum ба амал омад, ки имкон медиҳад амалиёти нест карда шавад.

Ҳамин тавр, GreenPlum дельтаро бо истифода аз усули delete+insert илова мекунад, аммо Hive амалиёти нест кардан ё навсозӣ надорад, бинобар ин тамоми массиви маълумот маҷбур шуд, ки ҳангоми навсозии афзоянда пурра аз нав навишта шавад. Муқоисаи ячейкаҳое, ки бо ҳарфҳои ғафс нишон дода шудаанд, хеле равшантар аст, зеро он ба варианти маъмултарини истифодаи зеркашиҳои захиравӣ мувофиқ аст. Мо мебинем, ки GreenPlum Hive-ро дар ин санҷиш 8 маротиба мағлуб кардааст.

Кор Ab Initio бо GreenPlum дар реҷаи наздики вақти воқеӣ

Дар ин таҷриба, мо қобилияти Ab Initio-ро барои навсозӣ кардани ҷадвали GreenPlum бо қисмҳои ба таври тасодуфӣ тавлидшуда дар вақти воқеӣ санҷем. Биёед ҷадвали GreenPlum dev42_1_db_usl.TESTING_SUBJ_org_finval-ро дида бароем, ки мо бо он кор хоҳем кард.

Мо барои кор бо он се графики Ab Initio истифода хоҳем кард:

1) Графикаи Create_test_data.mp - файлҳои маълумотро дар HDFS бо 10 6 000 сатр дар 000 риштаи мувозӣ эҷод мекунад. Маълумот тасодуфӣ аст, сохтори он барои ворид кардан ба ҷадвали мо ташкил карда шудааст

Вақте ки шумо тарозуҳои Sber доред. Истифодаи Ab Initio бо Hive ва GreenPlum

Вақте ки шумо тарозуҳои Sber доред. Истифодаи Ab Initio бо Hive ва GreenPlum

2) Графикаи mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset - Графикаи MDW тавлидшуда тавассути оғоз кардани воридкунии маълумот ба ҷадвали мо дар 10 риштаи параллелӣ (маълумоти санҷиши аз рӯи график (1) тавлидшуда истифода мешавад)

Вақте ки шумо тарозуҳои Sber доред. Истифодаи Ab Initio бо Hive ва GreenPlum

3) Графикаи mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset - графике, ки аз ҷониби MDW барои навсозии афзояндаи ҷадвали мо дар 10 риштаи мувозӣ бо истифода аз як қисми маълумоти нав гирифташуда (delta), ки аз рӯи график (1) тавлид шудааст, тавлид шудааст.

Вақте ки шумо тарозуҳои Sber доред. Истифодаи Ab Initio бо Hive ва GreenPlum

Биёед скрипти зерро дар реҷаи NRT иҷро кунем:

  • тавлиди 6 хатҳои санҷишӣ
  • бори аввалро иҷро кунед, ба ҷадвали холӣ 6 сатри санҷишӣ ворид кунед
  • 5 маротиба зеркашии афзоянда такрор кунед
    • тавлиди 6 хатҳои санҷишӣ
    • воридкунии афзояндаи 6 сатри санҷиширо ба ҷадвал иҷро кунед (дар ин ҳолат, мӯҳлати эътибори valid_to_ts ба маълумоти кӯҳна муқаррар карда мешавад ва маълумоти навтар бо ҳамон калиди ибтидоӣ ворид карда мешавад)

Ин сенария ба режими кори воқеии системаи муайяни тиҷорат тақлид мекунад - қисми хеле зиёди маълумоти нав дар вақти воқеӣ пайдо мешаванд ва фавран ба GreenPlum рехта мешаванд.

Акнун биёед ба журнали скрипт назар андозем:

Create_test_data.input.pset дар 2020-06-04 11:49:11 оғоз кунед
Create_test_data.input.pset-ро дар 2020-06-04 11:49:37 анҷом диҳед
Оғоз mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset дар 2020-06-04 11:49:37
Анҷоми mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset дар 2020-06-04 11:50:42
Create_test_data.input.pset дар 2020-06-04 11:50:42 оғоз кунед
Create_test_data.input.pset-ро дар 2020-06-04 11:51:06 анҷом диҳед
Оғоз mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset дар 2020-06-04 11:51:06
Анҷоми mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset дар 2020-06-04 11:53:41
Create_test_data.input.pset дар 2020-06-04 11:53:41 оғоз кунед
Create_test_data.input.pset-ро дар 2020-06-04 11:54:04 анҷом диҳед
Оғоз mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset дар 2020-06-04 11:54:04
Анҷоми mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset дар 2020-06-04 11:56:51
Create_test_data.input.pset дар 2020-06-04 11:56:51 оғоз кунед
Create_test_data.input.pset-ро дар 2020-06-04 11:57:14 анҷом диҳед
Оғоз mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset дар 2020-06-04 11:57:14
Анҷоми mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset дар 2020-06-04 11:59:55
Create_test_data.input.pset дар 2020-06-04 11:59:55 оғоз кунед
Create_test_data.input.pset-ро дар 2020-06-04 12:00:23 анҷом диҳед
Оғоз mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset дар 2020-06-04 12:00:23
Анҷоми mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset дар 2020-06-04 12:03:23
Create_test_data.input.pset дар 2020-06-04 12:03:23 оғоз кунед
Create_test_data.input.pset-ро дар 2020-06-04 12:03:49 анҷом диҳед
Оғоз mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset дар 2020-06-04 12:03:49
Анҷоми mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset дар 2020-06-04 12:06:46

Ин сурат маълум мешавад:

Графикаи
Вақтро оғоз кунед
Вақти анҷом
дарозӣ

Create_test_data.input.pset
04.06.2020 11: 49: 11
04.06.2020 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 49: 37
04.06.2020 11: 50: 42
00:01:05

Create_test_data.input.pset
04.06.2020 11: 50: 42
04.06.2020 11: 51: 06
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 51: 06
04.06.2020 11: 53: 41
00:02:35

Create_test_data.input.pset
04.06.2020 11: 53: 41
04.06.2020 11: 54: 04
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 54: 04
04.06.2020 11: 56: 51
00:02:47

Create_test_data.input.pset
04.06.2020 11: 56: 51
04.06.2020 11: 57: 14
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 57: 14
04.06.2020 11: 59: 55
00:02:41

Create_test_data.input.pset
04.06.2020 11: 59: 55
04.06.2020 12: 00: 23
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 00: 23
04.06.2020 12: 03: 23
00:03:00

Create_test_data.input.pset
04.06.2020 12: 03: 23
04.06.2020 12: 03: 49
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 03: 49
04.06.2020 12: 06: 46
00:02:57

Мо мебинем, ки 6 хатҳои афзоиш дар 000 дақиқа коркард карда мешаванд, ки ин хеле зуд аст.
Маълумот дар ҷадвали мақсаднок ба таври зерин тақсим карда шуд:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Вақте ки шумо тарозуҳои Sber доред. Истифодаи Ab Initio бо Hive ва GreenPlum
Шумо метавонед мукотибаи маълумоти воридшударо ба вақти ба кор андохтани графикҳо дидан мумкин аст.
Ин маънои онро дорад, ки шумо метавонед боркунии афзояндаи маълумотро ба GreenPlum дар Ab Initio бо басомади хеле баланд иҷро кунед ва суръати баланди ворид кардани ин маълумотро ба GreenPlum мушоҳида кунед. Албатта, як маротиба дар як сония оғоз кардан ғайриимкон аст, зеро Ab Initio, ба монанди ҳама асбоби ETL, ҳангоми оғозёбӣ барои "оғоз кардан" вақт лозим аст.

хулоса

Ҳоло Ab Initio дар Сбербанк барои сохтани қабати ягонаи семантикии маълумот (ESS) истифода мешавад. Лоиҳаи мазкур таҳияи версияи ягонаи ҳолати субъектҳои тиҷоратии бонкиро дар бар мегирад. Маълумот аз сарчашмаҳои гуногун гирифта мешавад, ки нусхаҳои онҳо дар Hadoop омода карда шудаанд. Дар асоси эҳтиёҷоти тиҷорат, модели додаҳо омода карда мешавад ва тағироти додаҳо тавсиф карда мешавад. Ab Initio маълумотро ба ESN бор мекунад ва маълумоти зеркашидашуда на танҳо барои тиҷорат манфиатдор аст, балки ҳамчун манбаи сохтани мартҳои додаҳо хизмат мекунад. Ҳамзамон, функсионалии маҳсулот ба шумо имкон медиҳад, ки системаҳои гуногунро ҳамчун қабулкунанда (Hive, Greenplum, Teradata, Oracle) истифода баред, ки имкон медиҳад, ки маълумотро барои бизнес дар форматҳои мухталифе, ки ба он ниёз доранд, ба осонӣ омода созед.

Имкониятҳои Ab Initio васеъанд; масалан, чаҳорчӯбаи MDW-и дохилшуда имкон медиҳад, ки маълумоти таърихии техникӣ ва тиҷоратиро аз қуттӣ созед. Барои таҳиягарон, Ab Initio имкон медиҳад, ки чархро дубора ихтироъ накунанд, балки бисёр ҷузъҳои функсионалии мавҷударо истифода баранд, ки аслан китобхонаҳои ҳангоми кор бо додаҳо заруранд.

Муаллиф коршиноси ҷомеаи касбии Sberbank SberProfi DWH/BigData мебошад. Ҷамъияти касбии SberProfi DWH/BigData барои рушди салоҳиятҳо дар чунин соҳаҳо, аз қабили экосистемаи Hadoop, Teradata, Oracle DB, GreenPlum, инчунин асбобҳои BI Qlik, SAP BO, Tableau ва ғайра масъул аст.

Манбаъ: will.com

Илова Эзоҳ