Sizda Sber tarozilari mavjud bo'lganda. Hive va GreenPlum bilan Ab Initio-dan foydalanish

Bir muncha vaqt oldin biz Big Data bilan ishlash uchun ETL vositasini tanlash masalasiga duch keldik. Ilgari ishlatilgan Informatica BDM yechimi cheklangan funksionallik tufayli bizga mos kelmadi. Uning ishlatilishi spark-submit buyruqlarini ishga tushirish uchun ramkaga qisqartirildi. Bozorda biz har kuni shug'ullanadigan ma'lumotlar hajmi bilan ishlashga qodir bo'lgan analoglar ko'p emas edi. Oxir-oqibat biz Ab Initio-ni tanladik. Tajribali namoyishlar davomida mahsulot juda yuqori ma'lumotlarni qayta ishlash tezligini ko'rsatdi. Rus tilida Ab Initio haqida deyarli hech qanday ma'lumot yo'q, shuning uchun biz Habré'dagi tajribamiz haqida gapirishga qaror qildik.

Ab Initio ko'plab klassik va g'ayrioddiy o'zgarishlarga ega, ularning kodini o'zining PDL tili yordamida kengaytirish mumkin. Kichik biznes uchun bunday kuchli vosita, ehtimol, ortiqcha bo'ladi va uning imkoniyatlarining aksariyati qimmat va foydalanilmagan bo'lishi mumkin. Ammo agar sizning o'lchovingiz Sberovnikiga yaqin bo'lsa, unda Ab Initio siz uchun qiziqarli bo'lishi mumkin.

Bu biznesga global miqyosda bilim to'plash va ekotizimni rivojlantirishga yordam beradi, dasturchiga esa ETL bo'yicha ko'nikmalarini oshirishga, qobiqdagi bilimlarini yaxshilashga yordam beradi, PDL tilini o'zlashtirish imkoniyatini beradi, yuklash jarayonlarining vizual tasvirini beradi va rivojlanishni soddalashtiradi funktsional komponentlarning ko'pligi tufayli.

Ushbu postda men Ab Initio-ning imkoniyatlari haqida gapirib beraman va uning Hive va GreenPlum bilan ishlashning qiyosiy tavsiflarini keltiraman.

  • MDW ramkasining tavsifi va uni GreenPlum uchun moslashtirish ustida ishlash
  • Hive va GreenPlum o'rtasidagi Ab Initio ish faoliyatini taqqoslash
  • GreenPlum bilan yaqin real vaqt rejimida Ab Initio bilan ishlash


Ushbu mahsulotning funksionalligi juda keng va o'rganish uchun ko'p vaqt talab etiladi. Biroq, to'g'ri ish qobiliyatlari va to'g'ri ishlash sozlamalari bilan ma'lumotlarni qayta ishlash natijalari juda ta'sirli. Ishlab chiquvchi uchun Ab Initio-dan foydalanish qiziqarli tajribani taqdim etishi mumkin. Bu vizual muhit va skriptga o'xshash tilda yuklab olish rivojlanishi o'rtasidagi gibrid bo'lgan ETLni ishlab chiqish bo'yicha yangi yondashuv.

Korxonalar o'z ekotizimlarini rivojlantirmoqda va bu vosita har qachongidan ham ko'proq yordam beradi. Ab Initio yordamida siz o'zingizning joriy biznesingiz haqida bilim to'plashingiz va bu bilimlardan eski va yangi bizneslarni kengaytirish uchun foydalanishingiz mumkin. Ab Initio muqobillari orasida Informatica BDM vizual ishlab chiqish muhitlari va vizual bo'lmagan Apache Spark ishlab chiqish muhitlari mavjud.

Ab Initio tavsifi

Ab Initio, boshqa ETL vositalari kabi, mahsulotlar to'plamidir.

Sizda Sber tarozilari mavjud bo'lganda. Hive va GreenPlum bilan Ab Initio-dan foydalanish

Ab Initio GDE (Graphical Development Environment) - ishlab chiquvchi uchun muhit bo'lib, unda u ma'lumotlar transformatsiyasini sozlaydi va ularni strelkalar ko'rinishidagi ma'lumotlar oqimlari bilan bog'laydi. Bunday holda, bunday o'zgarishlar to'plami grafik deb ataladi:

Sizda Sber tarozilari mavjud bo'lganda. Hive va GreenPlum bilan Ab Initio-dan foydalanish

Funktsional komponentlarning kirish va chiqish ulanishlari portlar bo'lib, transformatsiyalar doirasida hisoblangan maydonlarni o'z ichiga oladi. O'qlar ko'rinishidagi oqimlar bilan ularning bajarilishi tartibi bo'yicha bog'langan bir nechta grafiklar reja deb ataladi.

Bir necha yuzlab funktsional komponentlar mavjud, bu juda ko'p. Ularning ko'pchiligi yuqori ixtisoslashgan. Ab Initio-da klassik transformatsiyalarning imkoniyatlari boshqa ETL vositalariga qaraganda kengroqdir. Masalan, Join bir nechta chiqishlarga ega. Ma'lumotlar to'plamlarini ulash natijasiga qo'shimcha ravishda siz kalitlari ulanib bo'lmagan kirish ma'lumotlar to'plamining chiqish yozuvlarini olishingiz mumkin. Shuningdek, siz matn fayli bilan bir ustunda o'qilishi va boshqa o'zgartirishlar bilan qayta ishlanishi mumkin bo'lgan rad etishlar, xatolar va transformatsiya operatsiyalari jurnalini olishingiz mumkin:

Sizda Sber tarozilari mavjud bo'lganda. Hive va GreenPlum bilan Ab Initio-dan foydalanish

Yoki, masalan, siz ma'lumot qabul qiluvchini jadval shaklida moddiylashtirishingiz va undan ma'lumotlarni o'sha ustunda o'qishingiz mumkin.

Asl o'zgarishlar mavjud. Misol uchun, Scan transformatsiyasi analitik funktsiyalarga o'xshash funksionallikka ega. O'z-o'zidan tushunarli nomlar bilan o'zgartirishlar mavjud: Ma'lumotlarni yaratish, Excelni o'qish, Normalizatsiya qilish, Guruhlar ichida saralash, Dasturni ishga tushirish, SQLni ishga tushirish, Ma'lumotlar bazasi bilan qo'shilish va boshqalar. Grafiklar ishlash vaqti parametrlaridan, jumladan parametrlarni dan yoki boshqasiga o'tkazish imkoniyatidan foydalanishi mumkin. operatsion tizim. Grafikga o'tkazilgan tayyor parametrlar to'plamiga ega fayllar parametrlar to'plami (psetlar) deb ataladi.

Kutilganidek, Ab Initio GDE o'zining EME (Enterprise Meta Environment) deb nomlangan omboriga ega. Ishlab chiquvchilar kodning mahalliy versiyalari bilan ishlash va ularning ishlanmalarini markaziy omborda tekshirish imkoniyatiga ega.

Grafikni bajarish paytida yoki bajarilgandan so'ng, transformatsiyani bog'laydigan har qanday oqimni bosish va ushbu transformatsiyalar o'rtasida o'tgan ma'lumotlarni ko'rish mumkin:

Sizda Sber tarozilari mavjud bo'lganda. Hive va GreenPlum bilan Ab Initio-dan foydalanish

Shuningdek, istalgan oqimni bosish va kuzatuv tafsilotlarini ko'rish mumkin - transformatsiya qancha parallellarda ishlagan, qaysi parallellarga qancha satr va baytlar yuklangan:

Sizda Sber tarozilari mavjud bo'lganda. Hive va GreenPlum bilan Ab Initio-dan foydalanish

Grafikning bajarilishini bosqichlarga bo'lish va ba'zi transformatsiyalarni birinchi navbatda (nol bosqichda), keyingilarini birinchi bosqichda, keyingilarini ikkinchi bosqichda va hokazolarni bajarish kerakligini belgilash mumkin.

Har bir transformatsiya uchun siz (u amalga oshiriladigan) tartibni tanlashingiz mumkin: parallellarsiz yoki parallel iplarda, ularning soni ko'rsatilishi mumkin. Shu bilan birga, Ab Initio transformatsiyalar ishlayotganda yaratadigan vaqtinchalik fayllar ham server fayl tizimiga, ham HDFS-ga joylashtirilishi mumkin.

Har bir transformatsiyada standart shablonga asoslanib, PDL-da o'z skriptingizni yaratishingiz mumkin, bu biroz qobiqqa o'xshaydi.

PDL yordamida siz transformatsiyalar funksiyasini kengaytirishingiz va xususan, dinamik (ishlash vaqtida) ishlash vaqti parametrlariga qarab ixtiyoriy kod qismlarini yaratishingiz mumkin.

Ab Initio shuningdek, qobiq orqali OS bilan yaxshi rivojlangan integratsiyaga ega. Xususan, Sberbank linux ksh dan foydalanadi. Siz o'zgaruvchilarni qobiq bilan almashishingiz va ularni grafik parametrlari sifatida ishlatishingiz mumkin. Ab Initio grafiklarining bajarilishini qobiqdan chaqirishingiz va Ab Initio-ni boshqarishingiz mumkin.

Ab Initio GDE-dan tashqari, ko'plab boshqa mahsulotlar yetkazib berishga kiritilgan. Operatsion tizim deb ataladigan o'zining Co>Operation System mavjud. Yuklab olish oqimini rejalashtirish va kuzatishingiz mumkin bo'lgan Boshqarish>Markaz mavjud. Ab Initio GDE ruxsat berganidan ko'ra ibtidoiy darajada ishlab chiqish uchun mahsulotlar mavjud.

MDW ramkasining tavsifi va uni GreenPlum uchun moslashtirish ustida ishlash

O'z mahsulotlari bilan bir qatorda sotuvchi MDW (Metadata Driven Warehouse) mahsulotini yetkazib beradi, bu ma'lumotlar omborlari yoki ma'lumotlar omborlarini to'ldirishning odatiy vazifalarini bajarish uchun mo'ljallangan grafik konfigurator.

Unda maxsus (loyihaga xos) metama'lumotlar tahlilchilari va qutidan tashqarida tayyor kod generatorlari mavjud.

Sizda Sber tarozilari mavjud bo'lganda. Hive va GreenPlum bilan Ab Initio-dan foydalanish
Kirish sifatida MDW ma'lumotlar modelini, ma'lumotlar bazasiga ulanishni o'rnatish uchun konfiguratsiya faylini (Oracle, Teradata yoki Hive) va boshqa ba'zi sozlamalarni oladi. Loyihaga xos qism, masalan, modelni ma'lumotlar bazasiga joylashtiradi. Mahsulotning tayyor qismi model jadvallariga ma'lumotlarni yuklash orqali ular uchun grafiklar va konfiguratsiya fayllarini yaratadi. Bunday holda, ob'ektlarni yangilash bo'yicha ishga tushirish va qo'shimcha ishlarning bir nechta rejimlari uchun grafiklar (va psetlar) yaratiladi.

Hive va RDBMS holatlarida ishga tushirish va qo'shimcha ma'lumotlarni yangilash uchun turli grafiklar yaratiladi.

Hive holatida, kiruvchi delta ma'lumotlari Ab Initio Join orqali yangilanishdan oldin jadvaldagi ma'lumotlar bilan bog'lanadi. MDW (Hive va RDBMS da) ma'lumotlar yuklagichlari nafaqat deltadan yangi ma'lumotlarni kiritadi, balki asosiy kalitlari deltani olgan ma'lumotlarning dolzarblik davrlarini ham yopadi. Bundan tashqari, siz ma'lumotlarning o'zgarmagan qismini qayta yozishingiz kerak. Lekin buni qilish kerak, chunki Hive o'chirish yoki yangilash operatsiyalariga ega emas.

Sizda Sber tarozilari mavjud bo'lganda. Hive va GreenPlum bilan Ab Initio-dan foydalanish

RDBMS holatida, qo'shimcha ma'lumotlarni yangilash uchun grafiklar yanada maqbul ko'rinadi, chunki RDBMS haqiqiy yangilash qobiliyatiga ega.

Sizda Sber tarozilari mavjud bo'lganda. Hive va GreenPlum bilan Ab Initio-dan foydalanish

Qabul qilingan delta ma'lumotlar bazasidagi oraliq jadvalga yuklanadi. Shundan so'ng, delta yangilanishdan oldin jadvaldagi ma'lumotlarga ulanadi. Va bu yaratilgan SQL so'rovi yordamida SQL yordamida amalga oshiriladi. Keyinchalik, SQL Delta+insert buyruqlaridan foydalanib, deltadan yangi ma'lumotlar maqsadli jadvalga kiritiladi va asosiy kalitlari deltani olgan ma'lumotlarning dolzarblik davrlari yopiladi.
O'zgarmagan ma'lumotlarni qayta yozishning hojati yo'q.

Shunday qilib, biz Hive holatida MDW butun jadvalni qayta yozish uchun borishi kerak degan xulosaga keldik, chunki Hive yangilash funksiyasiga ega emas. Va yangilanish ixtiro qilinganda ma'lumotlarni to'liq qayta yozishdan yaxshiroq narsa yo'q. RDBMS misolida, aksincha, mahsulotni yaratuvchilar jadvallarni ulash va yangilashni SQL dan foydalanishga topshirishni zarur deb topdilar.

Sberbankdagi loyiha uchun biz GreenPlum uchun ma'lumotlar bazasini yuklovchining yangi, qayta foydalanish mumkin dasturini yaratdik. Bu MDW Teradata uchun yaratadigan versiya asosida amalga oshirildi. Buning uchun Oracle emas, balki Teradata eng yaxshi va eng yaqin edi, chunki... MPP tizimi hamdir. Teradata va GreenPlumning ishlash usullari, shuningdek, sintaksisi o'xshash bo'lib chiqdi.

Turli RDBMSlar o'rtasidagi MDW-tanqidiy farqlarga misollar quyida keltirilgan. GreenPlum-da, Teradata-dan farqli o'laroq, jadvallarni yaratishda siz band yozishingiz kerak

distributed by

Teradata yozadi:

delete <table> all

, va GreenPlum-da ular yozadilar

delete from <table>

Oracle-da ular optimallashtirish maqsadida yozadilar

delete from t where rowid in (<соединение t с дельтой>)

, va Teradata va GreenPlum yozadi

delete from t where exists (select * from delta where delta.pk=t.pk)

Shuningdek, Ab Initio-ning GreenPlum bilan ishlashi uchun Ab Initio klasterining barcha tugunlariga GreenPlum mijozini o'rnatish zarurligini ta'kidlaymiz. Buning sababi, biz GreenPlum-ga klasterimizdagi barcha tugunlardan bir vaqtning o'zida ulanganmiz. GreenPlum-dan o'qish parallel bo'lishi va har bir parallel Ab Initio ipi GreenPlum-dan ma'lumotlarning o'ziga xos qismini o'qishi uchun biz SQL so'rovlarining "qaerda" bo'limiga Ab Initio tushunadigan konstruktsiyani joylashtirishimiz kerak edi.

where ABLOCAL()

va transformatsiya ma'lumotlar bazasidan parametr o'qishini ko'rsatib, ushbu konstruktsiyaning qiymatini aniqlang

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

, shunga o'xshash narsalarni kompilyatsiya qiladi

mod(sk,10)=3

, ya'ni. GreenPlum-ni har bir bo'lim uchun aniq filtr bilan taklif qilishingiz kerak. Boshqa ma'lumotlar bazalari (Teradata, Oracle) uchun Ab Initio bu parallelizatsiyani avtomatik ravishda amalga oshirishi mumkin.

Hive va GreenPlum o'rtasidagi Ab Initio ish faoliyatini taqqoslash

Sberbank Hive va GreenPlum bilan bog'liq holda MDW tomonidan yaratilgan grafiklarning ishlashini solishtirish uchun tajriba o'tkazdi. Tajriba doirasida, Hive misolida Ab Initio bilan bir xil klasterda 5 ta tugun, GreenPlumda esa alohida klasterda 4 ta tugun mavjud edi. Bular. Hive GreenPlum-dan ba'zi bir apparat ustunligiga ega edi.

Biz Hive va GreenPlum-da ma'lumotlarni yangilash bo'yicha bir xil vazifani bajaradigan ikkita juft grafikni ko'rib chiqdik. Shu bilan birga, MDW konfiguratori tomonidan yaratilgan grafiklar ishga tushirildi:

  • boshlang'ich yuk + Hive jadvaliga tasodifiy yaratilgan ma'lumotlarning qo'shimcha yuki
  • boshlang'ich yuk + tasodifiy yaratilgan ma'lumotlarning bir xil GreenPlum jadvaliga qo'shimcha yuklanishi

Ikkala holatda ham (Hive va GreenPlum) ular bir xil Ab Initio klasteridagi 10 ta parallel ish zarrachalariga yuklashni amalga oshirdilar. Ab Initio HDFSda hisob-kitoblar uchun oraliq ma'lumotlarni saqladi (Ab Initio nuqtai nazaridan, HDFS yordamida MFS tartibi ishlatilgan). Tasodifiy yaratilgan ma'lumotlarning bir qatori ikkala holatda ham 200 baytni egallagan.

Natija shunday bo'ldi:

Kovan:

Hive-da dastlabki yuklash

Qatorlar kiritildi
6 000 000
60 000 000
600 000 000

Initializatsiya muddati
soniyalarda yuklab olinadi
41
203
1 601

Hive-da bosqichma-bosqich yuklash

Mavjud qatorlar soni
tajriba boshida maqsadli jadval
6 000 000
60 000 000
600 000 000

Qo'llaniladigan delta chiziqlar soni
tajriba davomida maqsadli jadval
6 000 000
6 000 000
6 000 000

Qo'shimcha davomiylik
soniyalarda yuklab olinadi
88
299
2 541

GreenPlum:

GreenPlum-da dastlabki yuklash

Qatorlar kiritildi
6 000 000
60 000 000
600 000 000

Initializatsiya muddati
soniyalarda yuklab olinadi
72
360
3 631

GreenPlum-da asta-sekin yuklash

Mavjud qatorlar soni
tajriba boshida maqsadli jadval
6 000 000
60 000 000
600 000 000

Qo'llaniladigan delta chiziqlar soni
tajriba davomida maqsadli jadval
6 000 000
6 000 000
6 000 000

Qo'shimcha davomiylik
soniyalarda yuklab olinadi
159
199
321

Ko'ramizki, Hive va GreenPlum-da dastlabki yuklanish tezligi chiziqli ravishda ma'lumotlar miqdoriga bog'liq va yaxshi apparat sabablarga ko'ra, GreenPlum-ga qaraganda Hive uchun biroz tezroq.

Hive-da qo'shimcha yuklanish ham chiziqli ravishda maqsadli jadvalda mavjud bo'lgan ilgari yuklangan ma'lumotlar hajmiga bog'liq va hajm o'sishi bilan juda sekin davom etadi. Bu maqsadli jadvalni to'liq qayta yozish zarurati bilan bog'liq. Bu shuni anglatadiki, katta jadvallarga kichik o'zgarishlarni qo'llash Hive uchun yaxshi foydalanish holati emas.

GreenPlum-da asta-sekin yuklanish maqsadli jadvalda mavjud bo'lgan ilgari yuklangan ma'lumotlar hajmiga bog'liq va juda tez davom etadi. Bu SQL Joins va o'chirish operatsiyasini ta'minlaydigan GreenPlum arxitekturasi tufayli sodir bo'ldi.

Shunday qilib, GreenPlum Deltani Delta + Insert usuli yordamida qo'shadi, lekin Hive-da o'chirish yoki yangilash operatsiyalari mavjud emas, shuning uchun bosqichma-bosqich yangilanish paytida butun ma'lumotlar massivi butunlay qayta yozilishiga majbur bo'ldi. Qalin harflar bilan ta'kidlangan hujayralarni taqqoslash juda aniq, chunki u resurs talab qiladigan yuklamalardan foydalanishning eng keng tarqalgan variantiga mos keladi. GreenPlum ushbu testda Hive-ni 8 marta mag'lub etganini ko'ramiz.

GreenPlum bilan yaqin real vaqt rejimida Ab Initio bilan ishlash

Ushbu tajribada biz Ab Initio-ning GreenPlum jadvalini tasodifiy yaratilgan ma'lumotlar bo'laklari bilan real vaqtda yangilash qobiliyatini sinab ko'ramiz. Keling, GreenPlum jadvalini ko'rib chiqaylik dev42_1_db_usl.TESTING_SUBJ_org_finval, biz u bilan ishlaymiz.

U bilan ishlash uchun uchta Ab Initio grafiklaridan foydalanamiz:

1) Create_test_data.mp grafigi - HDFSda 10 ta parallel ipda 6 000 000 qatorli ma'lumotlar fayllarini yaratadi. Ma'lumotlar tasodifiy, uning tuzilishi jadvalimizga kiritish uchun tashkil etilgan

Sizda Sber tarozilari mavjud bo'lganda. Hive va GreenPlum bilan Ab Initio-dan foydalanish

Sizda Sber tarozilari mavjud bo'lganda. Hive va GreenPlum bilan Ab Initio-dan foydalanish

2) Grafik mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset - MDW tomonidan yaratilgan grafik 10 ta parallel ipda jadvalimizga ma'lumotlarni kiritishni ishga tushirish orqali (1-grafikda yaratilgan test ma'lumotlari ishlatiladi)

Sizda Sber tarozilari mavjud bo'lganda. Hive va GreenPlum bilan Ab Initio-dan foydalanish

3) Grafik mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset - grafik (10) tomonidan yaratilgan yangi olingan ma'lumotlarning (delta) bir qismidan foydalangan holda jadvalimizni 1 ta parallel ipda bosqichma-bosqich yangilash uchun MDW tomonidan yaratilgan grafik.

Sizda Sber tarozilari mavjud bo'lganda. Hive va GreenPlum bilan Ab Initio-dan foydalanish

Quyidagi skriptni NRT rejimida ishga tushiramiz:

  • 6 000 000 test liniyalarini yarating
  • boshlang'ich yuklamani bajaring, bo'sh jadvalga 6 000 000 test qatorini kiriting
  • bosqichma-bosqich yuklashni 5 marta takrorlang
    • 6 000 000 test liniyalarini yarating
    • Jadvalga 6 000 000 test qatorini qo'shimcha ravishda kiritishni amalga oshiring (bu holda valid_to_ts amal qilish muddati eski ma'lumotlarga o'rnatiladi va bir xil asosiy kalit bilan yangiroq ma'lumotlar kiritiladi)

Ushbu stsenariy ma'lum bir biznes tizimining haqiqiy ishlash rejimini taqlid qiladi - yangi ma'lumotlarning juda katta qismi real vaqtda paydo bo'ladi va darhol GreenPlum-ga quyiladi.

Endi skript jurnaliga qaraylik:

Create_test_data.input.pset ni 2020-06-04 11:49:11 da boshlang
Create_test_data.input.pset da 2020-06-04 11:49:37 da tugating
mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset ni 2020-06-04 11:49:37 da boshlang
mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset ni 2020-06-04 11:50:42 da tugating
Create_test_data.input.pset ni 2020-06-04 11:50:42 da boshlang
Create_test_data.input.pset da 2020-06-04 11:51:06 da tugating
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ni 2020-06-04 11:51:06 da boshlang
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ni 2020-06-04 11:53:41 da tugating
Create_test_data.input.pset ni 2020-06-04 11:53:41 da boshlang
Create_test_data.input.pset da 2020-06-04 11:54:04 da tugating
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ni 2020-06-04 11:54:04 da boshlang
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ni 2020-06-04 11:56:51 da tugating
Create_test_data.input.pset ni 2020-06-04 11:56:51 da boshlang
Create_test_data.input.pset da 2020-06-04 11:57:14 da tugating
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ni 2020-06-04 11:57:14 da boshlang
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ni 2020-06-04 11:59:55 da tugating
Create_test_data.input.pset ni 2020-06-04 11:59:55 da boshlang
Create_test_data.input.pset da 2020-06-04 12:00:23 da tugating
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ni 2020-06-04 12:00:23 da boshlang
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ni 2020-06-04 12:03:23 da tugating
Create_test_data.input.pset ni 2020-06-04 12:03:23 da boshlang
Create_test_data.input.pset da 2020-06-04 12:03:49 da tugating
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ni 2020-06-04 12:03:49 da boshlang
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset ni 2020-06-04 12:06:46 da tugating

Bu rasm chiqadi:

Tasvir
Boshlanish vaqti
Tugatish vaqti
uzunlik

Create_test_data.input.pset
04.06.2020 11: 49: 11
04.06.2020 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 49: 37
04.06.2020 11: 50: 42
00:01:05

Create_test_data.input.pset
04.06.2020 11: 50: 42
04.06.2020 11: 51: 06
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 51: 06
04.06.2020 11: 53: 41
00:02:35

Create_test_data.input.pset
04.06.2020 11: 53: 41
04.06.2020 11: 54: 04
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 54: 04
04.06.2020 11: 56: 51
00:02:47

Create_test_data.input.pset
04.06.2020 11: 56: 51
04.06.2020 11: 57: 14
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 57: 14
04.06.2020 11: 59: 55
00:02:41

Create_test_data.input.pset
04.06.2020 11: 59: 55
04.06.2020 12: 00: 23
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 00: 23
04.06.2020 12: 03: 23
00:03:00

Create_test_data.input.pset
04.06.2020 12: 03: 23
04.06.2020 12: 03: 49
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 03: 49
04.06.2020 12: 06: 46
00:02:57

Ko'ramizki, 6 000 000 o'sish liniyalari 3 daqiqada qayta ishlanadi, bu juda tez.
Maqsadli jadvaldagi ma'lumotlar quyidagicha taqsimlandi:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

Sizda Sber tarozilari mavjud bo'lganda. Hive va GreenPlum bilan Ab Initio-dan foydalanish
Siz kiritilgan ma'lumotlarning grafiklar ishga tushirilgan vaqtlariga mos kelishini ko'rishingiz mumkin.
Bu shuni anglatadiki, siz Ab Initio-da GreenPlum-ga ma'lumotlarning bosqichma-bosqich yuklanishini juda yuqori chastotada ishga tushirishingiz va bu ma'lumotlarni GreenPlum-ga kiritishning yuqori tezligini kuzatishingiz mumkin. Albatta, soniyada bir marta ishga tushirish mumkin bo'lmaydi, chunki Ab Initio, har qanday ETL vositasi kabi, ishga tushirilganda "ishlash" uchun vaqt talab qiladi.

xulosa

Ab Initio hozirda Sberbankda Yagona semantik ma'lumotlar qatlamini (ESS) yaratish uchun ishlatiladi. Ushbu loyiha turli bank xo'jalik yurituvchi sub'ektlarning holatining yagona versiyasini yaratishni o'z ichiga oladi. Ma'lumotlar turli manbalardan olinadi, ularning nusxalari Hadoop-da tayyorlanadi. Biznes ehtiyojlaridan kelib chiqib, ma'lumotlar modeli tayyorlanadi va ma'lumotlarni o'zgartirish tavsiflanadi. Ab Initio ma'lumotni ESNga yuklaydi va yuklab olingan ma'lumotlar nafaqat biznesni qiziqtiradi, balki ma'lumotlar martlarini yaratish uchun manba bo'lib xizmat qiladi. Shu bilan birga, mahsulotning funksionalligi turli xil tizimlardan qabul qiluvchi sifatida foydalanishga imkon beradi (Hive, Greenplum, Teradata, Oracle), bu esa biznes uchun kerakli turli formatlarda ma'lumotlarni osongina tayyorlash imkonini beradi.

Ab Initio imkoniyatlari keng; masalan, kiritilgan MDW tizimi texnik va biznes tarixiy ma'lumotlarni qutidan tashqarida yaratishga imkon beradi. Ishlab chiquvchilar uchun Ab Initio g'ildirakni qayta ixtiro qilmaslik, balki ma'lumotlar bilan ishlashda zarur bo'lgan kutubxonalar bo'lgan ko'plab mavjud funktsional komponentlardan foydalanish imkonini beradi.

Muallif Sberbank SberProfi DWH/BigData professional hamjamiyatining mutaxassisi. SberProfi DWH/BigData professional hamjamiyati Hadoop ekotizimlari, Teradata, Oracle DB, GreenPlum, shuningdek, BI vositalari Qlik, SAP BO, Tableau va boshqalar kabi sohalarda vakolatlarni rivojlantirish uchun mas'uldir.

Manba: www.habr.com

a Izoh qo'shish