کله چې تاسو د Sber ترازو لرئ. د Hive او GreenPlum سره د Ab Initio کارول

یو څه وخت دمخه ، موږ د لوی ډیټا سره کار کولو لپاره د ETL وسیلې غوره کولو پوښتنې سره مخ شو. مخکې کارول شوی Informatica BDM حل د محدود فعالیت له امله موږ ته مناسب نه و. د دې کارول د سپارک - سپارلو کمانډونو پیل کولو لپاره چوکاټ ته کم شوی. په بازار کې ډیری انلاګونه شتون نلري چې په اصولو کې د ډیټا حجم سره د کار کولو وړ و چې موږ هره ورځ ورسره معامله کوو. په پای کې موږ Ab Initio غوره کړه. د ازمایښتي مظاهرو په جریان کې، محصول د ډیټا پروسس کولو خورا لوړ سرعت ښودلی. په روسیه کې د Ab Initio په اړه تقریبا هیڅ معلومات شتون نلري، نو موږ پریکړه وکړه چې د Habré په اړه زموږ د تجربې په اړه خبرې وکړو.

Ab Initio ډیری کلاسیک او غیر معمولي بدلونونه لري، کوم چې کوډ د هغې د PDL ژبې په کارولو سره پراخ کیدی شي. د یوې کوچنۍ سوداګرۍ لپاره، دا ډول ځواکمن وسیله به احتمالا ډیر وژونکي وي، او د هغې ډیری وړتیاوې ممکن ګران او غیر کارول شوي وي. مګر که ستاسو پیمانه د سبیروف سره نږدې وي، نو اب انیټیو ممکن ستاسو لپاره په زړه پوري وي.

دا د سوداګرۍ سره مرسته کوي ترڅو په نړیواله کچه پوهه راټول کړي او د ایکوسیستم رامینځته کړي ، او یو پراختیا کونکی په ETL کې خپل مهارتونه ښه کړي ، په شیل کې خپله پوهه ښه کړي ، د PDL ژبه کې ماسټر کولو فرصت چمتو کوي ، د بارولو پروسو یو بصری عکس ورکوي ، او پراختیا ساده کوي. د فعال اجزاو د زیاتوالي له امله.

پدې پوسټ کې به زه د Ab Initio وړتیاو په اړه وغږیږم او د Hive او GreenPlum سره د هغې د کار پرتله کولو ځانګړتیاوې وړاندې کړم.

  • د MDW چوکاټ توضیحات او د ګرین پلم لپاره د دې تخصیص باندې کار کول
  • د Hive او GreenPlum تر منځ د Ab Initio فعالیت پرتله کول
  • په نږدې ریښتیني وخت حالت کې د ګرین پلم سره د اب انیټیو کار کول


د دې محصول فعالیت خورا پراخ دی او د مطالعې لپاره ډیر وخت ته اړتیا لري. په هرصورت، د مناسب کاري مهارتونو او د سم فعالیت ترتیباتو سره، د معلوماتو پروسس کولو پایلې خورا اغیزمنې دي. د پراختیا کونکي لپاره د Ab Initio کارول کولی شي په زړه پوري تجربه چمتو کړي. دا د ETL پراختیا په اړه یو نوی ګام دی، د بصری چاپیریال او د سکریپټ په څیر ژبه کې د ډاونلوډ پراختیا ترمنځ یو هایبرډ.

سوداګرۍ خپل ایکوسیستم ته وده ورکوي او دا وسیله د هر وخت څخه ډیر په کار کې راځي. د Ab Initio سره، تاسو کولی شئ د خپل اوسني سوداګرۍ په اړه پوهه راټول کړئ او دا پوهه د زاړه او نوي سوداګرۍ پراخولو لپاره وکاروئ. د Ab Initio په بدیلونو کې د بصری پراختیا چاپیریالونه Informatica BDM او غیر بصری پرمختیا چاپیریال Apache Spark شامل دي.

د ابتکار تفصیل

Ab Initio، د نورو ETL وسیلو په څیر، د محصولاتو ټولګه ده.

کله چې تاسو د Sber ترازو لرئ. د Hive او GreenPlum سره د Ab Initio کارول

Ab Initio GDE (د ګرافیکي پراختیا چاپیریال) د پراختیا کونکي لپاره یو چاپیریال دی چیرې چې هغه د ډیټا بدلونونه تنظیموي او د تیر په څیر د ډیټا جریانونو سره وصل کوي. په دې حالت کې، د بدلونونو دا ډول یو ګراف ویل کیږي:

کله چې تاسو د Sber ترازو لرئ. د Hive او GreenPlum سره د Ab Initio کارول

د فعال اجزاو داخل او محصول اړیکې بندرونه دي او د بدلونونو دننه محاسبه شوي ساحې لري. څو ګرافونه چې د تیر په بڼه د جریانونو په واسطه د دوی د اجرا کولو په ترتیب سره نښلوي د پلان په نوم یادیږي.

څو سوه فعال اجزا شتون لري، کوم چې ډیر دی. ډیری یې خورا متخصص دي. په Ab Initio کې د کلاسیک بدلونونو وړتیاوې د نورو ETL وسیلو په پرتله پراخه دي. د مثال په توګه، شمولیت ډیری پایلې لري. د ډیټاسیټونو سره وصل کولو پایلې سربیره ، تاسو کولی شئ د ان پټ ډیټاسیټونو محصول ریکارډونه ترلاسه کړئ چې کیلي یې نشي وصل کیدی. تاسو کولی شئ ردونه، تېروتنې او د بدلون عملیات لاګ هم ترلاسه کړئ، کوم چې په ورته کالم کې د متن فایل په څیر لوستل کیدی شي او د نورو بدلونونو سره پروسس کیدی شي:

کله چې تاسو د Sber ترازو لرئ. د Hive او GreenPlum سره د Ab Initio کارول

یا، د مثال په توګه، تاسو کولی شئ د میز په بڼه د ډاټا ترلاسه کونکي مواد جوړ کړئ او په ورته کالم کې یې ډاټا ولولئ.

اصلي بدلونونه شتون لري. د مثال په توګه، د سکین بدلون د تحلیلي فعالیتونو سره ورته فعالیت لري. د ځان توضیحي نومونو سره بدلونونه شتون لري: ډیټا رامینځته کړئ ، اکسل ولولئ ، نورمال کړئ ، په ګروپونو کې ترتیب کړئ ، برنامه پرمخ وړئ ، ایس کیو ایل چل کړئ ، د DB سره یوځای شئ ، او داسې نور. ګرافونه کولی شي د چلولو وخت پیرامیټرې وکاروي ، پشمول د پیرامیټرونو تیرولو امکان عملیاتي سیسټم هغه فایلونه چې د پیرامیټونو چمتو شوي سیټ سره ګراف ته لیږدول شوي د پیرامیټر سیټونو (psets) په نوم یادیږي.

لکه څنګه چې تمه کیده، Ab Initio GDE د EME (Enterprise Meta Environment) په نوم خپل ذخیره لري. پراختیا کونکي فرصت لري چې د کوډ ځایی نسخو سره کار وکړي او مرکزي ذخیره کې د دوی پرمختګونه وګوري.

دا ممکنه ده، د اجرا کولو په جریان کې یا د ګراف اجرا کولو وروسته، په هر جریان باندې کلیک وکړئ چې بدلون سره نښلوي او هغه ډاټا وګورئ چې د دې بدلونونو ترمنځ تیریږي:

کله چې تاسو د Sber ترازو لرئ. د Hive او GreenPlum سره د Ab Initio کارول

دا هم امکان لري چې په کوم جریان باندې کلیک وکړئ او د تعقیب توضیحات وګورئ - بدلون په څومره موازي کې کار کړی ، څومره لینونه او بایټونه په کوم موازي کې بار شوي:

کله چې تاسو د Sber ترازو لرئ. د Hive او GreenPlum سره د Ab Initio کارول

دا ممکنه ده چې د ګراف اجرا په پړاوونو کې وویشئ او په نښه کړئ چې ځینې بدلونونه باید ترسره شي لومړی (په صفر مرحله کې)، راتلونکی په لومړي پړاو کې، راتلونکی په دویم پړاو کې، او داسې نور.

د هر بدلون لپاره، تاسو کولی شئ تش په نامه ترتیب غوره کړئ (چیرې چې دا به اجرا شي): پرته له موازي یا موازي تارونو کې، د کوم شمیر چې مشخص کیدی شي. په ورته وخت کې، لنډمهاله فایلونه چې Ab Initio رامینځته کوي کله چې بدلونونه روان وي دواړه د سرور فایل سیسټم او HDFS کې ځای په ځای کیدی شي.

په هر بدلون کې، د ډیفالټ ټیمپلیټ پراساس، تاسو کولی شئ په PDL کې خپل سکریپټ جوړ کړئ، کوم چې یو څه د شیل په څیر دی.

د PDL سره، تاسو کولی شئ د بدلونونو فعالیت وغځوئ او په ځانګړې توګه، تاسو کولی شئ په متحرک ډول (د چلولو په وخت کې) د چلولو پیرامیټونو پورې اړوند د خپل سري کوډ ټوټې تولید کړئ.

Ab Initio د شیل له لارې د OS سره ښه پرمختللی ادغام هم لري. په ځانګړې توګه، Sberbank د linux ksh کاروي. تاسو کولی شئ متغیرات د شیل سره تبادله کړئ او د ګراف پیرامیټونو په توګه یې وکاروئ. تاسو کولی شئ د شیل څخه د Ab Initio ګرافونو اجرا کولو ته زنګ ووهئ او د Ab Initio اداره کړئ.

د Ab Initio GDE سربیره، ډیری نور محصولات په تحویل کې شامل دي. دلته خپل شریک عملیاتي سیسټم شتون لري چې ادعا یې د عملیاتي سیسټم په نوم یادیږي. دلته یو کنټرول> مرکز شتون لري چیرې چې تاسو کولی شئ د ډاونلوډ جریان مهالویش او څارنه وکړئ. د Ab Initio GDE اجازه ورکولو په پرتله په خورا ابتدايي کچه د پراختیا لپاره محصولات شتون لري.

د MDW چوکاټ توضیحات او د ګرین پلم لپاره د دې تخصیص باندې کار کول

د خپلو محصولاتو سره سره، پلورونکی د MDW (Metadata Driven Warehouse) محصول وړاندې کوي، کوم چې د ګراف ترتیب کوونکی دی چې د ډیټا ګودامونو یا ډیټا والټونو نفوس کولو عادي کارونو کې د مرستې لپاره ډیزاین شوی.

پدې کې دودیز (د پروژې ځانګړي) میټاډاټا پارسرونه او د بکس څخه بهر چمتو شوي کوډ جنریټرونه شامل دي.

کله چې تاسو د Sber ترازو لرئ. د Hive او GreenPlum سره د Ab Initio کارول
د انپټ په توګه، MDW د ډیټا ماډل ترلاسه کوي، د ډیټابیس (اوریکل، ټیرډاټا یا Hive) او ځینې نور ترتیباتو سره د پیوستون تنظیم کولو لپاره د ترتیب کولو فایل. د پروژې ځانګړې برخه، د بیلګې په توګه، ماډل ډیټابیس ته ځای په ځای کوي. د محصول بهرنۍ برخه د ماډل جدولونو کې د ډیټا په بارولو سره د دوی لپاره ګرافونه او د ترتیب فایلونه رامینځته کوي. په دې حالت کې، ګرافونه (او psets) د ادارو د تازه کولو په اړه د پیل کولو او زیاتیدونکي کار لپاره د څو طریقو لپاره رامینځته شوي.

د Hive او RDBMS په قضیو کې، مختلف ګرافونه د پیل کولو او د معلوماتو زیاتوالي تازه کولو لپاره رامینځته کیږي.

د Hive په حالت کې، د ډیلټا راتلونکی ډیټا د Ab Initio له لارې وصل کیږي د ډیټا سره یوځای شئ چې د تازه کولو دمخه په جدول کې و. په MDW کې د ډیټا لوډر (دواړه په Hive او RDBMS کې) نه یوازې د ډیلټا څخه نوي ډیټا داخلوي ، بلکه د ډیټا د تړاو دورې هم بندوي چې لومړني کلیدونه ډیلټا ترلاسه کوي. سربیره پردې ، تاسو باید د معلوماتو نه بدلیدونکي برخه بیا ولیکئ. مګر دا باید ترسره شي ځکه چې Hive د حذف یا تازه کولو عملیات نلري.

کله چې تاسو د Sber ترازو لرئ. د Hive او GreenPlum سره د Ab Initio کارول

د RDBMS په حالت کې، د ډیرو معلوماتو تازه کولو لپاره ګرافونه ډیر غوره ښکاري، ځکه چې RDBMS د ریښتینې تازه کولو وړتیا لري.

کله چې تاسو د Sber ترازو لرئ. د Hive او GreenPlum سره د Ab Initio کارول

ترلاسه شوی ډیلټا په ډیټابیس کې په منځمهاله جدول کې بار شوی. له دې وروسته، ډیلټا د معلوماتو سره وصل دی چې د تازه کولو دمخه په جدول کې و. او دا د SQL په کارولو سره د تولید شوي SQL پوښتنې په کارولو سره ترسره کیږي. بیا ، د SQL کمانډونو په کارولو سره حذف + داخل کړئ ، د ډیلټا څخه نوي ډیټا په هدف جدول کې داخلیږي او د ډیټا د تړاو دورې چې لومړنۍ کیلي یې ډیلټا ترلاسه کړې تړلې دي.
د بدل شوي معلوماتو بیا لیکلو ته اړتیا نشته.

نو موږ دې پایلې ته ورسیدو چې د Hive په حالت کې، MDW باید د ټول میز بیا لیکلو ته لاړ شي ځکه چې Hive د تازه کولو فعالیت نلري. او کله چې تازه کول اختراع شوي وي په بشپړ ډول د ډیټا بیا لیکلو څخه غوره هیڅ شی ندي. د RDBMS په قضیه کې، برعکس، د محصول جوړونکو دا اړینه وموندله چې د SQL کارولو لپاره د میزونو اتصال او تازه کولو ته وسپاري.

په سبربینک کې د یوې پروژې لپاره، موږ د ګرین پلم لپاره د ډیټابیس لوډر یو نوی، د بیا کارونې وړ تطبیق رامینځته کړی. دا د هغه نسخې پر بنسټ ترسره شوی چې MDW د Teradata لپاره تولیدوي. دا تیراډاټا وه ، او اوریکل نه ، چې د دې لپاره خورا نږدې او غوره راغلی ، ځکه چې ... د MPP سیسټم هم دی. د کار میتودونه، او همدارنګه د Teradata او GreenPlum ترکیب هم ورته وو.

د مختلفو RDBMSs ترمنځ د MDW - مهم توپیرونو بیلګې په لاندې ډول دي. په ګرین پلم کې ، د تیراډاټا برعکس ، کله چې میزونه رامینځته کوئ تاسو اړتیا لرئ یوه بند ولیکئ

distributed by

تیریداتا لیکي:

delete <table> all

، او په ګرین پلم کې دوی لیکي

delete from <table>

په اوریکل کې، د اصلاح کولو موخو لپاره دوی لیکي

delete from t where rowid in (<соединение t с дельтой>)

، او Teradata او GreenPlum لیکي

delete from t where exists (select * from delta where delta.pk=t.pk)

موږ دا هم یادونه کوو چې د ګرین پلم سره د کار کولو لپاره د Ab Initio لپاره، دا اړینه وه چې د ګرین پلم مراجع د Ab Initio کلستر په ټولو نوډونو کې نصب کړئ. دا ځکه چې موږ زموږ په کلستر کې د ټولو نوډونو څخه په ورته وخت کې ګرین پلم سره وصل شو. او د دې لپاره چې د ګرین پلم څخه موازي لوستل شي او هر موازي Ab Initio تار د ګرین پلم څخه د ډیټا خپله برخه لوستلو لپاره ، موږ باید د SQL پوښتنو په "چیرته" برخه کې د Ab Initio لخوا پوه شوي جوړښت ځای په ځای کړو.

where ABLOCAL()

او د دې ساختمان ارزښت د بدلون ډیټابیس څخه د پیرامیټر لوستلو مشخص کولو سره مشخص کړئ

ablocal_expr=«string_concat("mod(t.", string_filter_out("{$TABLE_KEY}","{}"), ",", (decimal(3))(number_of_partitions()),")=", (decimal(3))(this_partition()))»

، کوم چې یو څه ته تالیف کوي لکه

mod(sk,10)=3

، i.e. تاسو باید د هرې برخې لپاره د واضح فلټر سره GreenPlum ته اشاره وکړئ. د نورو ډیټابیسونو لپاره (Teradata، Oracle)، Ab Initio کولی شي دا موازي په اتوماتيک ډول ترسره کړي.

د Hive او GreenPlum تر منځ د Ab Initio فعالیت پرتله کول

سبربینک یوه تجربه ترسره کړه ترڅو د Hive او د ګرین پلم په تړاو د MDW تولید شوي ګرافونو فعالیت پرتله کړي. د تجربې د یوې برخې په توګه، د Hive په قضیه کې د Ab Initio په څیر په ورته کلستر کې 5 نوډونه وو، او د ګرین پلم په قضیه کې په جلا کلستر کې 4 نوډونه وو. هغوی. Hive په ګرین پلم کې د هارډویر ځینې ګټې درلودې.

موږ دوه جوړه ګرافونه په پام کې نیولي چې په Hive او GreenPlum کې د معلوماتو تازه کولو ورته دنده ترسره کوي. په ورته وخت کې، د MDW ترتیب کونکي لخوا رامینځته شوي ګرافونه پیل شوي:

  • ابتدايي بار + په تصادفي ډول تولید شوي ډیټا زیاتیدونکي بار په Hive میز کې
  • ابتدايي بار + په ورته ګرین پلم جدول کې د تصادفي تولید شوي ډیټا زیاتیدونکي بار

په دواړو حالتونو کې (Hive او GreenPlum) دوی په ورته Ab Initio کلستر کې 10 موازي تارونو ته اپلوډونه پرمخ وړي. Ab Initio په HDFS کې د محاسبې لپاره منځمهاله ډاټا خوندي کړې (د Ab Initio په شرایطو کې، د HDFS کارولو MFS ترتیب کارول شوی و). په تصادفي ډول تولید شوي ډیټا یوه کرښه په دواړو حالتونو کې 200 بایټس نیولي.

پایله یې داسې وه:

خیټه:

په Hive کې ابتدايي بار کول

قطارونه داخل کړل
6 000 000
60 000 000
600 000 000

د پیل کولو موده
په ثانیو کې ډاونلوډ کړئ
41
203
1 601

په Hive کې زیاتیدونکي بار کول

د قطارونو شمیر چې شتون لري
د تجربې په پیل کې د هدف میز
6 000 000
60 000 000
600 000 000

د ډیلټا لینونو شمیر چې پلي شوي
د تجربې په جریان کې د هدف میز
6 000 000
6 000 000
6 000 000

د زیاتوالي موده
په ثانیو کې ډاونلوډ کړئ
88
299
2 541

شنه پلم:

په ګرین پلم کې لومړني بار کول

قطارونه داخل کړل
6 000 000
60 000 000
600 000 000

د پیل کولو موده
په ثانیو کې ډاونلوډ کړئ
72
360
3 631

په ګرین پلم کې زیاتیدونکي بار کول

د قطارونو شمیر چې شتون لري
د تجربې په پیل کې د هدف میز
6 000 000
60 000 000
600 000 000

د ډیلټا لینونو شمیر چې پلي شوي
د تجربې په جریان کې د هدف میز
6 000 000
6 000 000
6 000 000

د زیاتوالي موده
په ثانیو کې ډاونلوډ کړئ
159
199
321

موږ ګورو چې په Hive او GreenPlum دواړو کې د لومړني بار کولو سرعت په لیکه کې د ډیټا مقدار پورې اړه لري او د غوره هارډویر دلیلونو لپاره ، دا د ګرین پلم په پرتله د Hive لپاره یو څه ګړندی دی.

په Hive کې زیاتیدونکي بار کول هم په خطي ډول د مخکینۍ بار شوي ډیټا حجم پورې اړه لري چې په هدف جدول کې شتون لري او په ورو ورو پرمخ ځي لکه څنګه چې حجم وده کوي. دا د هدف جدول په بشپړ ډول د بیا لیکلو اړتیا له امله رامینځته کیږي. دا پدې مانا ده چې په لوی میزونو کې د کوچني بدلونونو پلي کول د Hive لپاره د کارونې ښه قضیه نده.

په ګرین پلم کې زیاتیدونکي بار په کمزوري ډول د مخکینۍ بار شوي ډیټا حجم پورې اړه لري چې په نښه شوي جدول کې شتون لري او په چټکۍ سره پرمخ ځي. دا د SQL یوځای کیدو او د ګرین پلم جوړښت څخه مننه پیښ شوي ، کوم چې د حذف کولو عملیاتو ته اجازه ورکوي.

نو ، ګرین پلم د حذف + داخلولو میتود په کارولو سره ډیلټا اضافه کوي ، مګر Hive د حذف یا تازه کولو عملیات نلري ، نو د ډیټا ټول سرې دې ته اړ ایستل شوي چې د زیاتیدونکي تازه کولو پرمهال په بشپړ ډول بیا لیکل شي. په بولډ کې د روښانه شوي حجرو پرتله کول خورا څرګند دي ، ځکه چې دا د سرچینې - ژور ډاونلوډونو کارولو لپاره ترټولو عام اختیار سره مطابقت لري. موږ ګورو چې ګرین پلم په دې ازموینه کې Hive ته 8 ځله ماتې ورکړه.

په نږدې ریښتیني وخت حالت کې د ګرین پلم سره د اب انیټیو کار کول

په دې تجربه کې، موږ به په نږدې ریښتیني وخت کې د تصادفي تولید شوي ډیټا سره د ګرین پلم جدول تازه کولو لپاره د Ab Initio وړتیا ازموینه وکړو. راځئ چې د GreenPlum جدول dev42_1_db_usl.TESTING_SUBJ_org_finval په پام کې ونیسو، چې موږ به ورسره کار وکړو.

موږ به د دې سره کار کولو لپاره درې Ab Initio ګرافونه وکاروو:

1) ګراف Create_test_data.mp - په HDFS کې د 10 قطارونو سره په 6 موازي تارونو کې د ډیټا فایلونه رامینځته کوي. ډاټا تصادفي ده، جوړښت یې زموږ په میز کې د ننوتلو لپاره تنظیم شوی

کله چې تاسو د Sber ترازو لرئ. د Hive او GreenPlum سره د Ab Initio کارول

کله چې تاسو د Sber ترازو لرئ. د Hive او GreenPlum سره د Ab Initio کارول

2) ګراف mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset – MDW په 10 موازي تارونو کې زموږ په میز کې د ډیټا داخلولو په پیل کولو سره رامینځته شوی ګراف (د ټیسټ ډیټا د ګراف لخوا رامینځته شوی (1) کارول کیږي)

کله چې تاسو د Sber ترازو لرئ. د Hive او GreenPlum سره د Ab Initio کارول

3) ګراف mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset – یو ګراف چې د MDW لخوا رامینځته شوی د 10 موازي تارونو کې زموږ د جدول زیاتیدونکي تازه کولو لپاره د تازه ترلاسه شوي ډیټا (ډیلټا) ګراف (1) لخوا رامینځته شوي برخې په کارولو سره.

کله چې تاسو د Sber ترازو لرئ. د Hive او GreenPlum سره د Ab Initio کارول

راځئ چې لاندې سکریپټ په NRT حالت کې چلوو:

  • 6 ټیسټ لینونه تولید کړئ
  • په خالي میز کې د 6 ازموینې قطارونو داخلولو ابتدايي بار ترسره کړئ
  • زیاتیدونکي ډاونلوډ 5 ځله تکرار کړئ
    • 6 ټیسټ لینونه تولید کړئ
    • په جدول کې د 6 ازموینې قطارونو زیاتیدونکي داخلول ترسره کړئ (په دې حالت کې، د اعتبار وړ_to_ts ختمیدو وخت زاړه ډیټا ته ټاکل شوی او نور وروستي معلومات د ورته لومړني کیلي سره داخل شوي)

دا سناریو د یو ځانګړي سوداګرۍ سیسټم د ریښتیني عملیاتو حالت تقلید کوي - د نوي ډیټا خورا لوی برخه په ریښتیني وخت کې څرګندیږي او سمدلاسه په ګرین پلم کې اچول کیږي.

اوس راځئ چې د سکریپټ لاګ وګورو:

په 2020-06-04 11:49:11 کې Create_test_data.input.pset پیل کړئ
په 2020-06-04 11:49:37 کې Create_test_data.input.pset بشپړ کړئ
mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset په 2020-06-04 11:49:37 پیل کړئ
mdw_load.day_one.current.dev42_1_db_usl_testing_subj_org_finval.pset په 2020-06-04 11:50:42 کې پای ته ورسوئ
په 2020-06-04 11:50:42 کې Create_test_data.input.pset پیل کړئ
په 2020-06-04 11:51:06 کې Create_test_data.input.pset بشپړ کړئ
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset په 2020-06-04 11:51:06 پیل کړئ
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset په 2020-06-04 11:53:41 کې پای ته ورسوئ
په 2020-06-04 11:53:41 کې Create_test_data.input.pset پیل کړئ
په 2020-06-04 11:54:04 کې Create_test_data.input.pset بشپړ کړئ
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset په 2020-06-04 11:54:04 پیل کړئ
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset په 2020-06-04 11:56:51 کې پای ته ورسوئ
په 2020-06-04 11:56:51 کې Create_test_data.input.pset پیل کړئ
په 2020-06-04 11:57:14 کې Create_test_data.input.pset بشپړ کړئ
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset په 2020-06-04 11:57:14 پیل کړئ
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset په 2020-06-04 11:59:55 کې پای ته ورسوئ
په 2020-06-04 11:59:55 کې Create_test_data.input.pset پیل کړئ
په 2020-06-04 12:00:23 کې Create_test_data.input.pset بشپړ کړئ
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset په 2020-06-04 12:00:23 پیل کړئ
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset په 2020-06-04 12:03:23 کې پای ته ورسوئ
په 2020-06-04 12:03:23 کې Create_test_data.input.pset پیل کړئ
په 2020-06-04 12:03:49 کې Create_test_data.input.pset بشپړ کړئ
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset په 2020-06-04 12:03:49 پیل کړئ
mdw_load.regular.current.dev42_1_db_usl_testing_subj_org_finval.pset په 2020-06-04 12:06:46 کې پای ته ورسوئ

له دې عکس څخه معلومیږي:

ګراف
د پيل وخت
د پای وخت
اوږدوالی

جوړول_test_data.input.pset
04.06.2020 11: 49: 11
04.06.2020 11: 49: 37
00:00:26

mdw_load.day_one.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 49: 37
04.06.2020 11: 50: 42
00:01:05

جوړول_test_data.input.pset
04.06.2020 11: 50: 42
04.06.2020 11: 51: 06
00:00:24

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 51: 06
04.06.2020 11: 53: 41
00:02:35

جوړول_test_data.input.pset
04.06.2020 11: 53: 41
04.06.2020 11: 54: 04
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 54: 04
04.06.2020 11: 56: 51
00:02:47

جوړول_test_data.input.pset
04.06.2020 11: 56: 51
04.06.2020 11: 57: 14
00:00:23

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 11: 57: 14
04.06.2020 11: 59: 55
00:02:41

جوړول_test_data.input.pset
04.06.2020 11: 59: 55
04.06.2020 12: 00: 23
00:00:28

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 00: 23
04.06.2020 12: 03: 23
00:03:00

جوړول_test_data.input.pset
04.06.2020 12: 03: 23
04.06.2020 12: 03: 49
00:00:26

mdw_load.regular.current.
dev42_1_db_usl_testing_subj_org_finval.pset
04.06.2020 12: 03: 49
04.06.2020 12: 06: 46
00:02:57

موږ ګورو چې د 6 زیاتوالي لاینونه په 000 دقیقو کې پروسس کیږي ، کوم چې خورا ګړندی دی.
په نښه شوي جدول کې معلومات په لاندې ډول ویشل شوي:

select valid_from_ts, valid_to_ts, count(1), min(sk), max(sk) from dev42_1_db_usl.TESTING_SUBJ_org_finval group by valid_from_ts, valid_to_ts order by 1,2;

کله چې تاسو د Sber ترازو لرئ. د Hive او GreenPlum سره د Ab Initio کارول
تاسو کولی شئ د ګرافونو په لاره اچولو وختونو کې د داخل شوي معلوماتو مطابقت وګورئ.
دا پدې مانا ده چې تاسو کولی شئ په ډیر لوړ فریکونسۍ سره په ګرین پلم کې د ډیټا زیاتیدونکي بار کول په خورا لوړ فریکونسۍ سره پرمخ وړئ او په ګرین پلم کې د دې ډیټا داخلولو لوړ سرعت وګورئ. البته، دا به امکان ونلري چې په ثانیه کې یو ځل پیل شي، ځکه چې Ab Initio، لکه د ETL وسیلې په څیر، د پیل کولو په وخت کې د "پیل کولو" لپاره وخت ته اړتیا لري.

پایلې

Ab Initio اوس مهال په سبربینک کې د یو متحد سیمانټیک ډیټا لیئر (ESS) جوړولو لپاره کارول کیږي. پدې پروژه کې د بیلابیلو بانکي سوداګریزو ادارو د دولت یو متحد نسخه جوړول شامل دي. معلومات د مختلفو سرچینو څخه راځي، نقلونه چې په هډوپ کې چمتو شوي دي. د سوداګرۍ اړتیاو پراساس ، د ډیټا ماډل چمتو شوی او د معلوماتو بدلونونه تشریح شوي. Ab Initio معلومات په ESN کې باروي او ډاونلوډ شوي ډاټا نه یوازې په خپل ځان کې د سوداګرۍ لپاره علاقه لري ، بلکه د ډیټا مارټونو جوړولو لپاره د سرچینې په توګه هم کار کوي. په ورته وخت کې ، د محصول فعالیت تاسو ته اجازه درکوي مختلف سیسټمونه د ریسیور په توګه وکاروئ (Hive, Greenplum, Teradata, Oracle) ، کوم چې دا امکان ورکوي چې په اسانۍ سره د سوداګرۍ لپاره مختلف فارمیټونو کې ډیټا چمتو کړي چې ورته اړتیا لري.

د Ab Initio وړتیاوې پراخې دي؛ د بیلګې په توګه، د MDW چوکاټ کې شامل شوي دا ممکنه کوي چې د بکس څخه بهر تخنیکي او سوداګریز تاریخي ډاټا جوړ کړي. د پراختیا کونکو لپاره، Ab Initio دا ممکنه کوي چې د څرخ بیا ایجاد نه کړي، مګر د ډیری موجوده فعال اجزاو کارولو لپاره، کوم چې د ډیټا سره کار کولو په وخت کې اړین کتابتونونه دي.

لیکوال د Sberbank SberProfi DWH/BigData مسلکي ټولنې کې کارپوه دی. د SberProfi DWH/BigData مسلکي ټولنه د هاډوپ ایکوسیستم، Teradata، Oracle DB، GreenPlum، او همدارنګه د BI اوزار Qlik، SAP BO، Tableau، او داسې نورو برخو کې د وړتیاوو د پراختیا مسولیت لري.

سرچینه: www.habr.com

Add a comment