Ինչպե՞ս տեղափոխել, վերբեռնել և ինտեգրել շատ մեծ տվյալներ էժան և արագ: Ինչ է pushdown օպտիմալացումը:

Մեծ տվյալների ցանկացած գործողություն պահանջում է մեծ հաշվողական հզորություն: Տվյալների տվյալների բազայից Hadoop տիպիկ տեղափոխումը կարող է տևել շաբաթներ կամ արժենալ այնքան, որքան ինքնաթիռի թևը: Չե՞ք ուզում սպասել և գումար ծախսել: Հավասարակշռեք բեռը տարբեր հարթակներում: Ճանապարհներից մեկը pushdown-ի օպտիմալացումն է:

Ես խնդրեցի Informatica-ի արտադրանքի մշակման և կառավարման Ռուսաստանի առաջատար դասընթացավար Ալեքսեյ Անանևին խոսել Informatica Big Data Management-ում (BDM) pushdown-ի օպտիմալացման գործառույթի մասին: Երբևէ սովորե՞լ եք աշխատել Informatica արտադրանքների հետ: Ամենայն հավանականությամբ, դա Ալեքսեյն էր, ով պատմեց ձեզ PowerCenter-ի հիմունքները և բացատրեց, թե ինչպես կարելի է կառուցել քարտեզներ:

Ալեքսեյ Անանև, DIS Group-ի թրեյնինգի ղեկավար

Ինչ է pushdown-ը:

Ձեզանից շատերն արդեն ծանոթ են Informatica Big Data Management-ին (BDM): Ապրանքը կարող է ինտեգրել մեծ տվյալներ տարբեր աղբյուրներից, տեղափոխել դրանք տարբեր համակարգերի միջև, ապահովում է հեշտ մուտք դեպի դրանք, թույլ է տալիս պրոֆիլավորել դրանք և շատ ավելին:
Ճիշտ ձեռքերում BDM-ը կարող է հրաշքներ գործել. առաջադրանքները կավարտվեն արագ և նվազագույն հաշվողական ռեսուրսներով:

Դուք էլ եք դա ուզում։ Սովորեք օգտագործել «pushdown» ֆունկցիան BDM-ում՝ հաշվարկային բեռը տարբեր հարթակներում բաշխելու համար: Pushdown տեխնոլոգիան թույլ է տալիս քարտեզագրումը վերածել սցենարի և ընտրել այն միջավայրը, որտեղ կաշխատի այս սցենարը: Այս ընտրությունը թույլ է տալիս համատեղել տարբեր հարթակների ուժեղ կողմերը և հասնել դրանց առավելագույն կատարողականությանը:

Սցենարների կատարման միջավայրը կարգավորելու համար հարկավոր է ընտրել pushdown տեսակը: Սցենարը կարող է ամբողջությամբ գործարկվել Hadoop-ով կամ մասամբ բաշխվել աղբյուրի և լվացարանի միջև: Գոյություն ունեն 4 հնարավոր սեղմման տեսակներ. Քարտեզագրումը չպետք է վերածվի սցենարի (հայրենի): Քարտեզագրումը կարող է իրականացվել որքան հնարավոր է աղբյուրի (աղբյուր) կամ ամբողջությամբ աղբյուրի վրա (լրիվ): Քարտեզագրումը կարող է նաև վերածվել Hadoop սցենարի (ոչ մեկը):

Pushdown-ի օպտիմալացում

Թվարկված 4 տեսակները կարող են համակցվել տարբեր ձևերով. pushdown-ը կարող է օպտիմիզացվել համակարգի հատուկ կարիքների համար: Օրինակ, հաճախ ավելի նպատակահարմար է տվյալների բազայից հանել տվյալները՝ օգտագործելով իր սեփական հնարավորությունները: Եվ տվյալները կվերափոխվեն Hadoop-ի միջոցով, որպեսզի չծանրաբեռնվի հենց տվյալների բազան։

Դիտարկենք այն դեպքը, երբ և՛ աղբյուրը, և՛ նպատակակետը գտնվում են տվյալների բազայում, և կարելի է ընտրել տրանսֆորմացիայի կատարման հարթակը. կախված կարգավորումներից՝ դա կլինի Informatica, տվյալների բազայի սերվեր կամ Hadoop։ Նման օրինակը թույլ կտա առավել ճշգրիտ հասկանալ այս մեխանիզմի շահագործման տեխնիկական կողմը: Բնականաբար, իրական կյանքում այս իրավիճակը չի առաջանում, բայց այն լավագույնս հարմար է ֆունկցիոնալությունը ցուցադրելու համար:

Եկեք քարտեզագրենք մեկ Oracle տվյալների բազայում երկու աղյուսակ կարդալու համար: Եվ թող ընթերցման արդյունքները գրանցվեն նույն տվյալների բազայի աղյուսակում: Քարտեզագրման սխեման այսպիսին կլինի.

Ինչպե՞ս տեղափոխել, վերբեռնել և ինտեգրել շատ մեծ տվյալներ էժան և արագ: Ինչ է pushdown օպտիմալացումը:

Informatica BDM 10.2.1-ում քարտեզագրման տեսքով այն ունի հետևյալ տեսքը.

Ինչպե՞ս տեղափոխել, վերբեռնել և ինտեգրել շատ մեծ տվյալներ էժան և արագ: Ինչ է pushdown օպտիմալացումը:

Pushdown տեսակ – բնիկ

Եթե ​​ընտրենք pushdown native տեսակը, ապա քարտեզագրումը կկատարվի Informatica սերվերում։ Տվյալները կկարդացվեն Oracle սերվերից, կփոխանցվեն Informatica սերվերին, կվերափոխվեն այնտեղ և կփոխանցվեն Hadoop-ին: Այսինքն՝ մենք կստանանք նորմալ ETL գործընթաց։

Pushdown տեսակ – աղբյուր

Աղբյուրի տեսակն ընտրելիս մենք հնարավորություն ենք ստանում մեր գործընթացը բաշխել տվյալների բազայի սերվերի (DB) և Hadoop-ի միջև: Երբ գործընթացն իրականացվում է այս պարամետրով, աղյուսակներից տվյալներ ստանալու հարցումները կուղարկվեն տվյալների բազա: Իսկ մնացածը կկատարվի Hadoop-ի վրա քայլերի տեսքով։
Կատարման դիագրամը կունենա հետևյալ տեսքը.

Ինչպե՞ս տեղափոխել, վերբեռնել և ինտեգրել շատ մեծ տվյալներ էժան և արագ: Ինչ է pushdown օպտիմալացումը:

Ստորև բերված է գործարկման ժամանակի միջավայրը կարգավորելու օրինակ:

Ինչպե՞ս տեղափոխել, վերբեռնել և ինտեգրել շատ մեծ տվյալներ էժան և արագ: Ինչ է pushdown օպտիմալացումը:

Այս դեպքում քարտեզագրումը կիրականացվի երկու քայլով. Նրա կարգավորումներում մենք կտեսնենք, որ այն վերածվել է սցենարի, որը կուղարկվի աղբյուրին։ Ավելին, աղյուսակների համակցումը և տվյալների վերափոխումը կիրականացվի աղբյուրի վրա վերագրված հարցման տեսքով:
Ստորև բերված նկարում մենք տեսնում ենք օպտիմիզացված քարտեզագրում BDM-ում և վերասահմանված հարցում աղբյուրի վրա:

Ինչպե՞ս տեղափոխել, վերբեռնել և ինտեգրել շատ մեծ տվյալներ էժան և արագ: Ինչ է pushdown օպտիմալացումը:

Hadoop-ի դերն այս կոնֆիգուրացիայի մեջ կնվազեցվի տվյալների հոսքը կառավարելուն՝ դրանք կազմակերպելուն: Հարցման արդյունքը կուղարկվի Hadoop-ին: Ընթերցանությունն ավարտվելուց հետո Hadoop-ի ֆայլը կգրվի լվացարանին:

Pushdown տեսակ – լրիվ

Երբ ընտրեք ամբողջական տեսակը, քարտեզագրումն ամբողջությամբ կվերածվի տվյալների բազայի հարցման: Իսկ հարցման արդյունքը կուղարկվի Hadoop-ին։ Նման գործընթացի դիագրամը ներկայացված է ստորև:

Ինչպե՞ս տեղափոխել, վերբեռնել և ինտեգրել շատ մեծ տվյալներ էժան և արագ: Ինչ է pushdown օպտիմալացումը:

Կարգավորման օրինակը ներկայացված է ստորև:

Ինչպե՞ս տեղափոխել, վերբեռնել և ինտեգրել շատ մեծ տվյալներ էժան և արագ: Ինչ է pushdown օպտիմալացումը:

Արդյունքում մենք կստանանք նախորդի նման օպտիմիզացված քարտեզագրում։ Միակ տարբերությունն այն է, որ ողջ տրամաբանությունը փոխանցվում է ստացողին՝ դրա ներդրման գերակայության տեսքով։ Ստորև ներկայացված է օպտիմիզացված քարտեզագրման օրինակ:

Ինչպե՞ս տեղափոխել, վերբեռնել և ինտեգրել շատ մեծ տվյալներ էժան և արագ: Ինչ է pushdown օպտիմալացումը:

Այստեղ, ինչպես նախորդ դեպքում, Հադուփը խաղում է դիրիժորի դերը։ Բայց այստեղ աղբյուրն ամբողջությամբ կարդացվում է, իսկ հետո տվյալների մշակման տրամաբանությունը կատարվում է ստացողի մակարդակով։

Pushdown տեսակը զրոյական է

Դե, վերջին տարբերակը pushdown տեսակն է, որի շրջանակներում մեր քարտեզագրումը կվերածվի Hadoop սցենարի։

Օպտիմիզացված քարտեզագրումն այժմ կունենա հետևյալ տեսքը.

Ինչպե՞ս տեղափոխել, վերբեռնել և ինտեգրել շատ մեծ տվյալներ էժան և արագ: Ինչ է pushdown օպտիմալացումը:

Այստեղ սկզբնաղբյուր ֆայլերի տվյալները նախ կկարդան Hadoop-ում: Այնուհետեւ, օգտագործելով իր միջոցները, այս երկու ֆայլերը կմիավորվեն: Դրանից հետո տվյալները կվերափոխվեն և կբեռնվեն տվյալների բազա:

Հասկանալով pushdown-ի օպտիմալացման սկզբունքները, դուք կարող եք շատ արդյունավետ կերպով կազմակերպել մեծ տվյալների հետ աշխատելու բազմաթիվ գործընթացներ: Այսպիսով, բոլորովին վերջերս, մեկ խոշոր ընկերություն ընդամենը մի քանի շաբաթվա ընթացքում պահեստից մեծ տվյալներ ներբեռնեց Hadoop-ում, որը նախկինում հավաքել էր մի քանի տարի շարունակ:

Source: www.habr.com

Добавить комментарий