Kiel movi, alŝuti kaj integri tre grandajn datumojn malmultekoste kaj rapide? Kio estas pushdown-optimumigo?

Ajna operacio de grandaj datumoj postulas multe da komputika potenco. Tipa movo de datumoj de datumbazo al Hadoop povas daŭri semajnojn aŭ kosti tiom multe kiom aviadila flugilo. Ĉu vi ne volas atendi kaj elspezi monon? Ekvilibro la ŝarĝo tra malsamaj platformoj. Unu maniero estas pushdown-optimumigo.

Mi petis la gvidan trejniston de Rusio por la disvolviĝo kaj administrado de Informatica produktoj, Alexey Ananyev, paroli pri la pushdown-optimumiga funkcio en Informatica Big Data Management (BDM). Ĉu vi iam lernis labori kun Informatica-produktoj? Plej verŝajne, estis Alexey, kiu rakontis al vi la bazojn de PowerCenter kaj klarigis kiel konstrui mapadojn.

Alexey Ananyev, estro de trejnado ĉe DIS Group

Kio estas pushdown?

Multaj el vi jam konas Informatica Big Data Management (BDM). La produkto povas integri grandajn datumojn de malsamaj fontoj, movi ĝin inter malsamaj sistemoj, havigas facilan aliron al ĝi, permesas vin profili ĝin, kaj multe pli.
En la ĝustaj manoj, BDM povas fari mirindaĵojn: taskoj estos plenumitaj rapide kaj kun minimumaj komputikaj rimedoj.

Ĉu ankaŭ vi volas tion? Lernu uzi la pushdown-funkcion en BDM por distribui la komputilan ŝarĝon tra malsamaj platformoj. Pushdown-teknologio permesas al vi turni mapadon en skripton kaj elekti la medion en kiu ĉi tiu skripto ruliĝos. Ĉi tiu elekto permesas vin kombini la fortojn de malsamaj platformoj kaj atingi ilian maksimuman rendimenton.

Por agordi la skripton ekzekutmedion, vi devas elekti la pushdown tipo. La skripto povas esti rulita tute sur Hadoop aŭ parte distribuita inter la fonto kaj lavujo. Estas 4 eblaj pushdown tipoj. Mapado ne bezonas esti igita skripto (denaska). Mapado povas esti farita kiel eble plej multe sur la fonto (fonto) aŭ tute sur la fonto (plena). Mapado ankaŭ povas esti igita Hadoop-skripto (neniu).

Pushdown optimumigo

La listigitaj 4 tipoj povas esti kombinitaj en malsamaj manieroj - pushdown povas esti optimumigita por la specifaj bezonoj de la sistemo. Ekzemple, estas ofte pli konvene ĉerpi datumojn de datumbazo uzante siajn proprajn kapablojn. Kaj la datumoj estos konvertitaj per Hadoop, por ne superŝarĝi la datumbazon mem.

Ni konsideru la kazon, kiam kaj la fonto kaj la celloko estas en la datumbazo, kaj la transforma ekzekutplatformo povas esti elektita: depende de la agordoj, ĝi estos Informatica, datumbaza servilo aŭ Hadoop. Tia ekzemplo permesos al vi plej precize kompreni la teknikan flankon de la funkciado de ĉi tiu mekanismo. Nature, en la reala vivo, ĉi tiu situacio ne aperas, sed ĝi plej taŭgas por pruvi funkciecon.

Ni prenu mapadon por legi du tabelojn en ununura Oracle-datumbazo. Kaj lasu la legrezultojn registriĝi en tabelo en la sama datumbazo. La mapa skemo estos tia:

Kiel movi, alŝuti kaj integri tre grandajn datumojn malmultekoste kaj rapide? Kio estas pushdown-optimumigo?

En la formo de mapado sur Informatica BDM 10.2.1 ĝi aspektas jene:

Kiel movi, alŝuti kaj integri tre grandajn datumojn malmultekoste kaj rapide? Kio estas pushdown-optimumigo?

Pushdown tipo - indiĝena

Se ni elektas la denaskan tipon de pushdown, tiam la mapado estos farita sur la Servilo Informatica. La datumoj estos legitaj de la Oracle-servilo, transdonitaj al la Informatica-servilo, transformitaj tie kaj transdonitaj al Hadoop. Alivorte, ni ricevos normalan ETL-procezon.

Pushdown tipo - fonto

Elektinte la fontan tipon, ni havas la ŝancon distribui nian procezon inter la datumbaza servilo (DB) kaj Hadoop. Kiam procezo estas efektivigita kun ĉi tiu agordo, petoj por preni datumojn de tabeloj estos senditaj al la datumbazo. Kaj la resto estos farita en formo de paŝoj sur Hadoop.
La ekzekutdiagramo aspektos jene:

Kiel movi, alŝuti kaj integri tre grandajn datumojn malmultekoste kaj rapide? Kio estas pushdown-optimumigo?

Malsupre estas ekzemplo de agordo de la rultempa medio.

Kiel movi, alŝuti kaj integri tre grandajn datumojn malmultekoste kaj rapide? Kio estas pushdown-optimumigo?

En ĉi tiu kazo, mapado estos farita en du paŝoj. En ĝiaj agordoj ni vidos, ke ĝi fariĝis skripto, kiu estos sendita al la fonto. Plie, kombini tabelojn kaj transformi datumojn estos faritaj en la formo de anstataŭita demando sur la fonto.
En la suba bildo, ni vidas optimumigitan mapadon sur la BDM, kaj redifinitan demandon pri la fonto.

Kiel movi, alŝuti kaj integri tre grandajn datumojn malmultekoste kaj rapide? Kio estas pushdown-optimumigo?

La rolo de Hadoop en ĉi tiu agordo estos reduktita al administri la fluon de datumoj - reĝisori ĝin. La rezulto de la demando estos sendita al Hadoop. Post kiam la legado estas kompletigita, la dosiero de Hadoop estos skribita al la lavujo.

Pushdown tipo - plena

Kiam vi elektas la plenan tipon, mapado tute transformiĝos en datumbazan demandon. Kaj la rezulto de la peto estos sendita al Hadoop. Diagramo de tia procezo estas prezentita sube.

Kiel movi, alŝuti kaj integri tre grandajn datumojn malmultekoste kaj rapide? Kio estas pushdown-optimumigo?

Ekzempla aranĝo estas montrita sube.

Kiel movi, alŝuti kaj integri tre grandajn datumojn malmultekoste kaj rapide? Kio estas pushdown-optimumigo?

Kiel rezulto, ni ricevos optimumigitan mapadon similan al la antaŭa. La nura diferenco estas, ke la tuta logiko estas transdonita al la ricevilo en la formo de superregado de ĝia enmeto. Ekzemplo de optimumigita mapado estas prezentita malsupre.

Kiel movi, alŝuti kaj integri tre grandajn datumojn malmultekoste kaj rapide? Kio estas pushdown-optimumigo?

Ĉi tie, kiel en la antaŭa kazo, Hadoop ludas la rolon de direktisto. Sed ĉi tie la fonto estas legita en ĝia tuteco, kaj tiam la datuma prilabora logiko estas farita ĉe la ricevilo-nivelo.

Pushdown-tipo estas nula

Nu, la lasta opcio estas la pushdown-tipo, ene de kiu nia mapado iĝos Hadoop-skripto.

La optimumigita mapado nun aspektos jene:

Kiel movi, alŝuti kaj integri tre grandajn datumojn malmultekoste kaj rapide? Kio estas pushdown-optimumigo?

Ĉi tie la datumoj de la fontdosieroj unue estos legitaj sur Hadoop. Tiam, uzante siajn proprajn rimedojn, ĉi tiuj du dosieroj estos kombinitaj. Post ĉi tio, la datumoj estos konvertitaj kaj alŝutitaj al la datumbazo.

Komprenante la principojn de pushdown-optimumigo, vi povas tre efike organizi multajn procezojn por labori kun grandaj datumoj. Tiel, sufiĉe lastatempe, unu granda kompanio, en nur kelkaj semajnoj, elŝutis grandajn datumojn de stokado en Hadoop, kiujn ĝi antaŭe kolektis dum pluraj jaroj.

fonto: www.habr.com

Aldoni komenton