Nola mugitu, igo eta integratu oso datu handiak merke eta azkar? Zer da pushdown optimizazioa?

Big data edozein eragiketak konputazio ahalmen handia eskatzen du. Datu-base batetik Hadoopera datu-mugimendu arruntak asteak iraun ditzake edo hegazkinaren hegal batek bezainbeste kosta daiteke. Ez al duzu itxaron eta dirua gastatu nahi? Orekatu karga plataforma desberdinetan. Modu bat pushdown optimizazioa da.

Informatica produktuen garapen eta administraziorako Errusiako prestatzaile nagusiari, Alexey Ananyev, Informatica Big Data Management (BDM) pushdown optimizazio funtzioari buruz hitz egiteko eskatu nion. Ikasi al duzu inoiz Informatica produktuekin lan egiten? Seguruenik, Alexey izan zen PowerCenterren oinarriak kontatu zizun eta mapak nola eraiki azaldu zizun.

Alexey Ananyev, DIS Taldeko prestakuntza-burua

Zer da pushdown?

Zuetako askok dagoeneko ezagutzen duzu Informatica Big Data Management (BDM). Produktuak iturri ezberdinetako datu handiak integra ditzake, sistema ezberdinen artean mugitu, sarbide erraza eskaintzen du, profila egiteko aukera ematen dizu eta askoz gehiago.
Esku egokietan, BDM-k mirariak egin ditzake: zereginak azkar eta gutxieneko baliabide informatikoekin burutuko dira.

Zuk ere hori nahi duzu? Ikasi BDM-ko pushdown funtzioa erabiltzen informatika-karga plataforma desberdinetan banatzeko. Pushdown teknologiari esker, mapak script batean bihur ditzakezu eta script hau abiaraziko den ingurunea hauta dezakezu. Aukera honek plataforma ezberdinen indarrak konbinatzeko eta haien errendimendu maximoa lortzeko aukera ematen du.

Script exekutatzeko ingurunea konfiguratzeko, pushdown mota hautatu behar duzu. Scripta Hadoop-en guztiz exekutatu daiteke edo partzialki iturburuaren eta konketa artean banatu daiteke. 4 pushdown mota posible daude. Kartografiak ez du zertan gidoi batean bihurtu (jatorrizkoa). Mapeatzea iturrian (iturburuan) edo guztiz iturburuan (osoa) egin daiteke. Mapak Hadoop script batean ere bihur daitezke (bat ere ez).

Pushdown optimizazioa

Zerrendatutako 4 motak modu ezberdinetan konbina daitezke - pushdown sistemaren behar zehatzetarako optimizatu daiteke. Adibidez, sarritan egokiagoa da datu-base batetik datuak bere gaitasunak erabiliz ateratzea. Eta datuak Hadoop erabiliz bihurtuko dira, datu-basea bera ez gainkargatzeko.

Demagun kasua, iturria eta helmuga datu-basean daudenean, eta eraldaketa exekutatzeko plataforma hauta daitekeenean: ezarpenen arabera, Informatica, datu base-zerbitzari bat edo Hadoop izango da. Adibide horrek mekanismo honen funtzionamenduaren alde teknikoa zehatzen ulertzeko aukera emango dizu. Jakina, bizitza errealean, egoera hau ez da sortzen, baina funtzionaltasuna erakusteko egokiena da.

Har dezagun mapak Oracle datu-base bakarreko bi taula irakurtzeko. Eta irakurketaren emaitzak datu-base bereko taula batean erregistratu daitezen. Kartografia-eskema hau izango da:

Nola mugitu, igo eta integratu oso datu handiak merke eta azkar? Zer da pushdown optimizazioa?

Informatica BDM 10.2.1-en mapeo moduan honelakoa da:

Nola mugitu, igo eta integratu oso datu handiak merke eta azkar? Zer da pushdown optimizazioa?

Pushdown mota - jatorrizkoa

Pushdown jatorrizko mota hautatzen badugu, mapea Informatica zerbitzarian egingo da. Datuak Oracle zerbitzaritik irakurriko dira, Informatica zerbitzarira transferituko dira, bertan eraldatu eta Hadoopera transferituko dira. Beste era batera esanda, ETL prozesu normal bat lortuko dugu.

Pushdown mota - iturria

Iturburu mota aukeratzerakoan, gure prozesua datu-base zerbitzariaren (DB) eta Hadoop-en artean banatzeko aukera dugu. Ezarpen honekin prozesu bat exekutatzen denean, tauletako datuak berreskuratzeko eskaerak datu-basera bidaliko dira. Eta gainerakoa Hadoop-en pauso moduan egingo da.
Exekuzio-diagrama honela izango da:

Nola mugitu, igo eta integratu oso datu handiak merke eta azkar? Zer da pushdown optimizazioa?

Jarraian, exekuzio-ingurunea konfiguratzeko adibide bat dago.

Nola mugitu, igo eta integratu oso datu handiak merke eta azkar? Zer da pushdown optimizazioa?

Kasu honetan, mapak bi urratsetan egingo dira. Bere ezarpenetan ikusiko dugu iturburura bidaliko den script bat bihurtu dela. Gainera, taulak konbinatzea eta datuak eraldatzea iturrian gainidatzitako kontsulta baten moduan egingo da.
Beheko irudian, BDM-n mapa optimizatua eta iturrian birdefinitutako kontsulta bat ikusten dugu.

Nola mugitu, igo eta integratu oso datu handiak merke eta azkar? Zer da pushdown optimizazioa?

Konfigurazio honetan Hadoop-en eginkizuna datu-fluxua kudeatzera murriztuko da - orkestratzera. Kontsultaren emaitza Hadoop-era bidaliko da. Irakurketa amaitutakoan, Hadoop-en fitxategia konketara idatziko da.

Pushdown mota - osoa

Mota osoa hautatzen duzunean, mapak datu-basearen kontsulta bihurtuko dira erabat. Eta eskaeraren emaitza Hadoop-era bidaliko da. Horrelako prozesu baten diagrama bat aurkezten da jarraian.

Nola mugitu, igo eta integratu oso datu handiak merke eta azkar? Zer da pushdown optimizazioa?

Behean konfigurazio adibide bat erakusten da.

Nola mugitu, igo eta integratu oso datu handiak merke eta azkar? Zer da pushdown optimizazioa?

Ondorioz, aurrekoaren antzeko mapa optimizatu bat lortuko dugu. Desberdintasun bakarra da logika guztia hargailura transferitzen dela bere txertaketa gainidazteko moduan. Jarraian mapa optimizatuaren adibide bat aurkezten da.

Nola mugitu, igo eta integratu oso datu handiak merke eta azkar? Zer da pushdown optimizazioa?

Hemen, aurreko kasuan bezala, Hadoopek zuzendariaren papera betetzen du. Baina hemen iturria bere osotasunean irakurtzen da, eta gero datuak prozesatzeko logika hartzailearen mailan egiten da.

Pushdown mota nulua da

Beno, azken aukera pushdown mota da, eta horren barruan gure mapa Hadoop script bihurtuko da.

Mapa optimizatuak honela izango du orain:

Nola mugitu, igo eta integratu oso datu handiak merke eta azkar? Zer da pushdown optimizazioa?

Hemen iturburu-fitxategietako datuak Hadoop-en irakurriko dira lehenik. Ondoren, bere bitartekoak erabiliz, bi fitxategi hauek batuko dira. Horren ondoren, datuak bihurtu eta datu-basera igoko dira.

Pushdown optimizazioaren printzipioak ulertuta, datu handiak lantzeko prozesu asko modu eraginkorrean antola ditzakezu. Horrela, duela gutxi, enpresa handi batek, aste gutxiren buruan, biltegiratzetik datu handiak deskargatu zituen Hadoop-era, aurretik hainbat urtez bildu zituenak.

Iturria: www.habr.com

Gehitu iruzkin berria