Ogni operazione di big data richiede assai putenza di computing. Un muvimentu tipicu di dati da una basa di dati à Hadoop pò piglià settimane o custa quant'è l'ala di un aereo. Ùn vogliu micca aspittà è gastru soldi? Equilibrate a carica nantu à e diverse piattaforme. Un modu hè l'optimizazione pushdown.
Aghju dumandatu à u principale trainer di Russia per u sviluppu è l'amministrazione di i prudutti Informatica, Alexey Ananyev, per parlà di a funzione di ottimisazione pushdown in Informatica Big Data Management (BDM). Avete mai amparatu à travaglià cù i prudutti Informatica ? Hè assai prubabile, era Alexey chì vi hà dettu i principii di PowerCenter è spiegò cumu custruisce mappings.
Alexey Ananyev, capu di furmazione in DIS Group
Cosa hè pushdown?
Parechji di voi sò digià familiarizati cù Informatica Big Data Management (BDM). U pruduttu pò integrà big data da diverse fonti, spustà trà i diversi sistemi, furnisce un accessu faciule à questu, permette di prufilu, è assai di più.
In e mani dritte, BDM pò fà meraviglie: i travaglii seranu cumpletati rapidamente è cù risorse informatiche minime.
Vulete ancu cusì ? Amparate à utilizà a funzione pushdown in BDM per distribuisce a carica di l'informatica in diverse piattaforme. A tecnulugia Pushdown vi permette di trasfurmà a mappatura in un script è selezziunate l'ambiente in quale sta scrittura currirà. Sta scelta vi permette di cumminà i punti di forza di e diverse piattaforme è ottene u so rendimentu massimu.
Per cunfigurà l'ambiente di esecuzione di script, avete bisognu di selezziunà u tipu di pushdown. U script pò esse eseguitu interamente nantu à Hadoop o parzialmente distribuitu trà a fonte è u lavu. Ci sò 4 tippi di pushdown pussibuli. U mapping ùn deve esse trasfurmatu in un script (nativu). A mappatura pò esse realizata quant'è pussibule nantu à a fonte (fonte) o cumpletamente nantu à a fonte (piena). A mappatura pò ancu esse trasfurmata in un script Hadoop (nimu).
Ottimisazione pushdown
I tipi di 4 listati ponu esse cumminati in modi diffirenti - pushdown pò esse ottimizatu per i bisogni specifichi di u sistema. Per esempiu, hè spessu più apprupriatu per estrarre dati da una basa di dati utilizendu e so capacità. E i dati seranu cunvertiti cù Hadoop, per ùn sopraricà a basa di dati stessu.
Fighjemu u casu quandu sia a surgente è a destinazione sò in a basa di dati, è a piattaforma di esicuzzioni di trasfurmazioni pò esse selezziunata: sicondu i paràmetri, serà Informatica, un servitore di basa di dati, o Hadoop. Un tali esempiu vi permetterà di capisce u più precisamente u latu tecnicu di u funziunamentu di stu mecanismu. Naturalmente, in a vita reale, sta situazione ùn hè micca, ma hè megliu adattatu per dimustrà funziunalità.
Pigliemu a mappatura per leghje duie tavule in una sola basa di dati Oracle. È lasciate chì i risultati di lettura sò arregistrati in una tavula in a listessa basa di dati. U schema di mappatura serà cusì:
In a forma di mapping in Informatica BDM 10.2.1 pare cusì:
Tipu pushdown - nativu
Se selezziunà u tipu nativu pushdown, allura u mapping serà realizatu nantu à u servitore Informatica. I dati seranu leghje da u servitore Oracle, trasferitu à u servitore Informatica, trasfurmatu quì è trasferitu à Hadoop. In altri palori, averemu un prucessu ETL normale.
Tippu pushdown - fonte
Quandu sceglite u tipu di fonte, avemu l'uppurtunità di distribuisce u nostru prucessu trà u servitore di basa di dati (DB) è Hadoop. Quandu un prucessu hè eseguitu cù questu paràmetru, e dumande per ricuperà e dati da e tavule seranu mandate à a basa di dati. È u restu serà realizatu in forma di passi nantu à Hadoop.
U diagramma di l'esekzione sarà cusì:
Quì sottu hè un esempiu di cunfigurazione di l'ambiente di runtime.
In questu casu, a mappatura serà realizata in dui passi. In i so paràmetri vedemu chì hè diventatu in un script chì serà mandatu à a fonte. Inoltre, a cumminazione di e tabelle è a trasfurmazioni di dati seranu realizate in forma di una dumanda annullata nantu à a fonte.
In a stampa sottu, vedemu una mappatura ottimizzata nantu à u BDM, è una dumanda redefinita nantu à a fonte.
U rolu di Hadoop in questa cunfigurazione serà ridutta à gestisce u flussu di dati - orchestrazione. U risultatu di a dumanda serà mandatu à Hadoop. Una volta chì a lettura hè finita, u schedariu da Hadoop serà scrittu à u lavabo.
Tippu pushdown - pienu
Quandu selezziunate u tipu sanu, a mappatura diventerà completamente in una dumanda di basa di dati. È u risultatu di a dumanda serà mandatu à Hadoop. Un schema di un tali prucessu hè prisentatu quì sottu.
Un esempiu di stallazione hè mostratu quì sottu.
In u risultatu, averemu una mappatura ottimizzata simile à a precedente. A sola diferenza hè chì tutta a logica hè trasferita à u receptore in a forma di annullà a so inserzione. Un esempiu di mappatura ottimizzata hè presentata quì sottu.
Quì, cum'è in u casu precedente, Hadoop ghjucà u rolu di cunduttore. Ma quì a fonte hè leghje in a so sanu, è dopu a logica di trattamentu di dati hè realizatu à u livellu di u receptore.
U tipu di pushdown hè nulu
Ebbè, l'ultima opzione hè u tippu pushdown, in quale a nostra mappatura diventerà un script Hadoop.
A mappatura ottimizzata sarà avà cusì cusì:
Quì i dati da i fugliali surghjenti seranu prima letti nantu à Hadoop. Allora, cù i so propiu mezi, sti dui schedari seranu cumminati. Dopu questu, i dati seranu cunvertiti è caricati à a basa di dati.
Per capiscenu i principii di l'ottimisazione pushdown, pudete urganizà assai efficacemente assai prucessi per travaglià cù big data. Cusì, pocu pocu tempu, una grande sucietà, in pocu settimane, hà scaricatu big data da u almacenamentu in Hadoop, chì avia prima cullucatu per parechji anni.
Source: www.habr.com