Jinsi ya kusonga, kupakia na kuunganisha data kubwa sana kwa bei nafuu na haraka? Uboreshaji wa kusukuma chini ni nini?

Uendeshaji wowote mkubwa wa data unahitaji nguvu nyingi za kompyuta. Uhamisho wa kawaida wa data kutoka kwa hifadhidata hadi Hadoop unaweza kuchukua wiki au kugharimu kama bawa la ndege. Hutaki kusubiri na kutumia pesa? Sawazisha mzigo kwenye majukwaa tofauti. Njia moja ni uboreshaji wa kusukuma chini.

Nilimwomba mkufunzi mkuu wa Urusi kwa ajili ya ukuzaji na usimamizi wa bidhaa za Informatica, Alexey Ananyev, azungumzie kazi ya uboreshaji wa kushuka chini katika Usimamizi wa Data Kubwa ya Informatica (BDM). Umewahi kujifunza kufanya kazi na bidhaa za Informatica? Uwezekano mkubwa zaidi, ni Alexey ambaye alikuambia misingi ya PowerCenter na akaelezea jinsi ya kujenga ramani.

Alexey Ananyev, mkuu wa mafunzo katika DIS Group

Kusukuma chini ni nini?

Wengi wenu tayari mnaifahamu Informatica Big Data Management (BDM). Bidhaa inaweza kuunganisha data kubwa kutoka kwa vyanzo tofauti, kuisogeza kati ya mifumo tofauti, kutoa ufikiaji rahisi kwake, hukuruhusu kuiweka wasifu, na mengi zaidi.
Katika mikono ya kulia, BDM inaweza kufanya maajabu: kazi zitakamilishwa haraka na kwa rasilimali ndogo za kompyuta.

Je! unataka hiyo pia? Jifunze kutumia kipengele cha kusukuma chini katika BDM ili kusambaza mzigo wa kompyuta kwenye mifumo mbalimbali. Teknolojia ya Pushdown hukuruhusu kugeuza ramani kuwa hati na kuchagua mazingira ambayo hati hii itaendeshwa. Chaguo hili hukuruhusu kuchanganya nguvu za majukwaa tofauti na kufikia utendaji wao wa juu.

Ili kusanidi mazingira ya utekelezaji wa hati, unahitaji kuchagua aina ya kusukuma chini. Hati inaweza kuendeshwa kabisa kwenye Hadoop au kusambazwa kwa kiasi kati ya chanzo na kuzama. Kuna aina 4 zinazowezekana za kusukuma chini. Uchoraji ramani hauhitaji kugeuzwa kuwa hati (asili). Uchoraji wa ramani unaweza kufanywa kadri inavyowezekana kwenye chanzo (chanzo) au kabisa kwenye chanzo (kimejaa). Kuchora ramani pia kunaweza kugeuzwa kuwa hati ya Hadoop (hakuna).

Uboreshaji wa kusukuma chini

Aina 4 zilizoorodheshwa zinaweza kuunganishwa kwa njia tofauti - kusukuma chini kunaweza kuboreshwa kwa mahitaji maalum ya mfumo. Kwa mfano, mara nyingi inafaa zaidi kutoa data kutoka kwa hifadhidata kwa kutumia uwezo wake. Na data itabadilishwa kwa kutumia Hadoop, ili usipakie hifadhidata yenyewe.

Wacha tuzingatie kesi wakati chanzo na lengwa ziko kwenye hifadhidata, na jukwaa la utekelezaji wa mabadiliko linaweza kuchaguliwa: kulingana na mipangilio, itakuwa Informatica, seva ya hifadhidata, au Hadoop. Mfano kama huo utakuruhusu kuelewa kwa usahihi zaidi upande wa kiufundi wa uendeshaji wa utaratibu huu. Kwa kawaida, katika maisha halisi, hali hii haitoke, lakini inafaa zaidi kwa kuonyesha utendaji.

Hebu tuchukue ramani ili kusoma majedwali mawili katika hifadhidata moja ya Oracle. Na acha matokeo ya usomaji yarekodiwe kwenye jedwali katika hifadhidata sawa. Mpango wa ramani utakuwa kama hii:

Jinsi ya kusonga, kupakia na kuunganisha data kubwa sana kwa bei nafuu na haraka? Uboreshaji wa kusukuma chini ni nini?

Katika muundo wa ramani kwenye Informatica BDM 10.2.1 inaonekana kama hii:

Jinsi ya kusonga, kupakia na kuunganisha data kubwa sana kwa bei nafuu na haraka? Uboreshaji wa kusukuma chini ni nini?

Aina ya kusukuma chini - asili

Ikiwa tutachagua aina ya asili ya kusukuma, basi uchoraji wa ramani utafanywa kwenye seva ya Informatica. Data itasomwa kutoka kwa seva ya Oracle, kuhamishiwa kwa seva ya Informatica, kubadilishwa hapo na kuhamishiwa kwa Hadoop. Kwa maneno mengine, tutapata mchakato wa kawaida wa ETL.

Aina ya kusukuma - chanzo

Wakati wa kuchagua aina ya chanzo, tunapata fursa ya kusambaza mchakato wetu kati ya seva ya hifadhidata (DB) na Hadoop. Mchakato unapotekelezwa kwa mpangilio huu, maombi ya kurejesha data kutoka kwa majedwali yatatumwa kwenye hifadhidata. Na iliyobaki itafanywa kwa namna ya hatua kwenye Hadoop.
Mchoro wa utekelezaji utaonekana kama hii:

Jinsi ya kusonga, kupakia na kuunganisha data kubwa sana kwa bei nafuu na haraka? Uboreshaji wa kusukuma chini ni nini?

Chini ni mfano wa kuweka mazingira ya wakati wa kukimbia.

Jinsi ya kusonga, kupakia na kuunganisha data kubwa sana kwa bei nafuu na haraka? Uboreshaji wa kusukuma chini ni nini?

Katika kesi hii, uchoraji wa ramani utafanywa kwa hatua mbili. Katika mipangilio yake tutaona kwamba imegeuka kuwa hati ambayo itatumwa kwa chanzo. Zaidi ya hayo, kuchanganya majedwali na kubadilisha data kutafanywa katika mfumo wa hoja iliyobatilishwa kwenye chanzo.
Katika picha iliyo hapa chini, tunaona ramani iliyoboreshwa kwenye BDM, na hoja iliyofafanuliwa upya kwenye chanzo.

Jinsi ya kusonga, kupakia na kuunganisha data kubwa sana kwa bei nafuu na haraka? Uboreshaji wa kusukuma chini ni nini?

Jukumu la Hadoop katika usanidi huu litapunguzwa ili kudhibiti mtiririko wa data - kuipanga. Matokeo ya hoja yatatumwa kwa Hadoop. Mara baada ya kusoma kukamilika, faili kutoka Hadoop itaandikwa kwenye kuzama.

Aina ya kusukuma - imejaa

Unapochagua aina kamili, uchoraji wa ramani utageuka kabisa kuwa swali la hifadhidata. Na matokeo ya ombi yatatumwa kwa Hadoop. Mchoro wa mchakato kama huo umewasilishwa hapa chini.

Jinsi ya kusonga, kupakia na kuunganisha data kubwa sana kwa bei nafuu na haraka? Uboreshaji wa kusukuma chini ni nini?

Mpangilio wa mfano umeonyeshwa hapa chini.

Jinsi ya kusonga, kupakia na kuunganisha data kubwa sana kwa bei nafuu na haraka? Uboreshaji wa kusukuma chini ni nini?

Kwa hivyo, tutapata ramani iliyoboreshwa sawa na ile ya awali. Tofauti pekee ni kwamba mantiki yote huhamishiwa kwa mpokeaji kwa namna ya kupindua uingizaji wake. Mfano wa ramani iliyoboreshwa imewasilishwa hapa chini.

Jinsi ya kusonga, kupakia na kuunganisha data kubwa sana kwa bei nafuu na haraka? Uboreshaji wa kusukuma chini ni nini?

Hapa, kama katika kesi iliyopita, Hadoop ina jukumu la kondakta. Lakini hapa chanzo kinasomwa kwa ukamilifu, na kisha mantiki ya usindikaji wa data inafanywa kwa kiwango cha mpokeaji.

Aina ya kusukuma ni batili

Naam, chaguo la mwisho ni aina ya kusukuma chini, ambayo ramani yetu itageuka kuwa hati ya Hadoop.

Uchoraji wa ramani ulioboreshwa sasa utaonekana kama hii:

Jinsi ya kusonga, kupakia na kuunganisha data kubwa sana kwa bei nafuu na haraka? Uboreshaji wa kusukuma chini ni nini?

Hapa data kutoka kwa faili za chanzo itasomwa kwanza kwenye Hadoop. Kisha, kwa kutumia njia zake mwenyewe, faili hizi mbili zitaunganishwa. Baada ya hayo, data itabadilishwa na kupakiwa kwenye hifadhidata.

Kwa kuelewa kanuni za uboreshaji wa kusukuma chini, unaweza kupanga kwa ufanisi michakato mingi ya kufanya kazi na data kubwa. Kwa hivyo, hivi majuzi, kampuni moja kubwa, katika wiki chache tu, ilipakua data kubwa kutoka kwa uhifadhi hadi Hadoop, ambayo hapo awali ilikuwa imekusanya kwa miaka kadhaa.

Chanzo: mapenzi.com

Kuongeza maoni