๋ชจ๋ ๋น ๋ฐ์ดํฐ ์์ ์๋ ๋ง์ ์ปดํจํ ์ฑ๋ฅ์ด ํ์ํฉ๋๋ค. ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ Hadoop์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ด๋ํ๋ ์ผ๋ฐ์ ์ธ ์์ ์๋ ๋ช ์ฃผ๊ฐ ๊ฑธ๋ฆฌ๊ฑฐ๋ ๋นํ๊ธฐ ๋ ๊ฐ๋งํผ ๋ง์ ๋น์ฉ์ด ์์๋ ์ ์์ต๋๋ค. ๊ธฐ๋ค๋ฆฌ๋ฉด์ ๋์ ์ฐ๊ณ ์ถ์ง ์์ผ์ ๊ฐ์? ๋ค์ํ ํ๋ซํผ ๊ฐ์ ๋ก๋ ๊ท ํ์ ์กฐ์ ํฉ๋๋ค. ํ ๊ฐ์ง ๋ฐฉ๋ฒ์ ํธ์๋ค์ด ์ต์ ํ์ ๋๋ค.
Informatica ์ ํ ๊ฐ๋ฐ ๋ฐ ๊ด๋ฆฌ ๋ถ์ผ์ ๋ฌ์์ ์ต๊ณ ์ ๊ฐ์ฌ์ธ Alexey Ananyev์๊ฒ BDM(Informatica Big Data Management)์ ํธ์๋ค์ด ์ต์ ํ ๊ธฐ๋ฅ์ ๋ํด ์ด์ผ๊ธฐํด ๋ฌ๋ผ๊ณ ์์ฒญํ์ต๋๋ค. Informatica ์ ํ ์์ ๋ฐฉ๋ฒ์ ๋ฐฐ์ด ์ ์ด ์์ต๋๊น? ์๋ง๋ PowerCenter์ ๊ธฐ๋ณธ ์ฌํญ์ ์ค๋ช ํ๊ณ ๋งคํ ์์ฑ ๋ฐฉ๋ฒ์ ์ค๋ช ํ ์ฌ๋์ Alexey์ผ ๊ฒ์ ๋๋ค.
DIS ๊ทธ๋ฃน ๊ต์ก ์ฑ ์์ Alexey Ananyev
ํธ์๋ค์ด์ด๋ ๋ฌด์์ธ๊ฐ์?
์ฌ๋ฌ๋ถ ์ค ์๋น์๋ ์ด๋ฏธ Informatica ๋น
๋ฐ์ดํฐ ๊ด๋ฆฌ(BDM)์ ์ต์ํฉ๋๋ค. ์ด ์ ํ์ ๋ค์ํ ์์ค์ ๋น
๋ฐ์ดํฐ๋ฅผ ํตํฉํ๊ณ , ๋ค์ํ ์์คํ
๊ฐ์ ์ด๋ํ๋ฉฐ, ์ฝ๊ฒ ์ก์ธ์คํ๊ณ , ํ๋กํ์ผ๋งํ ์ ์๋๋ก ํ๋ ๋ฑ ๋ค์ํ ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
์ฌ๋ฐ๋ฅธ ์์์ BDM์ ๋๋ผ์ด ์ผ์ ํ ์ ์์ต๋๋ค. ์์
์ ์ต์ํ์ ์ปดํจํ
๋ฆฌ์์ค๋ก ์ ์ํ๊ฒ ์๋ฃ๋ฉ๋๋ค.
๋น์ ๋ ๊ทธ๊ฑธ ์ํ๋์? BDM์ ํธ์๋ค์ด ๊ธฐ๋ฅ์ ์ฌ์ฉํ์ฌ ๋ค์ํ ํ๋ซํผ์ ์ปดํจํ ๋ก๋๋ฅผ ๋ถ์ฐํ๋ ๋ฐฉ๋ฒ์ ์์๋ณด์ธ์. ํธ์๋ค์ด ๊ธฐ์ ์ ์ฌ์ฉํ๋ฉด ๋งคํ์ ์คํฌ๋ฆฝํธ๋ก ์ ํํ๊ณ ์ด ์คํฌ๋ฆฝํธ๊ฐ ์คํ๋ ํ๊ฒฝ์ ์ ํํ ์ ์์ต๋๋ค. ์ด ์ ํ์ ํตํด ๋ค์ํ ํ๋ซํผ์ ์ฅ์ ์ ๊ฒฐํฉํ๊ณ ์ต๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์ต๋๋ค.
์คํฌ๋ฆฝํธ ์คํ ํ๊ฒฝ์ ์ค์ ํ๊ธฐ ์ํด์๋ ํธ์๋ค์ด ์ ํ์ ์ ํํด์ผ ํฉ๋๋ค. ์คํฌ๋ฆฝํธ๋ Hadoop์์ ์์ ํ ์คํ๋๊ฑฐ๋ ์์ค์ ์ฑํฌ ๊ฐ์ ๋ถ๋ถ์ ์ผ๋ก ๋ถ์ฐ๋ ์ ์์ต๋๋ค. ๊ฐ๋ฅํ ํธ์๋ค์ด ์ ํ์ 4๊ฐ์ง์ ๋๋ค. ๋งคํ์ ์คํฌ๋ฆฝํธ(๋ค์ดํฐ๋ธ)๋ก ๋ณํํ ํ์๋ ์์ต๋๋ค. ๋งคํ์ ๊ฐ๋ฅํ ํ ์์ค(source)์์ ์ํํ๊ฑฐ๋ ์์ค์์ ์์ ํ(full) ์ํํ ์ ์์ต๋๋ค. ๋งคํ์ Hadoop ์คํฌ๋ฆฝํธ(์์)๋ก ๋ณํํ ์๋ ์์ต๋๋ค.
ํธ์๋ค์ด ์ต์ ํ
๋์ด๋ 4๊ฐ์ง ์ ํ์ ๋ค์ํ ๋ฐฉ์์ผ๋ก ๊ฒฐํฉ๋ ์ ์์ต๋๋ค. ํธ์๋ค์ด์ ์์คํ ์ ํน์ ์๊ตฌ ์ฌํญ์ ๋ง๊ฒ ์ต์ ํ๋ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฐ์ดํฐ๋ฒ ์ด์ค ์์ฒด ๊ธฐ๋ฅ์ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ๋ ๊ฒ์ด ๋ ์ ์ ํ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์์ฒด์ ๊ณผ๋ถํ๊ฐ ๊ฑธ๋ฆฌ์ง ์๋๋ก ๋ฐ์ดํฐ๋ Hadoop์ ์ฌ์ฉํ์ฌ ๋ณํ๋ฉ๋๋ค.
์๋ณธ๊ณผ ๋์์ด ๋ชจ๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์๊ณ ๋ณํ ์คํ ํ๋ซํผ์ ์ ํํ ์ ์๋ ๊ฒฝ์ฐ๋ฅผ ์๊ฐํด ๋ณด๊ฒ ์ต๋๋ค. ์ค์ ์ ๋ฐ๋ผ Informatica, ๋ฐ์ดํฐ๋ฒ ์ด์ค ์๋ฒ ๋๋ Hadoop์ด ๋ฉ๋๋ค. ์ด๋ฌํ ์๋ฅผ ํตํด ์ด ๋ฉ์ปค๋์ฆ ์๋์ ๊ธฐ์ ์ ์ธก๋ฉด์ ๊ฐ์ฅ ์ ํํ๊ฒ ์ดํดํ ์ ์์ต๋๋ค. ๋น์ฐํ ์ค์ ์ํ์์๋ ์ด๋ฌํ ์ํฉ์ด ๋ฐ์ํ์ง ์์ง๋ง ๊ธฐ๋ฅ์ ์์ฐํ๋ ๋ฐ ๊ฐ์ฅ ์ ํฉํฉ๋๋ค.
๋จ์ผ Oracle ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ๋ ๊ฐ์ ํ ์ด๋ธ์ ์ฝ๊ธฐ ์ํ ๋งคํ์ ์ดํด๋ณด๊ฒ ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋์ผํ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ํ ์ด๋ธ์ ๊ธฐ๋กํ๋๋ก ํฉ๋๋ค. ๋งคํ ๊ตฌ์ฑํ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
Informatica BDM 10.2.1์ ๋งคํ ํ์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
ํธ์๋ค์ด ์ ํ - ๊ธฐ๋ณธ
ํธ์๋ค์ด ๊ธฐ๋ณธ ์ ํ์ ์ ํํ๋ฉด Informatica ์๋ฒ์์ ๋งคํ์ด ์ํ๋ฉ๋๋ค. ๋ฐ์ดํฐ๋ Oracle ์๋ฒ์์ ์ฝ๊ณ Informatica ์๋ฒ๋ก ์ ์ก๋ ํ ๊ทธ๊ณณ์์ ๋ณํ๋์ด Hadoop์ผ๋ก ์ ์ก๋ฉ๋๋ค. ์ฆ, ์ ์์ ์ธ ETL ํ๋ก์ธ์ค๋ฅผ ์ป๊ฒ ๋ฉ๋๋ค.
ํธ์๋ค์ด ์ ํ - ์์ค
์์ค ์ ํ์ ์ ํํ๋ฉด ๋ฐ์ดํฐ๋ฒ ์ด์ค ์๋ฒ(DB)์ Hadoop ๊ฐ์ ํ๋ก์ธ์ค๋ฅผ ๋ฐฐํฌํ ์ ์๋ ๊ธฐํ๋ฅผ ์ป๊ฒ ๋ฉ๋๋ค. ์ด ์ค์ ์ผ๋ก ํ๋ก์ธ์ค๋ฅผ ์คํํ๋ฉด ํ
์ด๋ธ์์ ๋ฐ์ดํฐ๋ฅผ ๊ฒ์ํ๋ผ๋ ์์ฒญ์ด ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ก ์ ์ก๋ฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋๋จธ์ง๋ Hadoop์์ Step ํํ๋ก ์ํ๋ฉ๋๋ค.
์คํ ๋ค์ด์ด๊ทธ๋จ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์๋๋ ๋ฐํ์ ํ๊ฒฝ์ ์ค์ ํ๋ ์์ ๋๋ค.
์ด ๊ฒฝ์ฐ ๋งคํ์ ๋ ๋จ๊ณ๋ก ์ํ๋ฉ๋๋ค. ์ค์ ์์ ์์ค๋ก ์ ์ก๋ ์คํฌ๋ฆฝํธ๋ก ๋ฐ๋์์์ ์ ์ ์์ต๋๋ค. ๋ํ ํ
์ด๋ธ ๊ฒฐํฉ ๋ฐ ๋ฐ์ดํฐ ๋ณํ์ ์์ค์ ๋ํ ์ฌ์ ์๋ ์ฟผ๋ฆฌ ํ์์ผ๋ก ์ํ๋ฉ๋๋ค.
์๋ ๊ทธ๋ฆผ์์๋ BDM์ ๋ํ ์ต์ ํ๋ ๋งคํ๊ณผ ์์ค์ ๋ํ ์ฌ์ ์๋ ์ฟผ๋ฆฌ๋ฅผ ๋ณผ ์ ์์ต๋๋ค.
์ด ๊ตฌ์ฑ์์ Hadoop์ ์ญํ ์ ๋ฐ์ดํฐ ํ๋ฆ์ ๊ด๋ฆฌํ๊ณ ์กฐ์ ํ๋ ๊ฒ์ผ๋ก ์ถ์๋ฉ๋๋ค. ์ฟผ๋ฆฌ ๊ฒฐ๊ณผ๋ Hadoop์ผ๋ก ์ ์ก๋ฉ๋๋ค. ์ฝ๊ธฐ๊ฐ ์๋ฃ๋๋ฉด Hadoop์ ํ์ผ์ด ์ฑํฌ์ ๊ธฐ๋ก๋ฉ๋๋ค.
ํธ์๋ค์ด ์ ํ - ์ ์ฒด
์ ์ฒด ์ ํ์ ์ ํํ๋ฉด ๋งคํ์ด ์์ ํ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์ฟผ๋ฆฌ๋ก ์ ํ๋ฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์์ฒญ ๊ฒฐ๊ณผ๋ Hadoop์ผ๋ก ์ ์ก๋ฉ๋๋ค. ๊ทธ๋ฌํ ํ๋ก์ธ์ค์ ๋ค์ด์ด๊ทธ๋จ์ด ์๋์ ์ ์๋์ด ์์ต๋๋ค.
์๋์๋ ์ค์ ์๊ฐ ๋์ ์์ต๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก ์ด์ ๊ณผ ์ ์ฌํ ์ต์ ํ๋ ๋งคํ์ ์ป๊ฒ ๋ฉ๋๋ค. ์ ์ผํ ์ฐจ์ด์ ์ ๋ชจ๋ ๋ ผ๋ฆฌ๊ฐ ์ฝ์ ์ ์ฌ์ ์ํ๋ ํํ๋ก ์์ ๊ธฐ์ ์ ์ก๋๋ค๋ ๊ฒ์ ๋๋ค. ์ต์ ํ๋ ๋งคํ์ ์๊ฐ ์๋์ ๋์ ์์ต๋๋ค.
์ฌ๊ธฐ์๋ ์์ ๊ฒฝ์ฐ์ ๋ง์ฐฌ๊ฐ์ง๋ก ํ๋ก์ด ์งํ์ ์ญํ ์ ํ๋ค. ๊ทธ๋ฌ๋ ์ฌ๊ธฐ์๋ ์์ค ์ ์ฒด๋ฅผ ์ฝ์ ๋ค์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ ผ๋ฆฌ๊ฐ ์์ ๊ธฐ ์์ค์์ ์ํ๋ฉ๋๋ค.
ํธ์๋ค์ด ์ ํ์ด null์ ๋๋ค.
๋ง์ง๋ง ์ต์ ์ ํธ์๋ค์ด ์ ํ์ผ๋ก, ์ด ์ ํ์์ ๋งคํ์ด Hadoop ์คํฌ๋ฆฝํธ๋ก ์ ํ๋ฉ๋๋ค.
์ด์ ์ต์ ํ๋ ๋งคํ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ฌ๊ธฐ์ ์์ค ํ์ผ์ ๋ฐ์ดํฐ๋ ๋จผ์ Hadoop์์ ์ฝํ์ง๋๋ค. ๊ทธ๋ฐ ๋ค์ ์์ ์ ์๋จ์ ์ฌ์ฉํ์ฌ ์ด ๋ ํ์ผ์ ๊ฒฐํฉํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ๋ฐ์ดํฐ๊ฐ ๋ณํ๋์ด ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ ๋ก๋๋ฉ๋๋ค.
ํธ์๋ค์ด ์ต์ ํ์ ์๋ฆฌ๋ฅผ ์ดํดํ๋ฉด ๋น ๋ฐ์ดํฐ ์์ ์ ์ํ ๋ง์ ํ๋ก์ธ์ค๋ฅผ ๋งค์ฐ ํจ๊ณผ์ ์ผ๋ก ๊ตฌ์ฑํ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ์์ฃผ ์ต๊ทผ์ ํ ๋๊ธฐ์ ์ ์ด์ ์ ๋ช ๋ ๋์ ์์งํด์๋ ๋น ๋ฐ์ดํฐ๋ฅผ ์คํ ๋ฆฌ์ง์์ Hadoop์ผ๋ก ๋จ ๋ช ์ฃผ ๋ง์ ๋ค์ด๋ก๋ํ์ต๋๋ค.
์ถ์ฒ : habr.com