์ ๋ฐ๋ฅด๋ฉด ๋ถ์ฐ ์ปดํจํ
๋ฐ ๋น
๋ฐ์ดํฐ ์์ฅ
์ผ๋ฐ ๋น์ฆ๋์ค์์ ๋ถ์ฐ ์ปดํจํ
์ด ํ์ํ ์ด์ ๋ ๋ฌด์์
๋๊น? ๋ชจ๋ ๊ฒ์ด ๋์์ ๊ฐ๋จํ๊ณ ๋ณต์กํฉ๋๋ค. ๊ฐ๋จํจ - ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ์ ๋ณด ๋จ์๋น ์๋์ ์ผ๋ก ๊ฐ๋จํ ๊ณ์ฐ์ ์ํํ๊ธฐ ๋๋ฌธ์
๋๋ค. ์ด๋ ค์ - ๊ทธ๋ฌํ ์ ๋ณด๊ฐ ๋ง๊ธฐ ๋๋ฌธ์
๋๋ค. ๋๋ฌด ๋ง์. ๊ทธ ๊ฒฐ๊ณผ,
์ต๊ทผ ์ฌ๋ก: ๋๋ ํผ์
๋ค๋ฅธ ์ :
๋๊ตฌ ์ ํ
์ด๋ฌํ ์ข ๋ฅ์ ์ปดํจํ ์ ๋ํ ์ ๊ณ ํ์ค์ Hadoop์ ๋๋ค. ์? Hadoop์ ์ ์ฒด ์ ํธ๋ฆฌํฐ ๋ฐ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ธํธ์ ํจ๊ป ์ ๊ณต๋๋ ์ฐ์ํ๊ณ ์ ๋ฌธ์ํ๋ ํ๋ ์์ํฌ(๋์ผํ Habr์์ ์ด ์ฃผ์ ์ ๋ํ ๋ง์ ์์ธํ ๊ธฐ์ฌ๋ฅผ ์ ๊ณตํจ)์ด๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐฉ๋ํ ์์ ์ ํ ๋ฐ ๋น์ ํ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ ์ถํ ์ ์์ผ๋ฉฐ ์์คํ ์์ฒด์์ ์ปดํจํ ์ฑ๋ฅ ๊ฐ์ ์ด๋ฅผ ๋ถ๋ฐฐํฉ๋๋ค. ๋ํ ์ด๋ฌํ ๋์ผํ ์ฉ๋์ ์ธ์ ๋ ์ง ๋๋ฆฌ๊ฑฐ๋ ๋นํ์ฑํํ ์ ์์ต๋๋ค. ์ฆ, ๋์ผํ ์ํ์ ํ์ฅ์ฑ์ด ์๋ํฉ๋๋ค.
2017๋
์ํฅ๋ ฅ ์๋ ์ปจ์คํ
ํ์ฌ Gartner
Hadoop์ ๋ช ๊ฐ์ง ๊ธฐ๋ฐ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ๊ทธ ์ค ๊ฐ์ฅ ์ฃผ๋ชฉํ ๋งํ ๊ฒ์ MapReduce ๊ธฐ์ (์๋ฒ ๊ฐ ๊ณ์ฐ์ ์ํ ๋ฐ์ดํฐ ๋ถ์ฐ ์์คํ )๊ณผ HDFS ํ์ผ ์์คํ ์ ๋๋ค. ํ์๋ ํด๋ฌ์คํฐ ๋ ธ๋ ๊ฐ์ ๋ถ์ฐ๋ ์ ๋ณด๋ฅผ ์ ์ฅํ๋๋ก ํน๋ณํ ์ค๊ณ๋์์ต๋๋ค. ๊ณ ์ ํฌ๊ธฐ์ ๊ฐ ๋ธ๋ก์ ์ฌ๋ฌ ๋ ธ๋์ ๋ฐฐ์น๋ ์ ์์ผ๋ฉฐ ๋ณต์ ๋๋ถ์ ์์คํ ์ ๊ฐ๋ณ ๋ ธ๋์ ์ฅ์ ์ ๊ฐํฉ๋๋ค. ํ์ผ ํ ์ด๋ธ ๋์ NameNode๋ผ๋ ํน์ ์๋ฒ๊ฐ ์ฌ์ฉ๋ฉ๋๋ค.
์๋ ๊ทธ๋ฆผ์ MapReduce๊ฐ ์๋ํ๋ ๋ฐฉ์์ ๋ณด์ฌ์ค๋๋ค. ์ฒซ ๋ฒ์งธ ๋จ๊ณ์์๋ ๋ฐ์ดํฐ๊ฐ ํน์ ์์ฑ์ ๋ฐ๋ผ ๋ถํ ๋๊ณ ๋ ๋ฒ์งธ ๋จ๊ณ์์๋ ์ปดํจํ ์ฑ๋ฅ์ ๋ฐ๋ผ ๋ถ์ฐ๋๋ฉฐ ์ธ ๋ฒ์งธ ๋จ๊ณ์์๋ ๊ณ์ฐ์ด ์ํ๋ฉ๋๋ค.
MapReduce๋ ์๋ ๊ฒ์ ์๊ตฌ๋ฅผ ์ํด Google์์ ๋ง๋ค์์ต๋๋ค. ๊ทธ๋ฐ ๋ค์ MapReduce๊ฐ ๋ฌด๋ฃ ์ฝ๋์ ๋ค์ด๊ฐ๊ณ Apache๊ฐ ํ๋ก์ ํธ๋ฅผ ์ธ์ํ์ต๋๋ค. ์, Google์ ์ ์ฐจ ๋ค๋ฅธ ์๋ฃจ์
์ผ๋ก ๋ง์ด๊ทธ๋ ์ด์
ํ์ต๋๋ค. ํฅ๋ฏธ๋ก์ด ๋์์ค: ํ์ฌ Google์ Google Cloud Dataflow๋ผ๋ ํ๋ก์ ํธ๋ฅผ ๋ณด์ ํ๊ณ ์์ผ๋ฉฐ Hadoop ๋ค์ ๋จ๊ณ๋ก ์ ์ํ๊ฒ ๋์ฒดํ ์ ์์ต๋๋ค.
์์ธํ ์ดํด๋ณด๋ฉด Google Cloud Dataflow๊ฐ Apache Beam์ ๋ณํ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ฐ๋ฉด Apache Beam์๋ ์ ๋ฌธ์ํ๋ Apache Spark ํ๋ ์์ํฌ๊ฐ ํฌํจ๋์ด ์์ด ๊ฑฐ์ ๋์ผํ ์๋ฃจ์ ์คํ ์๋์ ๋ํด ์ด์ผ๊ธฐํ ์ ์์ต๋๋ค. Apache Spark๋ HDFS ํ์ผ ์์คํ ์์ ์ ๋๋ก ์๋ํ๋ฏ๋ก Hadoop ์๋ฒ์ ๋ฐฐํฌํ ์ ์์ต๋๋ค.
์ฌ๊ธฐ์ Google Cloud Dataflow์ ๋ํ Hadoop ๋ฐ Spark์ฉ ๋ฌธ์ ๋ฐ ๊ธฐ์ฑ ์๋ฃจ์ ์ ์ถ๊ฐํ๋ฉด ๋๊ตฌ ์ ํ์ด ๋ช ํํด์ง๋๋ค. ๋ํ ์์ง๋์ด๋ ์์ , ๊ฒฝํ ๋ฐ ์๊ฒฉ์ ์ค์ ์ ๋๊ณ Hadoop ๋๋ Spark์์ ์คํํ ์ฝ๋๋ฅผ ์ค์ค๋ก ๊ฒฐ์ ํ ์ ์์ต๋๋ค.
ํด๋ผ์ฐ๋ ๋๋ ๋ก์ปฌ ์๋ฒ
ํด๋ผ์ฐ๋๋ก์ ์ผ๋ฐ์ ์ธ ์ ํ ์ถ์ธ๋ Hadoop-as-a-service์ ๊ฐ์ ํฅ๋ฏธ๋ก์ด ์ฉ์ด๋ฅผ ํ์์ํค๊ธฐ๋ ํ์ต๋๋ค. ์ด๋ฌํ ์๋๋ฆฌ์ค์์๋ ์ฐ๊ฒฐ๋ ์๋ฒ์ ๊ด๋ฆฌ๊ฐ ๋งค์ฐ ์ค์ํด์ก์ต๋๋ค. ์์, ๊ทธ ์ธ๊ธฐ์๋ ๋ถ๊ตฌํ๊ณ ์์ํ Hadoop์ ์์ผ๋ก ๋ง์ ์์ ์ ์ํํด์ผ ํ๊ธฐ ๋๋ฌธ์ ๊ตฌ์ฑํ๊ธฐ ๋ค์ ์ด๋ ค์ด ๋๊ตฌ์ด๊ธฐ ๋๋ฌธ์ ๋๋ค. ์๋ฅผ ๋ค์ด ์๋ฒ๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ๊ตฌ์ฑํ๊ณ ์ฑ๋ฅ์ ๋ชจ๋ํฐ๋งํ๋ฉฐ ๋ง์ ๋งค๊ฐ๋ณ์๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ ์ ์์ต๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์๋ง์ถ์ด๋ฅผ ์ํด ์ผํ๋ฉด ์ด๋๊ฐ์์ ๋ง์น๊ฑฐ๋ ๋ฌด์ธ๊ฐ๋ฅผ ๋์น ๊ฐ๋ฅ์ฑ์ด ํฝ๋๋ค.
๋ฐ๋ผ์ ์ด๊ธฐ์ ํธ๋ฆฌํ ๋ฐฐํฌ ๋ฐ ๊ด๋ฆฌ ๋๊ตฌ๊ฐ ์ฅ์ฐฉ๋ ๋ค์ํ ๋ฐฐํฌํ์ด ๋๋ฆฌ ๋ณด๊ธ๋์์ต๋๋ค. Spark๋ฅผ ์ง์ํ๊ณ ์์ ์ ์ฝ๊ฒ ํด์ฃผ๋ ์ธ๊ธฐ ์๋ ๋ฐฐํฌํ ์ค ํ๋๋ Cloudera์ ๋๋ค. ์ ๋ฃ ๋ฒ์ ๊ณผ ๋ฌด๋ฃ ๋ฒ์ ์ด ๋ชจ๋ ์์ผ๋ฉฐ ํ์์ ๊ฒฝ์ฐ ๋ ธ๋ ์๋ฅผ ์ ํํ์ง ์๊ณ ๋ชจ๋ ์ฃผ์ ๊ธฐ๋ฅ์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
์ค์ ํ๋ ๋์ Cloudera Manager๋ SSH๋ฅผ ํตํด ์๋ฒ์ ์ฐ๊ฒฐํฉ๋๋ค. ํฅ๋ฏธ๋ก์ด ์ : ์ค์นํ ๋ ์์ ์ํํ๋๋ก ์ง์ ํ๋ ๊ฒ์ด ์ข์ต๋๋ค. ์ํฌ: ์๋ก ์๋ํ๋๋ก ๊ตฌ์ฑ๋ ํ์ํ ๋ชจ๋ ๊ตฌ์ฑ ์์๋ฅผ ํฌํจํ๋ ํน์ ํจํค์ง. ์ค์ ๋ก ์ด๊ฒ์ ํจํค์ง ๊ด๋ฆฌ์์ ํฅ์๋ ๋ฒ์ ์
๋๋ค.
์ค์น ํ ํด๋ฌ์คํฐ ๊ด๋ฆฌ ์ฝ์์ ํตํด ํด๋ฌ์คํฐ, ์ค์น๋ ์๋น์ค์ ๋ํ ์๊ฒฉ ๋ถ์์ ๋ณผ ์ ์์ผ๋ฉฐ ๋ฆฌ์์ค๋ฅผ ์ถ๊ฐ/์ ๊ฑฐํ๊ณ ํด๋ฌ์คํฐ ๊ตฌ์ฑ์ ํธ์งํ ์ ์์ต๋๋ค.
๊ทธ ๊ฒฐ๊ณผ ๊ทธ ๋ก์ผ์ ์ ๋จ์ด ๋์์ ๋ํ๋ ๋น
๋ฐ์ดํฐ์ ๋ฐ์ ๋ฏธ๋๋ก ์๋ดํ ๊ฒ์
๋๋ค. ํ์ง๋ง "๊ฐ์"๋ผ๊ณ ๋งํ๊ธฐ ์ ์ ๋ด๋ถ ๋ด์ฉ์ ๋น ๋ฅด๊ฒ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
ํ๋์จ์ด ์๊ตฌ ์ฌํญ
์น ์ฌ์ดํธ์์ Cloudera๋ ๊ฐ๋ฅํ ๋ค์ํ ๊ตฌ์ฑ์ ์ธ๊ธํฉ๋๋ค. ๊ทธ๊ฒ๋ค์ด ๋ง๋ค์ด์ง๋ ์ผ๋ฐ์ ์ธ ์์น์ ๊ทธ๋ฆผ์ ๋์ ์์ต๋๋ค.
MapReduce๋ ์ด ๋๊ด์ ์ธ ๊ทธ๋ฆผ์ ํ๋ฆฌ๊ฒ ๋ง๋ค ์ ์์ต๋๋ค. ์ด์ ์น์
์ ๋ค์ด์ด๊ทธ๋จ์ ๋ค์ ๋ณด๋ฉด ๊ฑฐ์ ๋ชจ๋ ๊ฒฝ์ฐ์ MapReduce ์์
์ด ๋์คํฌ๋ ๋คํธ์ํฌ์์ ๋ฐ์ดํฐ๋ฅผ ์ฝ์ ๋ ๋ณ๋ชฉ ํ์์ด ๋ฐ์ํ ์ ์์์ด ๋ถ๋ช
ํด์ง๋๋ค. ์ด๋ Cloudera ๋ธ๋ก๊ทธ์๋ ๋์ ์์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ค์๊ฐ ๊ณ์ฐ์ ์์ฃผ ์ฌ์ฉ๋๋ Spark๋ฅผ ํตํ ๋น ๋ฅธ ๊ณ์ฐ์ ์ํด์๋ I/O ์๋๊ฐ ๋งค์ฐ ์ค์ํฉ๋๋ค. ๋ฐ๋ผ์ Hadoop์ ์ฌ์ฉํ ๋ ๊ท ํ ์๊ณ ๋น ๋ฅธ ์์คํ
์ด ํด๋ฌ์คํฐ์ ๋ค์ด๊ฐ๋ ๊ฒ์ด ๋งค์ฐ ์ค์ํฉ๋๋ค. ๊ฐ๋ณ๊ฒ ๋งํ๋ฉด ํด๋ผ์ฐ๋ ์ธํ๋ผ์์ ํญ์ ์ ๊ณต๋๋ ๊ฒ์ ์๋๋๋ค.
๋ก๋ ๋ถ์ฐ์ ๊ท ํ์ ๊ฐ๋ ฅํ ๋ฉํฐ ์ฝ์ด CPU๊ฐ ์๋ ์๋ฒ์์ Openstack ๊ฐ์ํ๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌ์ฑ๋ฉ๋๋ค. ๋ฐ์ดํฐ ๋ ธ๋์๋ ์์ฒด ํ๋ก์ธ์ ๋ฆฌ์์ค์ ํน์ ๋์คํฌ๊ฐ ํ ๋น๋ฉ๋๋ค. ์ฐ๋ฆฌ์ ๊ฒฐ์ ์ Atos Codex ๋ฐ์ดํฐ ๋ ์ดํฌ ์์ง ๊ด๋ฒ์ํ ๊ฐ์ํ๊ฐ ๋ฌ์ฑ๋์ด ์ฑ๋ฅ(๋คํธ์ํฌ ์ธํ๋ผ์ ์ํฅ ์ต์ํ) ๋ฐ TCO(์ฌ๋ถ์ ๋ฌผ๋ฆฌ์ ์๋ฒ ์ ๊ฑฐ) ์ธก๋ฉด์์ ๋ชจ๋ ์น๋ฆฌํ๋ ์ด์ ์ ๋๋ค.
BullSequana S200 ์๋ฒ๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ์ผ๋ถ ๋ณ๋ชฉ ํ์ ์์ด ๋งค์ฐ ๊ท ์ผํ ๋ก๋๋ฅผ ์ป์ต๋๋ค. ์ต์ ๊ตฌ์ฑ์๋ ๊ฐ๊ฐ 3๊ฐ์ JBOD๊ฐ ์๋ 200๊ฐ์ BullSequana S200 ์๋ฒ์ XNUMX๊ฐ์ ๋ฐ์ดํฐ ๋
ธ๋๊ฐ ํฌํจ๋ ์ถ๊ฐ SXNUMX์ด ์ ํ์ ์ผ๋ก ์ฐ๊ฒฐ๋ฉ๋๋ค. ๋ค์์ TeraGen ํ
์คํธ์ ๋ก๋ ์์
๋๋ค.
๋ฐ์ดํฐ ๋ณผ๋ฅจ๊ณผ ๋ณต์ ๊ฐ์ด ๋ค๋ฅธ ํ
์คํธ๋ ํด๋ฌ์คํฐ ๋
ธ๋ ์ ์ฒด์ ๋ถํ ๋ถ์ฐ ์ธก๋ฉด์์ ๋์ผํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์๋๋ ์ฑ๋ฅ ํ
์คํธ์ ๋ฐ๋ฅธ ๋์คํฌ ์ก์ธ์ค ๋ถํฌ ๊ทธ๋ํ์
๋๋ค.
๊ณ์ฐ์ BullSequana S3 ์๋ฒ 200๋์ ์ต์ ๊ตฌ์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ์ฌ๊ธฐ์๋ 9๊ฐ์ ๋ฐ์ดํฐ ๋
ธ๋์ 3๊ฐ์ ๋ง์คํฐ ๋
ธ๋๊ฐ ํฌํจ๋๋ฉฐ OpenStack ๊ฐ์ํ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ณดํธ ๋ฐฐํฌ์ ๊ฒฝ์ฐ ์์ฝ๋ ๊ฐ์ ๋จธ์ ๋ ํฌํจ๋ฉ๋๋ค. TeraSort ํ
์คํธ ๊ฒฐ๊ณผ: 512MB ๋ธ๋ก ํฌ๊ธฐ์ ๋ณต์ ํฉํฐ 23,1(์ํธํ ํฌํจ)์ XNUMX๋ถ์
๋๋ค.
์์คํ ์ ์ด๋ป๊ฒ ํ์ฅํ ์ ์์ต๋๊น? Data Lake Engine์ ์ฌ์ฉํ ์ ์๋ ๋ค์ํ ์ ํ์ ํ์ฅ:
- ๋ฐ์ดํฐ ๋ ธ๋: ์ฌ์ฉ ๊ฐ๋ฅํ ๊ณต๊ฐ 40TB๋ง๋ค
- GPU๋ฅผ ์ค์นํ ์ ์๋ ๋ถ์ ๋ ธ๋
- ๋น์ฆ๋์ค ์๊ตฌ์ ๋ฐ๋ฅธ ๊ธฐํ ์ต์ (์: Kafka ๋ฑ์ด ํ์ํ ๊ฒฝ์ฐ)
Atos Codex Data Lake Engine ์ปดํ๋ ์ค์๋ ์๋ฒ ์์ฒด์ ๋ผ์ด์ผ์ค๊ฐ ์๋ Cloudera ํคํธ๋ฅผ ํฌํจํ์ฌ ์ฌ์ ์ค์น๋ ์ํํธ์จ์ด๊ฐ ๋ชจ๋ ํฌํจ๋ฉ๋๋ค. Hadoop ์์ฒด, RedHat Enterprise Linux ์ปค๋์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๊ฐ์ ๋จธ์ ์ด ์๋ OpenStack, ๋ฐ์ดํฐ ๋ณต์ ๋ฐ ๋ฐฑ์
์์คํ
(๋ฐฑ์
๋
ธ๋ ๋ฐ Cloudera BDR - ๋ฐฑ์
๋ฐ ์ฌํด ๋ณต๊ตฌ ์ฌ์ฉ ํฌํจ). Atos Codex Data Lake Engine์ ์ธ์ฆ์ ๋ฐ์ ์ต์ด์ ๊ฐ์ํ ์๋ฃจ์
์
๋๋ค.
์ธ๋ถ ์ฌํญ์ ๊ด์ฌ์ด ์์ผ์๋ฉด ์๊ฒฌ์ ์ง๋ฌธ์ ๋ต๋ณํด ๋๋ฆฌ๊ฒ ์ต๋๋ค.
์ถ์ฒ : habr.com