Cloudera์˜ ํŠน๋ณ„ํ•œ ์ ๊ณผ ์š”๋ฆฌ ๋ฐฉ๋ฒ•

์— ๋”ฐ๋ฅด๋ฉด ๋ถ„์‚ฐ ์ปดํ“จํŒ… ๋ฐ ๋น… ๋ฐ์ดํ„ฐ ์‹œ์žฅ ํ†ต๊ณ„, ๋งค๋…„ 18-19%์”ฉ ์„ฑ์žฅํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ด๋Ÿฌํ•œ ๋ชฉ์ ์œผ๋กœ ์†Œํ”„ํŠธ์›จ์–ด๋ฅผ ์„ ํƒํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ์—ฌ์ „ํžˆ ๊ด€๋ จ์ด ์žˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ฒŒ์‹œ๋ฌผ์—์„œ๋Š” ๋ถ„์‚ฐ ์ปดํ“จํŒ…์ด ํ•„์š”ํ•œ ์ด์œ ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•˜์—ฌ ์†Œํ”„ํŠธ์›จ์–ด ์„ ํƒ์— ๋Œ€ํ•ด ์ž์„ธํžˆ ์„ค๋ช…ํ•˜๊ณ  Cloudera์™€ ํ•จ๊ป˜ Hadoop์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์„ค๋ช…ํ•˜๊ณ  ๋งˆ์ง€๋ง‰์œผ๋กœ ํ•˜๋“œ์›จ์–ด ์„ ํƒ๊ณผ ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์— ๋Œ€ํ•ด ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์œผ๋กœ.

Cloudera์˜ ํŠน๋ณ„ํ•œ ์ ๊ณผ ์š”๋ฆฌ ๋ฐฉ๋ฒ•
์ผ๋ฐ˜ ๋น„์ฆˆ๋‹ˆ์Šค์—์„œ ๋ถ„์‚ฐ ์ปดํ“จํŒ…์ด ํ•„์š”ํ•œ ์ด์œ ๋Š” ๋ฌด์—‡์ž…๋‹ˆ๊นŒ? ๋ชจ๋“  ๊ฒƒ์ด ๋™์‹œ์— ๊ฐ„๋‹จํ•˜๊ณ  ๋ณต์žกํ•ฉ๋‹ˆ๋‹ค. ๊ฐ„๋‹จํ•จ - ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ ์ •๋ณด ๋‹จ์œ„๋‹น ์ƒ๋Œ€์ ์œผ๋กœ ๊ฐ„๋‹จํ•œ ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์–ด๋ ค์›€ - ๊ทธ๋Ÿฌํ•œ ์ •๋ณด๊ฐ€ ๋งŽ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋„ˆ๋ฌด ๋งŽ์•„. ๊ทธ ๊ฒฐ๊ณผ, 1000๊ฐœ์˜ ์Šค๋ ˆ๋“œ์—์„œ ํ…Œ๋ผ๋ฐ”์ดํŠธ์˜ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ. ๋”ฐ๋ผ์„œ ์‚ฌ์šฉ ์‚ฌ๋ก€๋Š” ๋งค์šฐ ๋ณดํŽธ์ ์ž…๋‹ˆ๋‹ค. ํ›จ์”ฌ ๋” ํฐ ๋ฐ์ดํ„ฐ ๋ฐฐ์—ด์—์„œ ๋งŽ์€ ์ˆ˜์˜ ๋ฉ”ํŠธ๋ฆญ์„ ๊ณ ๋ คํ•ด์•ผ ํ•˜๋Š” ๋ชจ๋“  ๊ณณ์—์„œ ๊ณ„์‚ฐ์„ ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ตœ๊ทผ ์‚ฌ๋ก€: ๋„๋„ ํ”ผ์ž ํ•œ์ •๋œ ์ž„์˜์˜ ํ† ํ•‘์ด ์žˆ๋Š” ํ”ผ์ž๋ฅผ ์„ ํƒํ•  ๋•Œ ์‚ฌ์šฉ์ž๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ XNUMX๊ฐœ์˜ ๊ธฐ๋ณธ ์žฌ๋ฃŒ ์„ธํŠธ์™€ XNUMX๊ฐœ์˜ ์ž„์˜ ์žฌ๋ฃŒ๋กœ ์ž‘๋™ํ•œ๋‹ค๋Š” ๊ณ ๊ฐ ์ฃผ๋ฌธ ๊ธฐ๋ฐ˜ ๋ถ„์„์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ด์— ๋”ฐ๋ผ ํ”ผ์ž ๊ฐ€๊ฒŒ๋Š” ๊ตฌ๋งค๋ฅผ ์กฐ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ฃผ๋ฌธ ๋‹จ๊ณ„์—์„œ ์ œ๊ณต๋˜๋Š” ์ถ”๊ฐ€ ์ƒํ’ˆ์„ ์‚ฌ์šฉ์ž์—๊ฒŒ ๋” ์ž˜ ์ถ”์ฒœํ•  ์ˆ˜ ์žˆ์–ด ์ˆ˜์ต์ด ์ฆ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

๋‹ค๋ฅธ ์˜ˆ : ะฐะฝะฐะปะธะท ์ƒํ’ˆ ๋•๋ถ„์— H&M์€ ํŒ๋งค ์ˆ˜์ค€์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๊ฐœ๋ณ„ ๋งค์žฅ์˜ ๊ตฌ์ƒ‰์„ 40%๊นŒ์ง€ ์ค„์ผ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ์ €์กฐํ•œ ํŒ๋งค ํฌ์ง€์…˜์„ ์ œ์™ธํ•จ์œผ๋กœ์จ ๋‹ฌ์„ฑ๋˜์—ˆ์œผ๋ฉฐ ๊ณ„์‚ฐ์—์„œ ๊ณ„์ ˆ์„ฑ์„ ๊ณ ๋ คํ–ˆ์Šต๋‹ˆ๋‹ค.

๋„๊ตฌ ์„ ํƒ

์ด๋Ÿฌํ•œ ์ข…๋ฅ˜์˜ ์ปดํ“จํŒ…์— ๋Œ€ํ•œ ์—…๊ณ„ ํ‘œ์ค€์€ Hadoop์ž…๋‹ˆ๋‹ค. ์™œ? Hadoop์€ ์ „์ฒด ์œ ํ‹ธ๋ฆฌํ‹ฐ ๋ฐ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์„ธํŠธ์™€ ํ•จ๊ป˜ ์ œ๊ณต๋˜๋Š” ์šฐ์ˆ˜ํ•˜๊ณ  ์ž˜ ๋ฌธ์„œํ™”๋œ ํ”„๋ ˆ์ž„์›Œํฌ(๋™์ผํ•œ Habr์—์„œ ์ด ์ฃผ์ œ์— ๋Œ€ํ•œ ๋งŽ์€ ์ž์„ธํ•œ ๊ธฐ์‚ฌ๋ฅผ ์ œ๊ณตํ•จ)์ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ์ •ํ˜• ๋ฐ ๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ์ œ์ถœํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ์‹œ์Šคํ…œ ์ž์ฒด์—์„œ ์ปดํ“จํŒ… ์„ฑ๋Šฅ ๊ฐ„์— ์ด๋ฅผ ๋ถ„๋ฐฐํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ์ด๋Ÿฌํ•œ ๋™์ผํ•œ ์šฉ๋Ÿ‰์€ ์–ธ์ œ๋“ ์ง€ ๋Š˜๋ฆฌ๊ฑฐ๋‚˜ ๋น„ํ™œ์„ฑํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ๋™์ผํ•œ ์ˆ˜ํ‰์  ํ™•์žฅ์„ฑ์ด ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

2017๋…„ ์˜ํ–ฅ๋ ฅ ์žˆ๋Š” ์ปจ์„คํŒ… ํšŒ์‚ฌ Gartner ๊ฒฐ๋ก Hadoop์€ ๊ณง ๊ตฌ์‹์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ ์ด์œ ๋Š” ๋‹ค์†Œ ์ง„๋ถ€ํ•ฉ๋‹ˆ๋‹ค. ๋ถ„์„๊ฐ€๋“ค์€ ๊ธฐ์—…์ด ์ปดํ“จํŒ… ์„ฑ๋Šฅ ์‚ฌ์šฉ์— ๋”ฐ๋ผ ๋น„์šฉ์„ ์ง€๋ถˆํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๊ธฐ์—…์ด ํด๋ผ์šฐ๋“œ๋กœ ๋Œ€๊ทœ๋ชจ๋กœ ๋งˆ์ด๊ทธ๋ ˆ์ด์…˜ํ•  ๊ฒƒ์ด๋ผ๊ณ  ๋ฏฟ์Šต๋‹ˆ๋‹ค. Hadoop์„ "๋งค์žฅ"ํ•  ์ˆ˜ ์žˆ๋Š” ๋‘ ๋ฒˆ์งธ ์ค‘์š”ํ•œ ์š”์†Œ๋Š” ์ž‘์—… ์†๋„์ž…๋‹ˆ๋‹ค. Apache Spark ๋˜๋Š” Google Cloud DataFlow์™€ ๊ฐ™์€ ์˜ต์…˜์ด MapReduce ๊ธฐ๋ณธ Hadoop๋ณด๋‹ค ๋น ๋ฅด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

Hadoop์€ ๋ช‡ ๊ฐ€์ง€ ๊ธฐ๋ฐ˜์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, ๊ทธ ์ค‘ ๊ฐ€์žฅ ์ฃผ๋ชฉํ• ๋งŒํ•œ ๊ฒƒ์€ MapReduce ๊ธฐ์ˆ (์„œ๋ฒ„ ๊ฐ„ ๊ณ„์‚ฐ์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ๋ถ„์‚ฐ ์‹œ์Šคํ…œ)๊ณผ HDFS ํŒŒ์ผ ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. ํ›„์ž๋Š” ํด๋Ÿฌ์Šคํ„ฐ ๋…ธ๋“œ ๊ฐ„์— ๋ถ„์‚ฐ๋œ ์ •๋ณด๋ฅผ ์ €์žฅํ•˜๋„๋ก ํŠน๋ณ„ํžˆ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ณ ์ • ํฌ๊ธฐ์˜ ๊ฐ ๋ธ”๋ก์€ ์—ฌ๋Ÿฌ ๋…ธ๋“œ์— ๋ฐฐ์น˜๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ ๋ณต์ œ ๋•๋ถ„์— ์‹œ์Šคํ…œ์€ ๊ฐœ๋ณ„ ๋…ธ๋“œ์˜ ์žฅ์• ์— ๊ฐ•ํ•ฉ๋‹ˆ๋‹ค. ํŒŒ์ผ ํ…Œ์ด๋ธ” ๋Œ€์‹  NameNode๋ผ๋Š” ํŠน์ˆ˜ ์„œ๋ฒ„๊ฐ€ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

์•„๋ž˜ ๊ทธ๋ฆผ์€ MapReduce๊ฐ€ ์ž‘๋™ํ•˜๋Š” ๋ฐฉ์‹์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ํŠน์ • ์†์„ฑ์— ๋”ฐ๋ผ ๋ถ„ํ• ๋˜๊ณ  ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ์ปดํ“จํŒ… ์„ฑ๋Šฅ์— ๋”ฐ๋ผ ๋ถ„์‚ฐ๋˜๋ฉฐ ์„ธ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ๊ณ„์‚ฐ์ด ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค.

Cloudera์˜ ํŠน๋ณ„ํ•œ ์ ๊ณผ ์š”๋ฆฌ ๋ฐฉ๋ฒ•
MapReduce๋Š” ์›๋ž˜ ๊ฒ€์ƒ‰ ์š”๊ตฌ๋ฅผ ์œ„ํ•ด Google์—์„œ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ MapReduce๊ฐ€ ๋ฌด๋ฃŒ ์ฝ”๋“œ์— ๋“ค์–ด๊ฐ”๊ณ  Apache๊ฐ€ ํ”„๋กœ์ ํŠธ๋ฅผ ์ธ์ˆ˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ์Œ, Google์€ ์ ์ฐจ ๋‹ค๋ฅธ ์†”๋ฃจ์…˜์œผ๋กœ ๋งˆ์ด๊ทธ๋ ˆ์ด์…˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ํฅ๋ฏธ๋กœ์šด ๋‰˜์•™์Šค: ํ˜„์žฌ Google์€ Google Cloud Dataflow๋ผ๋Š” ํ”„๋กœ์ ํŠธ๋ฅผ ๋ณด์œ ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ Hadoop ๋‹ค์Œ ๋‹จ๊ณ„๋กœ ์‹ ์†ํ•˜๊ฒŒ ๋Œ€์ฒดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ž์„ธํžˆ ์‚ดํŽด๋ณด๋ฉด Google Cloud Dataflow๊ฐ€ Apache Beam์˜ ๋ณ€ํ˜•์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ๋ฐ˜๋ฉด Apache Beam์—๋Š” ์ž˜ ๋ฌธ์„œํ™”๋œ Apache Spark ํ”„๋ ˆ์ž„์›Œํฌ๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์–ด ๊ฑฐ์˜ ๋™์ผํ•œ ์†”๋ฃจ์…˜ ์‹คํ–‰ ์†๋„์— ๋Œ€ํ•ด ์ด์•ผ๊ธฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Apache Spark๋Š” HDFS ํŒŒ์ผ ์‹œ์Šคํ…œ์—์„œ ์ œ๋Œ€๋กœ ์ž‘๋™ํ•˜๋ฏ€๋กœ Hadoop ์„œ๋ฒ„์— ๋ฐฐํฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์— Google Cloud Dataflow์— ๋Œ€ํ•œ Hadoop ๋ฐ Spark์šฉ ๋ฌธ์„œ ๋ฐ ๊ธฐ์„ฑ ์†”๋ฃจ์…˜์„ ์ถ”๊ฐ€ํ•˜๋ฉด ๋„๊ตฌ ์„ ํƒ์ด ๋ช…ํ™•ํ•ด์ง‘๋‹ˆ๋‹ค. ๋˜ํ•œ ์—”์ง€๋‹ˆ์–ด๋Š” ์ž‘์—…, ๊ฒฝํ—˜ ๋ฐ ์ž๊ฒฉ์— ์ค‘์ ์„ ๋‘๊ณ  Hadoop ๋˜๋Š” Spark์—์„œ ์‹คํ–‰ํ•  ์ฝ”๋“œ๋ฅผ ์Šค์Šค๋กœ ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํด๋ผ์šฐ๋“œ ๋˜๋Š” ๋กœ์ปฌ ์„œ๋ฒ„

ํด๋ผ์šฐ๋“œ๋กœ์˜ ์ผ๋ฐ˜์ ์ธ ์ „ํ™˜ ์ถ”์„ธ๋Š” Hadoop-as-a-service์™€ ๊ฐ™์€ ํฅ๋ฏธ๋กœ์šด ์šฉ์–ด๋ฅผ ํƒ„์ƒ์‹œํ‚ค๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ๋Š” ์—ฐ๊ฒฐ๋œ ์„œ๋ฒ„์˜ ๊ด€๋ฆฌ๊ฐ€ ๋งค์šฐ ์ค‘์š”ํ•ด์กŒ์Šต๋‹ˆ๋‹ค. ์•„์•„, ๊ทธ ์ธ๊ธฐ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ˆœ์ˆ˜ํ•œ Hadoop์€ ์†์œผ๋กœ ๋งŽ์€ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ตฌ์„ฑํ•˜๊ธฐ ๋‹ค์†Œ ์–ด๋ ค์šด ๋„๊ตฌ์ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์„œ๋ฒ„๋ฅผ ๊ฐœ๋ณ„์ ์œผ๋กœ ๊ตฌ์„ฑํ•˜๊ณ  ์„ฑ๋Šฅ์„ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜๋ฉฐ ๋งŽ์€ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์•„๋งˆ์ถ”์–ด๋ฅผ ์œ„ํ•ด ์ผํ•˜๋ฉด ์–ด๋”˜๊ฐ€์—์„œ ๋ง์น˜๊ฑฐ๋‚˜ ๋ฌด์–ธ๊ฐ€๋ฅผ ๋†“์น  ๊ฐ€๋Šฅ์„ฑ์ด ํฝ๋‹ˆ๋‹ค.

๋”ฐ๋ผ์„œ ์ดˆ๊ธฐ์— ํŽธ๋ฆฌํ•œ ๋ฐฐํฌ ๋ฐ ๊ด€๋ฆฌ ๋„๊ตฌ๊ฐ€ ์žฅ์ฐฉ๋œ ๋‹ค์–‘ํ•œ ๋ฐฐํฌํŒ์ด ๋„๋ฆฌ ๋ณด๊ธ‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Spark๋ฅผ ์ง€์›ํ•˜๊ณ  ์ž‘์—…์„ ์‰ฝ๊ฒŒ ํ•ด์ฃผ๋Š” ์ธ๊ธฐ ์žˆ๋Š” ๋ฐฐํฌํŒ ์ค‘ ํ•˜๋‚˜๋Š” Cloudera์ž…๋‹ˆ๋‹ค. ์œ ๋ฃŒ ๋ฒ„์ „๊ณผ ๋ฌด๋ฃŒ ๋ฒ„์ „์ด ๋ชจ๋‘ ์žˆ์œผ๋ฉฐ ํ›„์ž์˜ ๊ฒฝ์šฐ ๋…ธ๋“œ ์ˆ˜๋ฅผ ์ œํ•œํ•˜์ง€ ์•Š๊ณ  ๋ชจ๋“  ์ฃผ์š” ๊ธฐ๋Šฅ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Cloudera์˜ ํŠน๋ณ„ํ•œ ์ ๊ณผ ์š”๋ฆฌ ๋ฐฉ๋ฒ•

์„ค์ •ํ•˜๋Š” ๋™์•ˆ Cloudera Manager๋Š” SSH๋ฅผ ํ†ตํ•ด ์„œ๋ฒ„์— ์—ฐ๊ฒฐํ•ฉ๋‹ˆ๋‹ค. ํฅ๋ฏธ๋กœ์šด ์ : ์„ค์น˜ํ•  ๋•Œ ์†Œ์œ„ ์ˆ˜ํ–‰ํ•˜๋„๋ก ์ง€์ •ํ•˜๋Š” ๊ฒƒ์ด ์ข‹์Šต๋‹ˆ๋‹ค. ์†Œํฌ: ์„œ๋กœ ์ž‘๋™ํ•˜๋„๋ก ๊ตฌ์„ฑ๋œ ํ•„์š”ํ•œ ๋ชจ๋“  ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ํฌํ•จํ•˜๋Š” ํŠน์ˆ˜ ํŒจํ‚ค์ง€. ์‹ค์ œ๋กœ ์ด๊ฒƒ์€ ํŒจํ‚ค์ง€ ๊ด€๋ฆฌ์ž์˜ ํ–ฅ์ƒ๋œ ๋ฒ„์ „์ž…๋‹ˆ๋‹ค.

์„ค์น˜ ํ›„ ํด๋Ÿฌ์Šคํ„ฐ ๊ด€๋ฆฌ ์ฝ˜์†”์„ ํ†ตํ•ด ํด๋Ÿฌ์Šคํ„ฐ, ์„ค์น˜๋œ ์„œ๋น„์Šค์— ๋Œ€ํ•œ ์›๊ฒฉ ๋ถ„์„์„ ๋ณผ ์ˆ˜ ์žˆ์œผ๋ฉฐ ๋ฆฌ์†Œ์Šค๋ฅผ ์ถ”๊ฐ€/์ œ๊ฑฐํ•˜๊ณ  ํด๋Ÿฌ์Šคํ„ฐ ๊ตฌ์„ฑ์„ ํŽธ์ง‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Cloudera์˜ ํŠน๋ณ„ํ•œ ์ ๊ณผ ์š”๋ฆฌ ๋ฐฉ๋ฒ•

๊ทธ ๊ฒฐ๊ณผ ๊ทธ ๋กœ์ผ“์˜ ์ ˆ๋‹จ์ด ๋ˆˆ์•ž์— ๋‚˜ํƒ€๋‚˜ ๋น…๋ฐ์ดํ„ฐ์˜ ๋ฐ์€ ๋ฏธ๋ž˜๋กœ ์•ˆ๋‚ดํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ "๊ฐ€์ž"๋ผ๊ณ  ๋งํ•˜๊ธฐ ์ „์— ๋‚ด๋ถ€ ๋‚ด์šฉ์„ ๋น ๋ฅด๊ฒŒ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

ํ•˜๋“œ์›จ์–ด ์š”๊ตฌ ์‚ฌํ•ญ

์›น ์‚ฌ์ดํŠธ์—์„œ Cloudera๋Š” ๊ฐ€๋Šฅํ•œ ๋‹ค์–‘ํ•œ ๊ตฌ์„ฑ์„ ์–ธ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๊ฒƒ๋“ค์ด ๋งŒ๋“ค์–ด์ง€๋Š” ์ผ๋ฐ˜์ ์ธ ์›์น™์€ ๊ทธ๋ฆผ์— ๋‚˜์™€ ์žˆ์Šต๋‹ˆ๋‹ค.

Cloudera์˜ ํŠน๋ณ„ํ•œ ์ ๊ณผ ์š”๋ฆฌ ๋ฐฉ๋ฒ•
MapReduce๋Š” ์ด ๋‚™๊ด€์ ์ธ ๊ทธ๋ฆผ์„ ํ๋ฆฌ๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์ „ ์„น์…˜์˜ ๋‹ค์ด์–ด๊ทธ๋žจ์„ ๋‹ค์‹œ ๋ณด๋ฉด ๊ฑฐ์˜ ๋ชจ๋“  ๊ฒฝ์šฐ์— MapReduce ์ž‘์—…์ด ๋””์Šคํฌ๋‚˜ ๋„คํŠธ์›Œํฌ์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ฝ์„ ๋•Œ ๋ณ‘๋ชฉ ํ˜„์ƒ์ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Œ์ด ๋ถ„๋ช…ํ•ด์ง‘๋‹ˆ๋‹ค. ์ด๋Š” Cloudera ๋ธ”๋กœ๊ทธ์—๋„ ๋‚˜์™€ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ์‹ค์‹œ๊ฐ„ ๊ณ„์‚ฐ์— ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” Spark๋ฅผ ํ†ตํ•œ ๋น ๋ฅธ ๊ณ„์‚ฐ์„ ์œ„ํ•ด์„œ๋Š” I/O ์†๋„๊ฐ€ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ Hadoop์„ ์‚ฌ์šฉํ•  ๋•Œ ๊ท ํ˜• ์žˆ๊ณ  ๋น ๋ฅธ ์‹œ์Šคํ…œ์ด ํด๋Ÿฌ์Šคํ„ฐ์— ๋“ค์–ด๊ฐ€๋Š” ๊ฒƒ์ด ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€๋ณ๊ฒŒ ๋งํ•˜๋ฉด ํด๋ผ์šฐ๋“œ ์ธํ”„๋ผ์—์„œ ํ•ญ์ƒ ์ œ๊ณต๋˜๋Š” ๊ฒƒ์€ ์•„๋‹™๋‹ˆ๋‹ค.

๋กœ๋“œ ๋ถ„์‚ฐ์˜ ๊ท ํ˜•์€ ๊ฐ•๋ ฅํ•œ ๋ฉ€ํ‹ฐ ์ฝ”์–ด CPU๊ฐ€ ์žˆ๋Š” ์„œ๋ฒ„์—์„œ Openstack ๊ฐ€์ƒํ™”๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ๋…ธ๋“œ์—๋Š” ์ž์ฒด ํ”„๋กœ์„ธ์„œ ๋ฆฌ์†Œ์Šค์™€ ํŠน์ • ๋””์Šคํฌ๊ฐ€ ํ• ๋‹น๋ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ๊ฒฐ์ •์— Atos Codex ๋ฐ์ดํ„ฐ ๋ ˆ์ดํฌ ์—”์ง„ ๊ด‘๋ฒ”์œ„ํ•œ ๊ฐ€์ƒํ™”๊ฐ€ ๋‹ฌ์„ฑ๋˜์–ด ์„ฑ๋Šฅ(๋„คํŠธ์›Œํฌ ์ธํ”„๋ผ์˜ ์˜ํ–ฅ ์ตœ์†Œํ™”) ๋ฐ TCO(์—ฌ๋ถ„์˜ ๋ฌผ๋ฆฌ์  ์„œ๋ฒ„ ์ œ๊ฑฐ) ์ธก๋ฉด์—์„œ ๋ชจ๋‘ ์Šน๋ฆฌํ•˜๋Š” ์ด์œ ์ž…๋‹ˆ๋‹ค.

Cloudera์˜ ํŠน๋ณ„ํ•œ ์ ๊ณผ ์š”๋ฆฌ ๋ฐฉ๋ฒ•
BullSequana S200 ์„œ๋ฒ„๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ ์ผ๋ถ€ ๋ณ‘๋ชฉ ํ˜„์ƒ ์—†์ด ๋งค์šฐ ๊ท ์ผํ•œ ๋กœ๋“œ๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. ์ตœ์†Œ ๊ตฌ์„ฑ์—๋Š” ๊ฐ๊ฐ 3๊ฐœ์˜ JBOD๊ฐ€ ์žˆ๋Š” 200๊ฐœ์˜ BullSequana S200 ์„œ๋ฒ„์™€ XNUMX๊ฐœ์˜ ๋ฐ์ดํ„ฐ ๋…ธ๋“œ๊ฐ€ ํฌํ•จ๋œ ์ถ”๊ฐ€ SXNUMX์ด ์„ ํƒ์ ์œผ๋กœ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค. ๋‹ค์Œ์€ TeraGen ํ…Œ์ŠคํŠธ์˜ ๋กœ๋“œ ์˜ˆ์ž…๋‹ˆ๋‹ค.

Cloudera์˜ ํŠน๋ณ„ํ•œ ์ ๊ณผ ์š”๋ฆฌ ๋ฐฉ๋ฒ•

๋ฐ์ดํ„ฐ ๋ณผ๋ฅจ๊ณผ ๋ณต์ œ ๊ฐ’์ด ๋‹ค๋ฅธ ํ…Œ์ŠคํŠธ๋Š” ํด๋Ÿฌ์Šคํ„ฐ ๋…ธ๋“œ ์ „์ฒด์˜ ๋ถ€ํ•˜ ๋ถ„์‚ฐ ์ธก๋ฉด์—์„œ ๋™์ผํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์•„๋ž˜๋Š” ์„ฑ๋Šฅ ํ…Œ์ŠคํŠธ์— ๋”ฐ๋ฅธ ๋””์Šคํฌ ์•ก์„ธ์Šค ๋ถ„ํฌ ๊ทธ๋ž˜ํ”„์ž…๋‹ˆ๋‹ค.

Cloudera์˜ ํŠน๋ณ„ํ•œ ์ ๊ณผ ์š”๋ฆฌ ๋ฐฉ๋ฒ•

๊ณ„์‚ฐ์€ BullSequana S3 ์„œ๋ฒ„ 200๋Œ€์˜ ์ตœ์†Œ ๊ตฌ์„ฑ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—๋Š” 9๊ฐœ์˜ ๋ฐ์ดํ„ฐ ๋…ธ๋“œ์™€ 3๊ฐœ์˜ ๋งˆ์Šคํ„ฐ ๋…ธ๋“œ๊ฐ€ ํฌํ•จ๋˜๋ฉฐ OpenStack ๊ฐ€์ƒํ™”๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋ณดํ˜ธ ๋ฐฐํฌ์˜ ๊ฒฝ์šฐ ์˜ˆ์•ฝ๋œ ๊ฐ€์ƒ ๋จธ์‹ ๋„ ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. TeraSort ํ…Œ์ŠคํŠธ ๊ฒฐ๊ณผ: 512MB ๋ธ”๋ก ํฌ๊ธฐ์˜ ๋ณต์ œ ํŒฉํ„ฐ 23,1(์•”ํ˜ธํ™” ํฌํ•จ)์€ XNUMX๋ถ„์ž…๋‹ˆ๋‹ค.

์‹œ์Šคํ…œ์„ ์–ด๋–ป๊ฒŒ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ? Data Lake Engine์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ํ™•์žฅ:

  • ๋ฐ์ดํ„ฐ ๋…ธ๋“œ: ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๊ณต๊ฐ„ 40TB๋งˆ๋‹ค
  • GPU๋ฅผ ์„ค์น˜ํ•  ์ˆ˜ ์žˆ๋Š” ๋ถ„์„ ๋…ธ๋“œ
  • ๋น„์ฆˆ๋‹ˆ์Šค ์š”๊ตฌ์— ๋”ฐ๋ฅธ ๊ธฐํƒ€ ์˜ต์…˜(์˜ˆ: Kafka ๋“ฑ์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ)

Cloudera์˜ ํŠน๋ณ„ํ•œ ์ ๊ณผ ์š”๋ฆฌ ๋ฐฉ๋ฒ•

Atos Codex Data Lake Engine ์ปดํ”Œ๋ ‰์Šค์—๋Š” ์„œ๋ฒ„ ์ž์ฒด์™€ ๋ผ์ด์„ผ์Šค๊ฐ€ ์žˆ๋Š” Cloudera ํ‚คํŠธ๋ฅผ ํฌํ•จํ•˜์—ฌ ์‚ฌ์ „ ์„ค์น˜๋œ ์†Œํ”„ํŠธ์›จ์–ด๊ฐ€ ๋ชจ๋‘ ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. Hadoop ์ž์ฒด, RedHat Enterprise Linux ์ปค๋„์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ๊ฐ€์ƒ ๋จธ์‹ ์ด ์žˆ๋Š” OpenStack, ๋ฐ์ดํ„ฐ ๋ณต์ œ ๋ฐ ๋ฐฑ์—… ์‹œ์Šคํ…œ(๋ฐฑ์—… ๋…ธ๋“œ ๋ฐ Cloudera BDR - ๋ฐฑ์—… ๋ฐ ์žฌํ•ด ๋ณต๊ตฌ ์‚ฌ์šฉ ํฌํ•จ). Atos Codex Data Lake Engine์€ ์ธ์ฆ์„ ๋ฐ›์€ ์ตœ์ดˆ์˜ ๊ฐ€์ƒํ™” ์†”๋ฃจ์…˜์ž…๋‹ˆ๋‹ค. ํด๋ผ์šฐ ๋ฐ๋ผ.

์„ธ๋ถ€ ์‚ฌํ•ญ์— ๊ด€์‹ฌ์ด ์žˆ์œผ์‹œ๋ฉด ์˜๊ฒฌ์— ์งˆ๋ฌธ์— ๋‹ต๋ณ€ํ•ด ๋“œ๋ฆฌ๊ฒ ์Šต๋‹ˆ๋‹ค.

์ถœ์ฒ˜ : habr.com

์ฝ”๋ฉ˜ํŠธ๋ฅผ ์ถ”๊ฐ€