์ ๋ฐ๋ฅด๋ฉด
์ด๋ค ๊ธฐ์ ์ญ๋์ด ๊ฐ์ฅ ์ธ๊ธฐ๊ฐ ์๋์ง ํ์ ํ๊ธฐ ์ํด 2020๋ XNUMX์ ๋ฐ์ดํฐ ์์ง๋์ด ์ง์์ ๋ํ ๊ณต์์ ๋ถ์ํ์ต๋๋ค. ๊ทธ๋ฐ ๋ค์ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ์ดํฐ ๊ณผํ์ ์ง์์ ๋ํ ๊ณต์ ํต๊ณ์ ๋น๊ตํ๋๋ฐ ๋ช ๊ฐ์ง ํฅ๋ฏธ๋ก์ด ์ฐจ์ด์ ์ด ๋ํ๋ฌ์ต๋๋ค.
๋ณ๋ค๋ฅธ ์๋ฌธ ์์ด ์ฑ์ฉ ๊ณต๊ณ ์์ ๊ฐ์ฅ ์์ฃผ ์ธ๊ธ๋๋ ์์ XNUMX๊ฐ์ง ๊ธฐ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
2020๋ ๋ฐ์ดํฐ ์์ง๋์ด ์๋ฆฌ ๊ณต์์ ๋ํ ๊ธฐ์ ์ธ๊ธ
๋ฐ์ดํฐ ์์ง๋์ด์ ์ฑ ์
์ค๋๋ ๋ฐ์ดํฐ ์์ง๋์ด๊ฐ ์ํํ๋ ์์ ์ ์กฐ์ง์ ๋งค์ฐ ์ค์ํฉ๋๋ค. ์ด๋ค์ ์ ๋ณด๋ฅผ ์ ์ฅํ๊ณ ๋ค๋ฅธ ์ง์์ด ์์ ํ ์ ์๋ ํ์์ผ๋ก ๊ฐ์ ธ์ค๋ ์ผ์ ๋ด๋นํ๋ ์ฌ๋๋ค์ ๋๋ค. ๋ฐ์ดํฐ ์์ง๋์ด๋ ์ฌ๋ฌ ์์ค์์ ๋ฐ์ดํฐ๋ฅผ ์คํธ๋ฆฌ๋ฐํ๊ฑฐ๋ ์ผ๊ด ์ฒ๋ฆฌํ๋ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ํ์ดํ๋ผ์ธ์ ์ถ์ถ, ๋ณํ ๋ฐ ๋ก๋ ์์ (์ฆ, ETL ํ๋ก์ธ์ค)์ ์ํํ์ฌ ๋ฐ์ดํฐ๋ฅผ ํฅํ ์ฌ์ฉ์ ๋ ์ ํฉํ๊ฒ ๋ง๋ญ๋๋ค. ๊ทธ ํ, ๋ฐ์ดํฐ๋ ๋ ์ฌ์ธต์ ์ธ ์ฒ๋ฆฌ๋ฅผ ์ํด ๋ถ์๊ฐ์ ๋ฐ์ดํฐ ๊ณผํ์์๊ฒ ์ ์ถ๋ฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก ๋ฐ์ดํฐ๋ ๋์๋ณด๋, ๋ณด๊ณ ์ ๋ฐ ๊ธฐ๊ณ ํ์ต ๋ชจ๋ธ์์ ์ฌ์ ์ ๋ง์นฉ๋๋ค.
์ ๋ ํ์ฌ ๋ฐ์ดํฐ ์์ง๋์ด์ ์ ๋ฌด์ ์ด๋ค ๊ธฐ์ ์ด ๊ฐ์ฅ ๋ง์ด ์๊ตฌ๋๋์ง ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์๋ ์ ๋ณด๋ฅผ ์ฐพ๊ณ ์์์ต๋๋ค.
๋ฐฉ๋ฒ
์ ๋ ์ธ ๊ฐ์ ๊ตฌ์ง ์ฌ์ดํธ์์ ์ ๋ณด๋ฅผ ์์งํ์ต๋๋ค.
๊ฐ ํค์๋์ ๋ํด ๊ฐ ์ฌ์ดํธ์ ์ ์ฒด ํ ์คํธ ์์์ ์กฐํ์ ๋น์จ์ ๊ฐ๋ณ์ ์ผ๋ก ๊ณ์ฐํ ๋ค์ ์ธ ์์ค์ ๋ํ ํ๊ท ์ ๊ณ์ฐํ์ต๋๋ค.
์กฐ์ฌ ๊ฒฐ๊ณผ
๋ค์์ XNUMX๊ฐ ์ฑ์ฉ ์ฌ์ดํธ ๋ชจ๋์์ ๊ฐ์ฅ ๋์ ์ ์๋ฅผ ๋ฐ์ XNUMX๊ฐ์ ๊ธฐ์ ๋ฐ์ดํฐ ์์ง๋์ด๋ง ์ฉ์ด์ ๋๋ค.
๋ค์์ ๋์ผํ ์ซ์์ด์ง๋ง ํ ํ์์ผ๋ก ํ์๋ฉ๋๋ค.
๊ฐ์.
๊ฒฐ๊ณผ ๊ฐ์
SQL๊ณผ Python ๋ชจ๋ ๊ฒํ ๋ ์ฑ์ฉ ๊ณต๊ณ ์ XNUMX/XNUMX ์ด์์ ๋ํ๋ฉ๋๋ค. ๋จผ์ ์ฐ๊ตฌํ๋ ๊ฒ์ด ์ด ๋ ๊ฐ์ง ๊ธฐ์ ์ ์ ํฉํฉ๋๋ค.
๊ณต์ ์ค ์ ๋ฐ ์ ๋์์ ์คํํฌ๊ฐ ์ธ๊ธ๋๋ค.
AWS๋ ์ฑ์ฉ ๊ณต๊ณ ์ ์ฝ 45%์ ๋ํ๋ฉ๋๋ค. Amazon์์ ์ ์กฐํ ํด๋ผ์ฐ๋ ์ปดํจํ
ํ๋ซํผ์
๋๋ค. ๋ชจ๋ ํด๋ผ์ฐ๋ ํ๋ซํผ ์ค์์ ๊ฐ์ฅ ํฐ ์์ฅ ์ ์ ์จ์ ์ฐจ์งํ๊ณ ์์ต๋๋ค.
๋ค์์ Java์ Hadoop์
๋๋ค. ํ์ ์ ๊ฒฝ์ฐ 40%๊ฐ ์กฐ๊ธ ๋์ต๋๋ค.
๋ง์น ํ์๋จธ์ ์ ํ ๊ฒ ๊ฐ์
๊ทธ๋ฐ ๋ค์ Hive, Scala, Kafka ๋ฐ NoSQL์ ๋ณผ ์ ์์ต๋๋ค. ์ด๋ฌํ ๊ฐ ๊ธฐ์ ์ ์ ์ถ๋ ๊ณต์์ XNUMX๋ถ์ XNUMX์์ ์ธ๊ธ๋ฉ๋๋ค. Apache Hive๋ "SQL์ ์ฌ์ฉํ์ฌ ๋ถ์ฐ ์ ์ฅ์์ ์๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ฝ๊ฒ ์ฝ๊ณ , ์ฐ๊ณ , ๊ด๋ฆฌํ ์ ์๊ฒ ํด์ฃผ๋" ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค ์ํํธ์จ์ด์
๋๋ค.
๋ฐ์ดํฐ ๊ณผํ์ ๊ณต์ ์กฐ๊ฑด๊ณผ ๋น๊ต
๋ค์์ ๋ฐ์ดํฐ ๊ณผํ ๊ณ ์ฉ์ฃผ๋ค ์ฌ์ด์์ ๊ฐ์ฅ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ XNUMX๊ฐ์ง ๊ธฐ์ ์ฉ์ด์ ๋๋ค. ์์์ ๋ฐ์ดํฐ ์์ง๋์ด๋ง์ ๋ํด ์ค๋ช ํ ๊ฒ๊ณผ ๋์ผํ ๋ฐฉ์์ผ๋ก ์ด ๋ชฉ๋ก์ ์ป์์ต๋๋ค.
2020๋ ๋ฐ์ดํฐ ๊ณผํ์ ์๋ฆฌ ๊ณต์์์ ๊ธฐ์ ์ ๋ํ ์ธ๊ธ
์ด ์ธ์์ ์ดํด๋ณด๋ฉด, ์ด์ ์ ๊ณ ๋ คํ๋ ์ฑ์ฉ์ ๋นํด ๊ณต์์ด 28% ๋ ๋ง์์ต๋๋ค(12 ๋ 013). ๋ฐ์ดํฐ ์์ง๋์ด๋ณด๋ค ๋ฐ์ดํฐ ๊ณผํ์์ ๊ณต์์์ ์ด๋ค ๊ธฐ์ ์ด ๋ ์ผ๋ฐ์ ์ธ์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค.
๋ฐ์ดํฐ ์์ง๋์ด๋ง์์ ๋ ์ธ๊ธฐ๊ฐ ์์
์๋ ๊ทธ๋ํ๋ ํ๊ท ์ฐจ์ด๊ฐ 10% ์ด์ ๋๋ -10% ๋ฏธ๋ง์ธ ํค์๋๋ฅผ ๋ณด์ฌ์ค๋๋ค.
๋ฐ์ดํฐ ์์ง๋์ด์ ๋ฐ์ดํฐ ๊ณผํ์ ์ฌ์ด์ ํค์๋ ๋น๋ ์ฐจ์ด๊ฐ ๊ฐ์ฅ ํฝ๋๋ค.
AWS๋ ๊ฐ์ฅ ํฐ ์ฆ๊ฐ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๋ฐ์ดํฐ ์์ง๋์ด๋ง์์๋ ๋ฐ์ดํฐ ๊ณผํ๋ณด๋ค 25% ๋ ์์ฃผ ๋ํ๋ฉ๋๋ค(๊ฐ๊ฐ ์ด ๊ณต์ ์์ ์ฝ 45% ๋ฐ 20%). ๊ทธ ์ฐจ์ด๊ฐ ๋์ ๋๋๋ค!
์ฌ๊ธฐ์ ์ฝ๊ฐ ๋ค๋ฅธ ํํ์ ๋์ผํ ๋ฐ์ดํฐ๊ฐ ์์ต๋๋ค. ๊ทธ๋ํ์์ ๋ฐ์ดํฐ ์์ง๋์ด ๋ฐ ๋ฐ์ดํฐ ๊ณผํ์ ์ง์์ ๋ํ ๊ณต์์์ ๋์ผํ ํค์๋์ ๋ํ ๊ฒฐ๊ณผ๊ฐ ๋๋ํ ์์นํฉ๋๋ค.
๋ฐ์ดํฐ ์์ง๋์ด์ ๋ฐ์ดํฐ ๊ณผํ์ ์ฌ์ด์ ํค์๋ ๋น๋ ์ฐจ์ด๊ฐ ๊ฐ์ฅ ํฝ๋๋ค.
์ ๊ฐ ์ฃผ๋ชฉํ ๋ค์์ผ๋ก ๊ฐ์ฅ ํฐ ๋์ฝ์ Spark์์ต๋๋ค. ๋ฐ์ดํฐ ์์ง๋์ด๋ ์ข
์ข
๋น
๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ์ด์ผ ํฉ๋๋ค.
๋ฐ์ดํฐ ์์ง๋์ด๋ง์์๋ ๋ ์ธ๊ธฐ ์์
์ด์ ๋ฐ์ดํฐ ์์ง๋์ด ์ฑ์ฉ ์ ์ด๋ค ๊ธฐ์ ์ด ๋ ์ธ๊ธฐ๊ฐ ์๋์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค.
๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ๋ถ๋ฌธ์ ๋นํด ๊ฐ์ฅ ํฐ ํ๋ฝ์ธ๋ฅผ ๋ณด์ธ ๊ฒ์
๋ฐ์ดํฐ ์์ง๋์ด๋ง๊ณผ ๋ฐ์ดํฐ ๊ณผํ ๋ชจ๋์์ ์์๊ฐ ๋์ต๋๋ค.
๋ ์ธํธ์ ์ฒ์ XNUMX๊ฐ ์์น ์ค XNUMX๊ฐ๊ฐ ๋์ผํ๋ค๋ ์ ์ ์ ์ํด์ผ ํฉ๋๋ค. SQL, Python, Spark, AWS, Java, Hadoop, Hive ๋ฐ Scala๋ ๋ฐ์ดํฐ ์์ง๋์ด๋ง ๋ฐ ๋ฐ์ดํฐ ๊ณผํ ์ฐ์ ๋ชจ๋์์ ์์ XNUMX์ ์์ ๋ค์์ต๋๋ค. ์๋ ๊ทธ๋ํ์์๋ ๋ฐ์ดํฐ ์์ง๋์ด ๊ณ ์ฉ์ฃผ ์ฌ์ด์์ ๊ฐ์ฅ ์ธ๊ธฐ ์๋ XNUMX๊ฐ์ง ๊ธฐ์ ์ ๋ณผ ์ ์์ผ๋ฉฐ, ๊ทธ ์์๋ ๋ฐ์ดํฐ ๊ณผํ์์ ๊ณต์๋ฅ ์ด ๋์ ์์ต๋๋ค.
์ถ์ฒ
๋ฐ์ดํฐ ์์ง๋์ด๋ง์ ๋ค์ด๊ฐ๊ณ ์ถ๋ค๋ฉด ๋ค์ ๊ธฐ์ ์ ์๋ฌํ๋ ๊ฒ์ด ์ข์ต๋๋ค. ๋๋ต์ ์ธ ์ฐ์ ์์์ ๋ฐ๋ผ ๋์ดํฉ๋๋ค.
SQL์ ๋ฐฐ์๋ณด์ธ์. ์ ๋ PostgreSQL์ด ์คํ ์์ค์ด๊ณ ์ปค๋ฎค๋ํฐ์์ ๋งค์ฐ ์ธ๊ธฐ๊ฐ ๋์ผ๋ฉฐ ์ฑ์ฅ ๋จ๊ณ์ ์๊ธฐ ๋๋ฌธ์ ์ชฝ์ผ๋ก ๊ธฐ์ธ๊ณ ์์ต๋๋ค. My Memorable SQL ์ฑ
์์ ์ธ์ด ์ฌ์ฉ ๋ฐฉ๋ฒ์ ๋ฐฐ์ธ ์ ์์ต๋๋ค. ํ์ผ๋ฟ ๋ฒ์ ์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
๊ฐ์ฅ ํ๋์ฝ์ด ์์ค์ ์๋๋๋ผ๋ Python์ ๋ง์คํฐํ์ธ์. My Memorable Python์ ์ด๋ณด์๋ฅผ ์ํด ํน๋ณํ ์ค๊ณ๋์์ต๋๋ค. ์์ ๊ตฌ๋งคํ์ค ์ ์์ต๋๋ค.
Python์ ์ต์ํด์ง๋ฉด ๋ฐ์ดํฐ ์ ๋ฆฌ ๋ฐ ์ฒ๋ฆฌ์ ์ฌ์ฉ๋๋ Python ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ธ pandas๋ก ๋์ด๊ฐ๋๋ค. Python์ผ๋ก ์์ฑํ๋ ๋ฅ๋ ฅ์ด ํ์ํ ํ์ฌ์์ ์ผํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๊ณ ์๋ค๋ฉด(๊ทธ๋ฆฌ๊ณ ์ด๊ฒ์ด ๋๋ถ๋ถ์
๋๋ค), ๊ธฐ๋ณธ์ ์ผ๋ก pandas์ ๋ํ ์ง์์ด ์๋ค๊ณ ๊ฐ์ ํ ์ ์์ต๋๋ค. ์ ๋ ํ์ฌ ํฌ๋ ์์
์ ๋ํ ์๊ฐ ๊ฐ์ด๋๋ฅผ ๋ง๋ฌด๋ฆฌํ๊ณ ์์ต๋๋ค.
๋ง์คํฐ AWS. ๋ฐ์ดํฐ ์์ง๋์ด๊ฐ ๋๊ณ ์ถ๋ค๋ฉด ํด๋ผ์ฐ๋ ํ๋ซํผ ์์ด๋ ํ ์ ์์ผ๋ฉฐ AWS๊ฐ ๊ฐ์ฅ ์ธ๊ธฐ๊ฐ ์์ต๋๋ค. ๊ฐ์๊ฐ ๋์๊ฒ ๋ง์ ๋์์ด ๋์๋ค
์ด๋ฏธ ์ด ์ ์ฒด ๋ชฉ๋ก์ ์๋ฃํ๊ณ ๊ณ ์ฉ์ฃผ์ ๋์ ๋ฐ์ดํฐ ์์ง๋์ด๋ก ๋์ฑ ์ฑ์ฅํ๊ณ ์ถ๋ค๋ฉด ๋น ๋ฐ์ดํฐ ์์ ์ ์ํด Apache Spark๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ด ์ข์ต๋๋ค. ๋ฐ์ดํฐ ๊ณผํ์ ๊ณต์์ ๋ํ ๋ด ์ฐ๊ตฌ์์ ๊ด์ฌ์ด ๊ฐ์ํ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ง๋ง ๋ฐ์ดํฐ ์์ง๋์ด ์ฌ์ด์์๋ ์ฌ์ ํ ๊ฑฐ์ ๋ชจ๋ ๊ณต์์ ๊ด์ฌ์ด ๋ํ๋ฉ๋๋ค.
๋ง์ง๋ง์
๋ฐ์ดํฐ ์์ง๋์ด์๊ฒ ๊ฐ์ฅ ์์๊ฐ ๋ง์ ๊ธฐ์ ์ ๋ํ ์ด ๊ฐ์๊ฐ ๋์์ด ๋์๊ธฐ๋ฅผ ๋ฐ๋๋๋ค. ๋ถ์๊ฐ ์ง์
์ด ์ด๋ป๊ฒ ์งํ๋๊ณ ์๋์ง ๊ถ๊ธํ๋ค๋ฉด ๋ค์์ ์ฝ์ด๋ณด์ธ์.
์ถ์ฒ : habr.com