Statista์ ๋ฐ๋ฅด๋ฉด, ๋น
๋ฐ์ดํฐ ์์ฅ ๊ท๋ชจ๋ 2025๋
175์ ํ๋ฐ์ดํธ์์ 41๋
์๋ 2019์ ํ๋ฐ์ดํธ๋ก ์ฑ์ฅํ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค.
๋จธ๋ฆฌ๋ง
๋ฐ์ดํฐ ์์ง๋์ด๋ ๋ฌด์์ธ๊ฐ์? ๋ฐ์ดํฐ ๊ณผํ ํ๋ก์ ํธ์์ ๋ฐ์ดํฐ ์ํคํ ์ฒ๋ฅผ ์์ฑํ๊ณ ์ ์ง ๊ด๋ฆฌํ๋ ์ฌ๋์ ๋๋ค. ์ฑ ์์๋ ์๋ฒ์ ์ ํ๋ฆฌ์ผ์ด์ ๊ฐ์ ์ํํ ๋ฐ์ดํฐ ํ๋ฆ ๋ณด์ฅ, ์๋ก์ด ๋ฐ์ดํฐ ๊ด๋ฆฌ ์ํํธ์จ์ด ํตํฉ, ๊ธฐ๋ณธ ๋ฐ์ดํฐ ํ๋ก์ธ์ค ๊ฐ์ ๋ฐ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ ์์ฑ์ด ํฌํจ๋ ์ ์์ต๋๋ค.
ํด๋ผ์ฐ๋ ์ปดํจํ , ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค, ETL(์ถ์ถ, ๋ณํ, ๋ก๋ฉ) ๋ฑ์ ์์ ํ๊ธฐ ์ํด ๋ฐ์ดํฐ ์์ง๋์ด๊ฐ ์๋ฌํด์ผ ํ๋ ๊ธฐ์ ๊ณผ ๋๊ตฌ๋ ์์ฒญ๋๊ฒ ๋ง์ต๋๋ค. ๋ํ ํ์ํ ๊ธฐ์ ์ ์๋ ๊ณ์ ์ฆ๊ฐํ๊ณ ์์ต๋๋ค. ๋ฐ๋ผ์ ๋ฐ์ดํฐ ์์ง๋์ด๋ ์ ๊ธฐ์ ์ผ๋ก ์ง์์ ๋ณด์ถฉํด์ผ ํฉ๋๋ค. ์ฐ๋ฆฌ ๋ชฉ๋ก์๋ ์ด๋ณด์์ ์๋ จ๋ ์ ๋ฌธ๊ฐ๋ฅผ ์ํ ๊ณผ์ ์ด ํฌํจ๋์ด ์์ต๋๋ค. ๋น์ ์๊ฒ ๋ง๋ ๊ฒ์ ์ ํํ์ญ์์ค.
1. ๋ฐ์ดํฐ๊ณตํ ๋๋
ธํ์ ์๊ฒฉ์ฆ (
๋ฐ์ดํฐ ๋ชจ๋ธ์ ์ค๊ณํ๊ณ , ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค์ ๋ฐ์ดํฐ ๋ ์ดํฌ๋ฅผ ์์ฑํ๊ณ , ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ์๋ํํ๊ณ , ๋ฐ์ดํฐ ์ธํธ ๋ฐฐ์ด์ ์ฌ์ฉํ์ฌ ์์ ํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๊ฒ ๋ฉ๋๋ค. ํ๋ก๊ทธ๋จ์ด ๋๋๋ฉด Capstone ํ๋ก์ ํธ๋ฅผ ์๋ฃํ์ฌ ์๋ก์ด ๊ธฐ์ ์ ํ ์คํธํ๊ฒ ๋ฉ๋๋ค.
์ง์: 5๊ฐ์, ์ฃผ 5์๊ฐ
์ธ์ด: ์์ด
๊ฐ๊ฒฉ: $ 1695
์ํ: ์ด๊ธฐ์
2. ๋ฐ์ดํฐ ์์ง๋์ด ์๊ฒฉ์ฆ ์ทจ๋(
๊ธฐ์ด๋ถํฐ ๊ฐ๋ฅด์น๊ณ ์์ต๋๋ค. ๊ฐ์์ ์ค์ต ํ๋ก์ ํธ๋ฅผ ํตํด ๋จ๊ณ๋ณ๋ก ๊ธฐ์ ์ ์ฐ๋งํ ์ ์์ต๋๋ค. ๊ต์ก์ด ๋๋๋ฉด ML ๋ฐ ๋น ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ์ค๋น๊ฐ ๋ฉ๋๋ค. ์ต์ํ ์ต์ํ์ ์์ค์์๋ Python์ ์๋ ๊ฒ์ด ์ข์ต๋๋ค.
์ง์: 8๊ฐ์, ์ฃผ 10์๊ฐ
์ธ์ด: ์์ด
๊ฐ๊ฒฉ๐
์ํ: ์ด๊ธฐ์
3. ๋ฐ์ดํฐ ์์ง๋์ด ๋๊ธฐ: ๊ฐ๋
์ตํ๊ธฐ(
๋ฐ์ดํฐ ์์ง๋์ด๋ง ๋ฐ DevOps ๊ธฐ์ ์ ๊ฐ๋ฐํ๊ณ , ๋น
๋ฐ์ดํฐ ์ ํ๋ฆฌ์ผ์ด์
์ ์์ฑํ๋ ๋ฐฉ๋ฒ, ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ์์ฑํ๊ณ , Hazelcast ๋ฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ์ฌ์ฉํ์ฌ ์ค์๊ฐ์ผ๋ก ์ ํ๋ฆฌ์ผ์ด์
์ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์๋๋ค.
์ง์: ๋์๊ฒ ๋ฌ๋ ธ๋ค
์ธ์ด: ์์ด
๊ฐ๊ฒฉ: ์ฒซ ๋ฌ - ๋ฌด๋ฃ
์ํ: ์ด๊ธฐ์
4. ๋ฐ์ดํฐ๊ณตํ๊ณผ๋ชฉ (
๋ค์์ ๋ฐ์ดํฐ ์์ง๋์ด๋ง์ ์๊ฐํ๊ณ ๋ถ์ ์๋ฃจ์ ์ ๊ฐ๋ฐํ๋ ๋ฐฉ๋ฒ์ ์๋ ค์ฃผ๋ ์ผ๋ จ์ ํ๋ก๊ทธ๋จ์ ๋๋ค. ์ฝ์ค๋ ๋์ด๋์ ๋ฐ๋ผ ์นดํ ๊ณ ๋ฆฌ๋ก ๋๋์ด์ ธ ์์ผ๋ฏ๋ก ๊ฒฝํ ์์ค์ ๋ฐ๋ผ ํ๋๋ฅผ ์ ํํ ์ ์์ต๋๋ค. ๊ต์ก ์ค์๋ Spark, Hadoop, Azure๋ฅผ ์ฌ์ฉํ๊ณ ๊ธฐ์ ๋ฐ์ดํฐ๋ฅผ ๊ด๋ฆฌํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๊ฒ ๋ฉ๋๋ค.
์ง์: ๋์๊ฒ ๋ฌ๋ ธ๋ค
์ธ์ด: ์์ด
๊ฐ๊ฒฉ: ์ ํํ ์ฝ์ค์ ๋ฐ๋ผ ๋ค๋ฆ
์ํ: ์ด๊ธ, ์ค๊ธ, ๊ณ ๊ธ
5. ๋ฐ์ดํฐ ์์ง๋์ด (
Python์ ๋ํ ๊ฒฝํ์ด ์๊ณ ์ง์์ ์ฌํํ๊ณ ๋ฐ์ดํฐ ๊ณผํ์๋ก์์ ๊ฒฝ๋ ฅ์ ์๊ณ ์ถ๋ค๋ฉด ์ด ๊ณผ์ ์ ์๊ฐํ ๊ฐ์น๊ฐ ์์ต๋๋ค. Python ๋ฐ Pandas๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ๊ณ ์ ๋ฆฌ, ๋ณํ ๋ฐ ๊ฒ์ฆ ํ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ธํธ๋ฅผ Postgres ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ๋ก๋ํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์๋๋ค.
์ง์: ๋์๊ฒ ๋ฌ๋ ธ๋ค
์ธ์ด: ์์ด
๊ฐ๊ฒฉ: ๊ตฌ๋
์์์ ๋ฐ๋ผ ๋ค๋ฆ
์ํ: ์ด๊ธ, ์ค๊ธ
6. Google Cloud๋ฅผ ํ์ฉํ ๋ฐ์ดํฐ ์์ง๋์ด๋ง(
์ด ๊ณผ์ ์ ๋น ๋ฐ์ดํฐ ๋ถ์ผ์์ ๊ฒฝ๋ ฅ์ ์๋ ๋ฐ ํ์ํ ๊ธฐ์ ์ ์ต๋ํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด BigQuery, Spark๋ก ์์ ํฉ๋๋ค. ์ ๊ณ์์ ์ธ์ ๋ฐ๋ Google Cloud ์ ๋ฌธ ๋ฐ์ดํฐ ์์ง๋์ด ์๊ฒฉ์ฆ์ ์ค๋นํ๋ ๋ฐ ํ์ํ ์ง์์ ์ป์ ์ ์์ต๋๋ค.
์ง์: 4๊ฐ์
์ธ์ด: ์์ด
๊ฐ๊ฒฉ: ์ง๊ธ์ ๋ฌด๋ฃ
์ํ: ์ด๊ธ, ์ค๊ธ
7. ๋ฐ์ดํฐ ์์ง๋์ด๋ง, Google Cloud Platform์ ๋น
๋ฐ์ดํฐ(
GCP์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์์คํ ์ ๋ํ ์ค์ฉ์ ์ธ ์ง์์ ์ ๊ณตํ๋ ํฅ๋ฏธ๋ก์ด ๊ณผ์ ์ ๋๋ค. ์์ ์ค์๋ ๊ฐ๋ฐ ํ๋ก์ธ์ค๋ฅผ ์์ํ๊ธฐ ์ ์ ์์คํ ์ ์ค๊ณํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๊ฒ ๋ฉ๋๋ค. ๋ํ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ์ ๊ตฌ์กฐํ๋์ง ์์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ๋ถ์ํ๊ณ , ์๋ ํฌ๊ธฐ ์กฐ์ ์ ์ ์ฉํ๊ณ , ML ๊ธฐ์ ์ ์ ์ฉํ์ฌ ์ ๋ณด๋ฅผ ์ถ์ถํฉ๋๋ค.
์ง์: 3๊ฐ์
์ธ์ด: ์์ด
๊ฐ๊ฒฉ: ์ง๊ธ์ ๋ฌด๋ฃ
์ํ: ์ด๊ธ, ์ค๊ธ
8. UC San Diego: ๋น
๋ฐ์ดํฐ ์ ๋ฌธํ(
์ด ๊ณผ์ ์ Hadoop ๋ฐ Spark ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ๊ณ ์ด๋ฌํ ๋น ๋ฐ์ดํฐ ๊ธฐ์ ์ ML ํ๋ก์ธ์ค์ ์ ์ฉํ๋ ๊ฒ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. MapReduce, Spark, Pig ๋ฐ Hive์ ํจ๊ป Hadoop์ ์ฌ์ฉํ๋ ๊ธฐ๋ณธ ์ฌํญ์ ์์๋ด ๋๋ค. ์์ธก ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ณ ๊ทธ๋ํ ๋ถ์์ ์ฌ์ฉํ์ฌ ๋ฌธ์ ๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋ฐฉ๋ฒ์ ์์๋ณด์ธ์. ์ด ๊ณผ์ ์๋ ํ๋ก๊ทธ๋๋ฐ ๊ฒฝํ์ด ํ์ํ์ง ์์ต๋๋ค.
์ง์: 8๊ฐ์ ์ฃผ๋น 10์๊ฐ
์ธ์ด: ์์ด
๊ฐ๊ฒฉ: ์ง๊ธ์ ๋ฌด๋ฃ
์ํ: ์ด๊ธฐ์
9. Apache Spark์ Python์ผ๋ก ๋น
๋ฐ์ดํฐ ๊ธธ๋ค์ด๊ธฐ(
Spark3์์ ์คํธ๋ฆผ ๊ตฌ์กฐ์ ๋ฐ์ดํฐ ํ๋ ์์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๊ณ , Amazon์ Elastic MapReduce ์๋น์ค๋ฅผ ์ฌ์ฉํ์ฌ Hadoop ํด๋ฌ์คํฐ์ ์์ ํ๋ ๋ฐฉ๋ฒ์ ์ดํดํ๊ฒ ๋ฉ๋๋ค. ๋น ๋ฐ์ดํฐ ๋ถ์์์ ๋ฌธ์ ๋ฅผ ์๋ณํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๊ณ GraphX โโ๋ผ์ด๋ธ๋ฌ๋ฆฌ๊ฐ ๋คํธ์ํฌ ๋ถ์๊ณผ ํจ๊ป ์๋ํ๋ ๋ฐฉ์๊ณผ MLlib๋ฅผ ์ฌ์ฉํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ดํดํฉ๋๋ค.
์ง์: ๋์๊ฒ ๋ฌ๋ ธ๋ค
์ธ์ด: ์์ด
๊ฐ๊ฒฉ: 800๋ฃจ๋ธ๋ถํฐ $149,99๊น์ง (์ด์ ๋ฐ๋ผ ๋ค๋ฆ)
์ํ: ์ด๊ธ, ์ค๊ธ
10. ๋น
๋ฐ์ดํฐ๊ณตํ PG ํ๋ก๊ทธ๋จ (
์ด ๊ณผ์ ์ ํตํด Aadhaar์ ์๋ ๋ฐฉ์, Facebook์ด ๋ด์ค ํผ๋๋ฅผ ๊ฐ์ธํํ๋ ๋ฐฉ์, ๋ฐ์ดํฐ ์์ง๋์ด๋ง์ด ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ๋ฐฉ์์ ์ดํดํ ์ ์์ต๋๋ค. ์ฃผ์ ์ฃผ์ ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ(์ค์๊ฐ ์ฒ๋ฆฌ ํฌํจ), MapReduce, ๋น ๋ฐ์ดํฐ ๋ถ์์ ๋๋ค.
์ง์: 11๊ฐ์
์ธ์ด: ์์ด
๊ฐ๊ฒฉ: ์ฝ $3000
์ํ: ์ด๊ธฐ์
11. ์ง์
๋ฐ์ดํฐ ๊ณผํ์ (
Python์ผ๋ก ํ๋ก๊ทธ๋๋ฐํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๊ณ ์ ๊ฒฝ๋ง Tensorflow ๋ฐ Keras ํ๋ จ์ ์ํ ํ๋ ์์ํฌ๋ฅผ ์ฐ๊ตฌํฉ๋๋ค. MongoDB, PostgreSQL, SQLite3 ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ๋ง์คํฐํ๊ณ Pandas, NumPy ๋ฐ Matpotlib ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์์ ๋ฐฉ๋ฒ์ ์์๋ณด์ธ์.
์ง์: 300์๊ฐ ํ๋ จ
์ธ์ด: ๋ฌ์์์ด
๊ฐ๊ฒฉ: ์ฒ์ 3900๊ฐ์์ ๋ฌด๋ฃ, ๊ทธ ์ดํ์๋ ์ XNUMX๋ฃจ๋ธ
์ํ: ์ด๊ธฐ์
12. ๋ฐ์ดํฐ ์์ง๋์ด 7.0 (
Kafka, HDFS, ClickHouse, Spark, Airflow, ๋๋ค ์ํคํ ์ฒ ๋ฐ ์นดํ ์ํคํ ์ฒ์ ๋ํ ์ฌ์ธต์ ์ธ ์ฐ๊ตฌ๋ฅผ ๋ฐ๊ฒ ๋ฉ๋๋ค. ๋๊ตฌ๋ฅผ ์๋ก ์ฐ๊ฒฐํ๊ณ , ํ์ดํ๋ผ์ธ์ ํ์ฑํ๊ณ , ๊ธฐ๋ณธ ์๋ฃจ์ ์ ์ป๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๊ฒ ๋ฉ๋๋ค. ๊ณต๋ถํ๋ ค๋ฉด Python 3์ ๋ํ ์ต์ํ์ ์ง์์ด ํ์ํฉ๋๋ค.
์ง์: 21ํ ์์
, 7์ฃผ
์ธ์ด: ๋ฌ์์์ด
๊ฐ๊ฒฉ: 60 ~ 000 ๋ฃจ๋ธ
์ํ: ์ด๊ธฐ์
๋ชฉ๋ก์ ๋ค๋ฅธ ์ข์ ๊ฐ์ข๋ฅผ ์ถ๊ฐํ๊ณ ์ถ๋ค๋ฉด ๋๊ธ์ด๋ PM์์ ๊ตฌ๋ ์ ์ทจ์ํ ์ ์์ต๋๋ค. ๊ฒ์๋ฌผ์ ์ ๋ฐ์ดํธํ๊ฒ ์ต๋๋ค.
๋ธ๋ก๊ทธ์์ ๋ฌด์์ ๋ ์ฝ์ ์ ์์ต๋๊น?
โ
โ
โ
โ
โ
์ฐ๋ฆฌ์ ๊ตฌ๋
์ถ์ฒ : habr.com