ChatGPT์ ๊ฐ์ ์์ฉ ์ ํ๊ณผ ๊ฒฝ์ํ๋ ์ง๋ฅํ ๋น์๋ฅผ ๋ง๋๋ ๋ฐ ์ฌ์ฉํ ์ ์๋ ๊ฐ๋ฐฉํ ๊ธฐ๊ณ ํ์ต ๋ชจ๋ธ๊ณผ ํจ๊ป ์ ๊ณต๋๋ ๊ต์ก ์ ๋ ฅ์ ๋ง๋๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ ๊ณต๋ ํ๋ก์ ํธ์ธ RedPajama๋ฅผ ๋์ ํ์ต๋๋ค. ์คํ ์์ค ๋ฐ์ดํฐ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๊ฐ์ฉ์ฑ์ผ๋ก ์ธํด ๋ ๋ฆฝ์ ์ธ ๊ธฐ๊ณ ํ์ต ์ฐ๊ตฌํ์ด ์์ ๋ก์์ง๊ณ ๋ง์ถคํ ๋ํ ์์คํ ์ ๋ณด๋ค ์ฝ๊ฒ โโ๊ตฌ์ถํ ์ ์์ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค. Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research ๋ฐ MILA Quรฉbec AI Institute์ ๊ฐ์ ์กฐ์ง ๋ฐ ์ปค๋ฎค๋ํฐ๊ฐ ํ๋ก์ ํธ์ ์ฐธ์ฌํ์ต๋๋ค.
์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ 1์กฐ 1.2์ฒ์ต ๊ฐ์ ํ ํฐ์ด ํฌํจ๋ ๋ํ ๋ชจ๋ธ ๊ต์ก์ฉ RedPajama-Data-1.25T ๋ฐ์ดํฐ ์ธํธ๋ฅผ ๊ฒ์ํ๋ ๊ฒ์ด์์ต๋๋ค. RedPajama ์ ํ๊ตฐ์ Facebook์ด LLaMA ๋ชจ๋ธ(1์กฐ 2.67์ต ํ ํฐ ๊ฐ์น)์ ์์ฑํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ๊ณต๊ฐ์ ์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์์ฐํ์ง๋ง ๊ฐ๋ฐฉํ ์คํ ์์ค ๋ผ์ด์ผ์ค์ ๋ฐ๋ผ ์ ๊ณต๋ฉ๋๋ค(LLaMA ๋ฐ์ดํฐ ๋ฐ ๋ชจ๋ธ์ ํน๋ณํ ์์ฒญ์ด ์๋ ๊ฒฝ์ฐ์๋ง ์ฐ๊ตฌ์์๊ฒ ์ ๊ณต๋ฉ๋๋ค). -์์ ์ ์ฌ์ฉ). RedPajama-Data-XNUMXT ๋ค์ด๋ก๋ ๊ฐ๋ฅ ์ธํธ์ ํฌ๊ธฐ๋ XNUMXTB์ด๋ฉฐ Common Crawl ์์ธ ์น ํ์ด์ง, Wikipedia ์์นด์ด๋ธ, GitHub์ ์์ค ์ฝ๋, Gutenberg ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๊ณต๊ฐ ๋๋ฉ์ธ ์์ , ArXiv ์์นด์ด๋ธ์ ๊ณผํ โโ๊ธฐ์ฌ ๋ฐ ํ ๋ก ์ด ํฌํจ๋์ด ์์ต๋๋ค. Stack Overflow ๋ฐ ๊ธฐํ Stack Exchange ์ฌ์ดํธ.
์ค๋น๋ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ จ๋๊ณ Alpaca ๋ฐ OpenChatKit ํ๋ก์ ํธ์ ์ง์-์คํ ํํ๋ก ๊ธฐ์ฑ ๋ํ ์์๋ฅผ ์ฌ์ฉํ์ฌ ์ต์ ํ๋ ๊ธฐ์ฑ ๋ชจ๋ธ์ด ์์ผ๋ก ๋ช ์ฃผ ๋ด์ ํ์ฑ๋ ์์ ์ ๋๋ค. ์ ์ฌํ ์ธ์ด ๋ชจ๋ธ ์ด๋์ ํฐ๋ธ์๋ ๋ถ๋ถ ์คํ ์์ค ํ๋ก์ ํธ์ธ LLaMA, Alpaca, Vicuna ๋ฐ Koala์ ์์ ํ ์คํ ์์ค ์ด๋์ ํฐ๋ธ์ธ Pythia, OpenChatKit, Open Assistant ๋ฐ Dolly๊ฐ ํฌํจ๋ฉ๋๋ค.
๋ํ ๊ธฐ๊ณ ํ์ต๊ณผ ๊ด๋ จ๋ ๋ช ๊ฐ์ง ์๋ก์ด ํ๋ก์ ํธ๋ฅผ ์ฃผ๋ชฉํ ์ ์์ต๋๋ค.
- MiniGPT-4 - ์๊ฐ์ ์ ๋ณด๋ฅผ ๊ณ ๋ คํ๋ ๊ธฐ๋ฅ์ผ๋ก ๊ธฐ์กด ๋ํํ ์ฑ๋ด์ ํ์ฅํฉ๋๋ค. ์ด๋ฅผ ํตํด ์์คํ ๊ณผ ์ํธ ์์ฉํ ๋ ์ด๋ฏธ์ง๋ฅผ ๋ถ์ํ๊ณ ์์ผ๋ก ์ด ํ ์คํธ๋ฅผ ๊ณ ๋ คํ ์ ์์ต๋๋ค(์: ์ฌ์ง์ ์ด๋ค ์ข ๋ฅ์ ๊ฐ์ฒด๊ฐ ํ์๋๋์ง ๋ฌผ์ด๋ณผ ์ ์์) , ๋ด์๊ฒ ์ฌ์ง์ ํ์๋ ์คํ ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์คํ ๋ฆฌ๋ฅผ ์์ฑํ๋๋ก ์์ฒญํ๊ฑฐ๋ ๋์ ์ค์ผ์น๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์น์ฌ์ดํธ ์์ฑ์ ์์ฒญํ์ธ์). MiniGPT-4 ๊ตฌํ์ Python์ผ๋ก ์์ฑ๋์์ผ๋ฉฐ BSD ๋ผ์ด์ผ์ค์ ๋ฐ๋ผ ๋ฐฐํฌ๋ฉ๋๋ค.
- Facebook์ ์ผ๋ฐํ๋ ์๊ฐ์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ(์ด๋ฏธ์ง ๋ถ๋ฅ, ์ด๋ฏธ์ง์ ๊ฐ์ฒด, ๋น๋์ค์์ ๋ฌด์จ ์ผ์ด ์ผ์ด๋๊ณ ์๋์ง ์ดํด) ๋ฐ ํฝ์ ์์ค์ ์กฐ์(๊น์ด ์์ธก, ๋ถํ ). ์ด ๋ชจ๋ธ์ 2์ต 142๋ง ๊ฐ์ ์ด๋ฏธ์ง ์ปฌ๋ ์ ์ ๋์์ผ๋ก ํ์ต๋์์ต๋๋ค. ๊ตฌํ์ Python์ผ๋ก ์์ฑ๋์์ผ๋ฉฐ Creative Commons Attribution-NonCommercial 4.0 ๋ผ์ด์ ์ค์ ๋ฐ๋ผ ๋ฐฐํฌ๋๋ฏ๋ก ๋น์์ ์ ์ฌ์ฉ์ด ํ์ฉ๋ฉ๋๋ค.
- GPT4All์ ์์ฒด ํ๋์จ์ด์์ ๋ ๋ฆฝํ ์ฑ๋ด์ ๋น ๋ฅด๊ฒ ์์ํ๊ธฐ ์ํ ํดํท์ ๋๋ค(์ธ๋ถ ์๋น์ค์ ์ก์ธ์คํ์ง ์๊ณ ์คํ์ ์ํด AVX2 ์ง์ CPU๋ฅผ ์ฌ์ฉํ์ง ์์). GPT-J ๋ฐ LLaMa ๊ธฐ๋ฐ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ์ฐ๊ฒฐ์ ์ง์ํฉ๋๋ค. ์ฝ๋๋ Python์ผ๋ก ์์ฑ๋์์ผ๋ฉฐ MIT ๋ผ์ด์ ์ค์ ๋ฐ๋ผ ๋ฐฐํฌ๋ฉ๋๋ค.
์ถ์ฒ : opennet.ru