RedPajama ํ”„๋กœ์ ํŠธ๋Š” ์ธ๊ณต ์ง€๋Šฅ ์‹œ์Šคํ…œ์„ ์œ„ํ•œ ๊ฐœ๋ฐฉํ˜• ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ๊ฐœ๋ฐœํ•ฉ๋‹ˆ๋‹ค.

ChatGPT์™€ ๊ฐ™์€ ์ƒ์šฉ ์ œํ’ˆ๊ณผ ๊ฒฝ์Ÿํ•˜๋Š” ์ง€๋Šฅํ˜• ๋น„์„œ๋ฅผ ๋งŒ๋“œ๋Š” ๋ฐ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐœ๋ฐฉํ˜• ๊ธฐ๊ณ„ ํ•™์Šต ๋ชจ๋ธ๊ณผ ํ•จ๊ป˜ ์ œ๊ณต๋˜๋Š” ๊ต์œก ์ž…๋ ฅ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ๊ณต๋™ ํ”„๋กœ์ ํŠธ์ธ RedPajama๋ฅผ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜คํ”ˆ ์†Œ์Šค ๋ฐ์ดํ„ฐ์™€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ฐ€์šฉ์„ฑ์œผ๋กœ ์ธํ•ด ๋…๋ฆฝ์ ์ธ ๊ธฐ๊ณ„ ํ•™์Šต ์—ฐ๊ตฌํŒ€์ด ์ž์œ ๋กœ์›Œ์ง€๊ณ  ๋งž์ถคํ˜• ๋Œ€ํ™” ์‹œ์Šคํ…œ์„ ๋ณด๋‹ค ์‰ฝ๊ฒŒ โ€‹โ€‹๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค. Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research ๋ฐ MILA Quรฉbec AI Institute์™€ ๊ฐ™์€ ์กฐ์ง ๋ฐ ์ปค๋ฎค๋‹ˆํ‹ฐ๊ฐ€ ํ”„๋กœ์ ํŠธ์— ์ฐธ์—ฌํ–ˆ์Šต๋‹ˆ๋‹ค.

์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” 1์กฐ 1.2์ฒœ์–ต ๊ฐœ์˜ ํ† ํฐ์ด ํฌํ•จ๋œ ๋Œ€ํ™” ๋ชจ๋ธ ๊ต์œก์šฉ RedPajama-Data-1.25T ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ๊ฒŒ์‹œํ•˜๋Š” ๊ฒƒ์ด์—ˆ์Šต๋‹ˆ๋‹ค. RedPajama ์ œํ’ˆ๊ตฐ์€ Facebook์ด LLaMA ๋ชจ๋ธ(1์กฐ 2.67์–ต ํ† ํฐ ๊ฐ€์น˜)์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•˜๋Š” ๊ณต๊ฐœ์ ์œผ๋กœ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์žฌ์ƒ์‚ฐํ•˜์ง€๋งŒ ๊ฐœ๋ฐฉํ˜• ์˜คํ”ˆ ์†Œ์Šค ๋ผ์ด์„ผ์Šค์— ๋”ฐ๋ผ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค(LLaMA ๋ฐ์ดํ„ฐ ๋ฐ ๋ชจ๋ธ์€ ํŠน๋ณ„ํ•œ ์š”์ฒญ์ด ์žˆ๋Š” ๊ฒฝ์šฐ์—๋งŒ ์—ฐ๊ตฌ์›์—๊ฒŒ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค). -์ƒ์—…์  ์‚ฌ์šฉ). RedPajama-Data-XNUMXT ๋‹ค์šด๋กœ๋“œ ๊ฐ€๋Šฅ ์„ธํŠธ์˜ ํฌ๊ธฐ๋Š” XNUMXTB์ด๋ฉฐ Common Crawl ์ƒ‰์ธ ์›น ํŽ˜์ด์ง€, Wikipedia ์•„์นด์ด๋ธŒ, GitHub์˜ ์†Œ์Šค ์ฝ”๋“œ, Gutenberg ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ ๊ณต๊ฐœ ๋„๋ฉ”์ธ ์„œ์ , ArXiv ์•„์นด์ด๋ธŒ์˜ ๊ณผํ•™ โ€‹โ€‹๊ธฐ์‚ฌ ๋ฐ ํ† ๋ก ์ด ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. Stack Overflow ๋ฐ ๊ธฐํƒ€ Stack Exchange ์‚ฌ์ดํŠธ.

์ค€๋น„๋œ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ›ˆ๋ จ๋˜๊ณ  Alpaca ๋ฐ OpenChatKit ํ”„๋กœ์ ํŠธ์˜ ์ง€์‹œ-์‹คํ–‰ ํ˜•ํƒœ๋กœ ๊ธฐ์„ฑ ๋Œ€ํ™” ์˜ˆ์‹œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ตœ์ ํ™”๋œ ๊ธฐ์„ฑ ๋ชจ๋ธ์ด ์•ž์œผ๋กœ ๋ช‡ ์ฃผ ๋‚ด์— ํ˜•์„ฑ๋  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค. ์œ ์‚ฌํ•œ ์–ธ์–ด ๋ชจ๋ธ ์ด๋‹ˆ์…”ํ‹ฐ๋ธŒ์—๋Š” ๋ถ€๋ถ„ ์˜คํ”ˆ ์†Œ์Šค ํ”„๋กœ์ ํŠธ์ธ LLaMA, Alpaca, Vicuna ๋ฐ Koala์™€ ์™„์ „ํ•œ ์˜คํ”ˆ ์†Œ์Šค ์ด๋‹ˆ์…”ํ‹ฐ๋ธŒ์ธ Pythia, OpenChatKit, Open Assistant ๋ฐ Dolly๊ฐ€ ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.

๋˜ํ•œ ๊ธฐ๊ณ„ ํ•™์Šต๊ณผ ๊ด€๋ จ๋œ ๋ช‡ ๊ฐ€์ง€ ์ƒˆ๋กœ์šด ํ”„๋กœ์ ํŠธ๋ฅผ ์ฃผ๋ชฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • MiniGPT-4 - ์‹œ๊ฐ์  ์ •๋ณด๋ฅผ ๊ณ ๋ คํ•˜๋Š” ๊ธฐ๋Šฅ์œผ๋กœ ๊ธฐ์กด ๋Œ€ํ™”ํ˜• ์ฑ—๋ด‡์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์‹œ์Šคํ…œ๊ณผ ์ƒํ˜ธ ์ž‘์šฉํ•  ๋•Œ ์ด๋ฏธ์ง€๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์†์œผ๋กœ ์“ด ํ…์ŠคํŠธ๋ฅผ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(์˜ˆ: ์‚ฌ์ง„์— ์–ด๋–ค ์ข…๋ฅ˜์˜ ๊ฐœ์ฒด๊ฐ€ ํ‘œ์‹œ๋˜๋Š”์ง€ ๋ฌผ์–ด๋ณผ ์ˆ˜ ์žˆ์Œ) , ๋ด‡์—๊ฒŒ ์‚ฌ์ง„์— ํ‘œ์‹œ๋œ ์Šคํ† ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์Šคํ† ๋ฆฌ๋ฅผ ์ž‘์„ฑํ•˜๋„๋ก ์š”์ฒญํ•˜๊ฑฐ๋‚˜ ๋„์‹ ์Šค์ผ€์น˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์›น์‚ฌ์ดํŠธ ์ƒ์„ฑ์„ ์š”์ฒญํ•˜์„ธ์š”). MiniGPT-4 ๊ตฌํ˜„์€ Python์œผ๋กœ ์ž‘์„ฑ๋˜์—ˆ์œผ๋ฉฐ BSD ๋ผ์ด์„ผ์Šค์— ๋”ฐ๋ผ ๋ฐฐํฌ๋ฉ๋‹ˆ๋‹ค.
  • Facebook์€ ์ผ๋ฐ˜ํ™”๋œ ์‹œ๊ฐ์  ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ(์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜, ์ด๋ฏธ์ง€์˜ ๊ฐœ์ฒด, ๋น„๋””์˜ค์—์„œ ๋ฌด์Šจ ์ผ์ด ์ผ์–ด๋‚˜๊ณ  ์žˆ๋Š”์ง€ ์ดํ•ด) ๋ฐ ํ”ฝ์…€ ์ˆ˜์ค€์˜ ์กฐ์ž‘(๊นŠ์ด ์˜ˆ์ธก, ๋ถ„ํ• ). ์ด ๋ชจ๋ธ์€ 2์–ต 142๋งŒ ๊ฐœ์˜ ์ด๋ฏธ์ง€ ์ปฌ๋ ‰์…˜์„ ๋Œ€์ƒ์œผ๋กœ ํ•™์Šต๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌํ˜„์€ Python์œผ๋กœ ์ž‘์„ฑ๋˜์—ˆ์œผ๋ฉฐ Creative Commons Attribution-NonCommercial 4.0 ๋ผ์ด์„ ์Šค์— ๋”ฐ๋ผ ๋ฐฐํฌ๋˜๋ฏ€๋กœ ๋น„์ƒ์—…์  ์‚ฌ์šฉ์ด ํ—ˆ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • GPT4All์€ ์ž์ฒด ํ•˜๋“œ์›จ์–ด์—์„œ ๋…๋ฆฝํ˜• ์ฑ—๋ด‡์„ ๋น ๋ฅด๊ฒŒ ์‹œ์ž‘ํ•˜๊ธฐ ์œ„ํ•œ ํˆดํ‚ท์ž…๋‹ˆ๋‹ค(์™ธ๋ถ€ ์„œ๋น„์Šค์— ์•ก์„ธ์Šคํ•˜์ง€ ์•Š๊ณ  ์‹คํ–‰์„ ์œ„ํ•ด AVX2 ์ง€์› CPU๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š์Œ). GPT-J ๋ฐ LLaMa ๊ธฐ๋ฐ˜์˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ ์—ฐ๊ฒฐ์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ์ฝ”๋“œ๋Š” Python์œผ๋กœ ์ž‘์„ฑ๋˜์—ˆ์œผ๋ฉฐ MIT ๋ผ์ด์„ ์Šค์— ๋”ฐ๋ผ ๋ฐฐํฌ๋ฉ๋‹ˆ๋‹ค.

์ถœ์ฒ˜ : opennet.ru

์ฝ”๋ฉ˜ํŠธ๋ฅผ ์ถ”๊ฐ€