RedPajama loyihasi sun'iy intellekt tizimlari uchun ochiq ma'lumotlar to'plamini ishlab chiqadi

RedPajama hamkorlik loyihasi ChatGPT kabi tijoriy mahsulotlar bilan raqobatlashadigan aqlli yordamchilarni yaratish uchun ishlatilishi mumkin bo'lgan ochiq mashinani o'rganish modellari va unga qo'shiladigan o'quv ma'lumotlarini yaratish uchun taqdim etilgan. Ochiq manba ma'lumotlari va katta til modellarining mavjudligi mashinani o'rganish sohasida tadqiqot bilan shug'ullanadigan mustaqil jamoalarning cheklovlarini olib tashlashi va ixtisoslashgan dialog tizimlarini yaratishni soddalashtirishi kutilmoqda. Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research va MILA Québec AI Institute kabi tashkilotlar va jamoalar loyiha ustida ishlashga qo'shildi.

Birinchi qadam suhbat modellarini o'qitish uchun 1 trillion tokenli RedPajama-Data-1.2T ma'lumotlar to'plamini nashr etish edi. RedPajama to'plami Facebook tomonidan o'zining LLaMA modelini yaratish uchun foydalaniladigan ommaviy manbalardan olingan ma'lumotlarni qayta ishlab chiqaradi (jami 1.25 trillion token), lekin foydalanish doirasini cheklamaydigan ochiq litsenziya ostida taqdim etiladi (LLaMA ma'lumotlari va modellari faqat tadqiqotchilarga maxsus tomonidan taqdim etilgan. notijorat foydalanish uchun so'rov). Yuklab olinadigan RedPajama-Data-1T to'plami 2.67 TB bo'lib, Common Crawl indekslangan veb-sahifalari, Vikipediya arxivlari, GitHub manba kodi, Gutenberg kutubxonasidagi ommaviy kitoblar, ArXiv arxividagi ilmiy maqolalar, Stack Overflow va boshqa munozaralar ma'lumotlarini o'z ichiga oladi. Stack Exchange saytlari.

Tayyorlangan ma'lumotlar to'plami asosida o'qitiladigan va Alpaca va OpenChatKit loyihalarining ko'rsatmalarini bajarish ko'rinishidagi dialog oynalarining tayyor namunalari yordamida optimallashtirilgan tayyor modellarni yaqin bir necha hafta ichida shakllantirish rejalashtirilgan. Shunga o'xshash til modeli tashabbuslari qisman ochiq kodli LLaMA, Alpaca, Vicuna va Koala loyihalarini, shuningdek, Pythia, OpenChatKit, Open Assistant va Dolly to'liq ochiq manbali tashabbuslarni o'z ichiga oladi.

Bundan tashqari, mashinani o'rganish bilan bog'liq bir nechta yangi loyihalar mavjud:

  • MiniGPT-4 - an'anaviy suhbat chat-botlarini vizual ma'lumotni hisobga olish imkoniyatlarini kengaytiradi, bu sizga tasvirlarni tahlil qilish va tizim bilan o'zaro ishlash jarayonida qo'lda yozilgan matnni hisobga olish imkonini beradi (masalan, qanday ob'ekt ko'rsatilganligini so'rashingiz mumkin) rasmda botdan fotosuratda ko'rsatilgan narsaga asoslangan hikoya yozishni so'rang yoki sxematik eskizga asoslangan holda veb-sayt yaratishni so'rang). MiniGPT-4 ilovasi Python-da yozilgan va BSD litsenziyasi ostida tarqatilgan.
  • Facebook umumiy vizual ma'lumotlarni qayta ishlash (tasvirlarni tasniflash, ob'ektlar haqida ma'lumot olish) muammolarini hal qilish uchun mos bo'lgan DINOv2 mashina ko'rish modelini (SSL, Self-Supervised Learning, inson tomonidan tayyorlangan teglar va izohlardan foydalanmaydi) asboblar to'plamini va o'zini o'zi o'rganishni nashr etdi. tasvirlar, videoda nima sodir bo'layotganini tushunish) va piksel darajasida manipulyatsiyalar (chuqurlikni bashorat qilish, segmentatsiya). Model 142 million tasvirlar to'plamida o'qitilgan. Amalga oshirish Python-da yozilgan va notijorat maqsadlarda foydalanishga ruxsat beruvchi Creative Commons Attribution-NonCommercial 4.0 litsenziyasi ostida tarqatilgan.
  • GPT4All o'z apparatida mustaqil chatbotlarni tezda ishga tushirish uchun asboblar to'plamidir (ular tashqi xizmatlarga kirmaydi va bajarish uchun AVX2 qo'llab-quvvatlanadigan protsessorlardan foydalanadi). GPT-J va LLaMa asosidagi katta til modellarini ulash qo'llab-quvvatlanadi. Kod Python-da yozilgan va MIT litsenziyasi ostida tarqatiladi.

Manba: opennet.ru

a Izoh qo'shish