Лоиҳаи RedPajama маҷмӯи додаҳои кушодро барои системаҳои зеҳни сунъӣ таҳия мекунад

RedPajama-ро муаррифӣ кард, як лоиҳаи муштараке, ки ба эҷоди моделҳои омӯзиши мошинҳои кушод ва саҳмияҳои омӯзиши ҳамроҳӣ нигаронида шудааст, ки метавонад барои эҷоди ёрдамчиёни интеллектуалӣ, ки бо маҳсулоти тиҷоратӣ ба монанди ChatGPT рақобат мекунанд, истифода шавад. Интизор меравад, ки мавҷудияти маълумотҳои кушодаасос ва моделҳои бузурги забон дастаҳои мустақили таҳқиқотии омӯзиши мошинҳоро озод кунанд ва сохтани системаҳои гуфтугӯии фармоиширо осонтар кунанд. Ташкилотҳо ва ҷомеаҳо ба монанди Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research ва Институти MILA Québec AI ба лоиҳа ҳамроҳ шуданд.

Қадами аввал нашри маҷмӯаи додаҳои RedPajama-Data-1T барои омӯзиши моделҳои гуфтугӯӣ буд, ки дорои 1.2 триллион токен мебошад. Маҷмӯаи RedPajama маълумоти дастраси оммаро аз ҷониби Facebook барои сохтани модели LLaMA-и худ (ба маблағи 1.25 триллион токен) таҷдид мекунад, аммо дар зери литсензияи кушода ва маҳдуднашаванда таъмин карда мешавад (маълумот ва моделҳои LLaMA танҳо ба муҳаққиқон бо дархости махсус дастрас карда шуданд. - истифодаи тиҷоратӣ). Маҷмӯи зеркашишавандаи RedPajama-Data-1T 2.67 TB буда, дорои маълумот аз веб саҳифаҳои индекси Common Crawl, бойгониҳои Википедия, рамзи сарчашма аз GitHub, китобҳои домени ҷамъиятӣ аз китобхонаи Гутенберг, мақолаҳои илмӣ аз бойгонии ArXiv ва муҳокимаҳо аз Stack Overflow ва дигар сайтҳои Stack Exchange.

Моделҳои тайёре, ки дар асоси маҷмӯи додаҳои омодашуда таълим дода шудаанд ва бо истифода аз намунаҳои омодаи муколамаҳо дар шакли дастурамал-иҷрои лоиҳаҳои Alpaca ва OpenChatKit оптимизатсия шудаанд, дар чанд ҳафтаи оянда ба нақша гирифта шудаанд. Ташаббусҳои шабеҳи модели забон лоиҳаҳои қисман кушодаи LLaMA, Alpaca, Vicuna ва Koala, инчунин ташаббусҳои комилан кушодаи Pythia, OpenChatKit, Open Assistant ва Dolly-ро дар бар мегиранд.

Илова бар ин, якчанд лоиҳаҳои нави марбут ба омӯзиши мошинро метавон қайд кард:

  • MiniGPT-4 - чатботҳои анъанавии интерактивиро бо қобилиятҳое, ки иттилооти визуалиро ба инобат мегиранд, васеъ мекунад, ки ба шумо имкон медиҳад, ки ҳангоми ҳамкорӣ бо система тасвирҳоро таҳлил кунед ва матни дастнависро ба назар гиред (масалан, шумо метавонед пурсед, ки дар расм чӣ гуна объект нишон дода шудааст. , аз бот хоҳиш кунед, ки дар асоси он чизе, ки дар акс нишон дода шудааст, ҳикоя нависад ё дар асоси нақшаи схематикӣ, эҷод кардани вебсайтро дархост кунед). Амалисозии MiniGPT-4 дар Python навишта шудааст ва таҳти иҷозатномаи BSD паҳн карда мешавад.
  • Facebook абзорҳо ва худомӯзиро нашр кард (SSL, Омӯзиши худидоракунӣ, тамғакоғазҳо ва эзоҳҳои аз ҷониби инсон омодашуда ҳангоми омӯзиш истифода намешавад) модели биниши компютерии DINOv2, ки барои ҳалли масъалаҳои коркарди умумии додаҳои визуалӣ (таснифи тасвирҳо, истихроҷи маълумот дар бораи онҳо) мувофиқ аст. объектҳо дар тасвирҳо, фаҳмидани он чизе, ки дар видео рӯй дода истодааст) ва манипуляцияҳо дар сатҳи пиксел (пешгӯии амиқ, сегментатсия). Модел дар маҷмӯаи 142 миллион тасвир омӯзонида шудааст. Татбиқ дар Python навишта шудааст ва дар зери иҷозатномаи Creative Commons Attribution-NonCommercial 4.0 паҳн карда мешавад, ки ба истифодаи ғайритиҷоратӣ иҷозат медиҳад.
  • GPT4All як абзорест барои зуд оғоз кардани чатботҳои мустақил дар сахтафзори шахсии шумо (онҳо ба хидматҳои беруна дастрасӣ надоранд ва CPU-ро бо дастгирии AVX2 барои иҷро истифода мебаранд). Пайвасти моделҳои забони калонро дар асоси GPT-J ва LLaMa дастгирӣ мекунад. Рамз дар Python навишта шудааст ва таҳти иҷозатномаи MIT паҳн карда мешавад.

Манбаъ: opennet.ru

Илова Эзоҳ