Праект RedPajama развівае адкрыты набор дадзеных для сістэм штучнага інтэлекту

Прадстаўлены сумесны праект RedPajama, нацэлены на стварэнне адчыненых мадэляў машыннага навучання і спадарожных зыходных дадзеных для трэніроўкі, якія могуць выкарыстоўвацца для стварэння інтэлектуальных памагатых, канкуруючых з камерцыйнымі прадуктамі, такімі як ChatGPT. Мяркуецца, што наяўнасць адчыненых зыходных дадзеных і буйных моўных мадэляў пазбавіць ад абмежаванняў незалежныя каманды, якія займаюцца даследаваннямі ў вобласці машыннага навучання, і спросціць стварэнне спецыялізаваных дыялогавых сістэм. Да працы над праектам далучыліся такія арганізацыі і супольнасці, як Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research і MILA Québec AI Institute.

Першым крокам стала публікацыя набору дадзеных RedPajama-Data-1T для навучання дыялогавых мадэляў, які налічвае 1.2/1.25 трыльёна токенаў. Набор RedPajama прайгравае дадзеныя з агульнадаступных крыніц, выкарыстаныя кампаніяй Facebook для стварэння сваёй мадэлі LLaMA (налічвае 1 трыльёнаў токенаў), але пастаўляецца пад адкрытай ліцэнзіяй, якая не абмяжоўвае вобласць выкарыстання (дадзеныя і мадэлі LLaMA пастаўляліся толькі даследчыкам па спецыяльным запыце для некамерцыйнага выкарыстання). Памер падрыхтаванага для загрузкі набору RedPajama-Data-2.67T складае XNUMX ТБ і ўключае інфармацыю з праіндэксаваных праектам Common Crawl web-старонак, архіваў Wikipedia, зыходнага кода з GitHub, агульнадаступных кніг з бібліятэкі Gutenberg, навуковых артыкулаў з архіва ArXiv і абмеркаванняў са Stack Overflow іншых сайтаў Stack Exchange.

Гатовыя мадэлі, навучаныя на аснове падрыхтаванага набору дадзеных і аптымізаваныя з выкарыстаннем гатовых прыкладаў дыялогаў у форме інструкцыя-выкананне ад праектаў Alpaca і OpenChatKit, плануюць сфарміраваць у бліжэйшыя некалькі тыдняў. З падобных ініцыятыў па стварэнні моўных мадэляў згадваюцца часткова адчыненыя праекты LLaMA, Alpaca, Vicuna, and Koala, а таксама цалкам адчыненыя ініцыятывы Pythia, OpenChatKit, Open Assistant і Dolly.

Дадаткова можна адзначыць некалькі новых праектаў, злучаных з машынным навучаннем:

  • MiniGPT-4 – пашырае традыцыйныя дыялогавыя чаты магчымасцямі, якія ўлічваюць візуальную інфармацыю, што дазваляе аналізаваць выявы і ўлічваць рукапісны тэкст у працэсе ўзаемадзеяння з сістэмай (напрыклад, можна спытаць, што за аб'ект намаляваны на малюнку, папрасіць бота напісаць аповяд па матывах намаляванага на фатаграфіі ці на аснове схематычнага накіда папрасіць стварыць web-сайт). Рэалізацыя MiniGPT-4 напісана на мове Python і распаўсюджваецца пад ліцэнзіяй BSD.
  • Кампанія Facebook апублікавала інструментар і саманавучальную (SSL, Self-Supervised Learning, не выкарыстоўвае пры навучанні падрыхтаваныя чалавекам пазнакі і анатацыі) мадэль машыннага зроку DINOv2, прыдатную для рашэння задач абагульненай візуальнай апрацоўкі дадзеных (класіфікацыя малюнкаў, выманне выявы на відэа) і маніпуляцый на піксельным узроўні (прагназаванне глыбіні, сегментацыя). Мадэль натрэніравана на калекцыі з 142 млн малюнкаў. Рэалізацыя напісана на мове Python і распаўсюджваецца пад ліцэнзіяй Creative Commons Attribution-NonCommercial 4.0, якая дапускае выкарыстання ў некамерцыйных мэтах.
  • GPT4All - інструментарый для хуткага запуску адасобленых чатаў на сваім абсталяванні (не звяртаюцца да знешніх сэрвісаў і выкарыстоўваюць для выканання CPU з падтрымкай AVX2). Падтрымліваецца падлучэнне вялікіх моўных мадэляў на аснове GPT-J і LLaMa. Код напісаны на мове Python і распаўсюджваецца пад ліцэнзіяй MIT.

Крыніца: opennet.ru

Дадаць каментар