Проект RedPajama розвиває відкритий набір даних для систем штучного інтелекту

Представлено спільний проект RedPajama, націлений на створення відкритих моделей машинного навчання та супутніх вихідних даних для тренування, які можуть використовуватися для створення інтелектуальних помічників, які конкурують з комерційними продуктами, такими як ChatGPT. Передбачається, що наявність відкритих вихідних даних та великих мовних моделей позбавить обмежень незалежні команди, які займаються дослідженнями в галузі машинного навчання, і спростить створення спеціалізованих діалогових систем. До роботи над проектом приєдналися такі організації та спільноти, як Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research та MILA Québec AI Institute.

Першим кроком стала публікація набору даних RedPajama-Data-1T для навчання діалогових моделей, що налічує 1.2 трильйони токенів. Набір RedPajama відтворює дані із загальнодоступних джерел, використані компанією Facebook для створення своєї моделі LLaMA (налічує 1.25 трильйонів токенів), але постачається під відкритою ліцензією, що не обмежує сферу використання (дані та моделі LLaMA поставлялися лише дослідникам за спеціальним запитом для некомерційного використання). Розмір підготовленого для завантаження набору RedPajama-Data-1T складає 2.67 ТБ і включає інформацію з проіндексованих проектом Common Crawl web-сторінок, архівів Wikipedia, вихідного коду з GitHub, загальнодоступних книг з бібліотеки Gutenberg, наукових статей з архіву ArXiv та обговорень зі Stack Overflow інших веб-сайтів Stack Exchange.

Готові моделі, навчені на основі підготовленого набору даних та оптимізовані з використанням готових прикладів діалогів у формі інструкція-виконання від проектів Alpaca та OpenChatKit, планують сформувати у найближчі кілька тижнів. Зі схожих ініціатив щодо створення мовних моделей згадуються частково відкриті проекти LLaMA, Alpaca, Vicuna, Koala, а також повністю відкриті ініціативи Pythia, OpenChatKit, Open Assistant та Dolly.

Додатково можна відзначити кілька нових проектів, пов'язаних із машинним навчанням:

  • MiniGPT-4 – розширює традиційні діалогові чати можливостями, що враховують візуальну інформацію, що дозволяє аналізувати зображення та враховувати рукописний текст у процесі взаємодії з системою (наприклад, можна запитати, що за об'єкт зображений на картинці, попросити бота написати розповідь за мотивами зображеного на фотографії або на основі схематичного начерку попросити створити web-сайт). Реалізація MiniGPT-4 написана мовою Python та поширюється під ліцензією BSD.
  • Компанія Facebook опублікувала інструментарій і самонавчання (SSL, Self-Supervised Learning, не використовує при навчанні підготовлені людиною мітки та анотації) модель машинного зору DINOv2, придатну для вирішення завдань узагальненої візуальної обробки даних (класифікація зображень, вилучення даних на відео) та маніпуляцій на піксельному рівні (прогнозування глибини, сегментація). Модель натренована на колекції із 142 млн зображень. Реалізація написана мовою Python і поширюється під ліцензією Creative Commons Attribution-NonCommercial 4.0, яка допускає використання з некомерційною метою.
  • GPT4All - інструментарій для швидкого запуску відокремлених чатботів на своєму обладнанні (не звертаються до зовнішніх сервісів і використовують для виконання CPU з підтримкою AVX2). Підтримується підключення великих мовних моделей на основі GPT-J та LLaMa. Код написаний мовою Python та поширюється під ліцензією MIT.

Джерело: opennet.ru

Додати коментар або відгук