O projeto RedPajama desenvolve um conjunto de dados aberto para sistemas de inteligência artificial

Um projeto colaborativo RedPajama é apresentado para criar modelos abertos de aprendizado de máquina e entradas de treinamento que podem ser usadas para construir assistentes inteligentes que competem com produtos comerciais como o ChatGPT. Espera-se que a presença de dados de código aberto e grandes modelos de linguagem remova as restrições de equipes independentes envolvidas em pesquisas no campo do aprendizado de máquina e simplifique a criação de sistemas de diálogo especializados. Organizações e comunidades como Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research e MILA Québec AI Institute juntaram-se ao trabalho no projeto.

A primeira etapa foi a publicação do conjunto de dados RedPajama-Data-1T de 1.2 trilhão de tokens para treinar modelos de conversação. O conjunto RedPajama reproduz dados de fontes públicas usadas pelo Facebook para criar seu modelo LLaMA (totaliza 1.25 trilhão de tokens), mas é fornecido sob uma licença aberta que não limita o escopo de uso (dados e modelos LLaMA foram fornecidos apenas a pesquisadores por solicitação para uso não comercial). O conjunto RedPajama-Data-1T para download tem 2.67 TB e inclui informações de páginas da Web indexadas pelo Common Crawl, arquivos da Wikipedia, código-fonte do GitHub, livros públicos da biblioteca Gutenberg, artigos científicos do arquivo ArXiv e discussões com Stack Overflow e outros Sites do Stack Exchange.

Modelos prontos, treinados com base no conjunto de dados preparado e otimizados usando exemplos prontos de diálogos na forma de execução de instruções dos projetos Alpaca e OpenChatKit, estão planejados para serem formados nas próximas semanas. Iniciativas de modelo de linguagem semelhantes incluem os projetos de código parcialmente aberto LLaMA, Alpaca, Vicuna e Koala, bem como as iniciativas de código totalmente aberto Pythia, OpenChatKit, Open Assistant e Dolly.

Além disso, existem vários novos projetos relacionados ao aprendizado de máquina:

  • MiniGPT-4 - estende os chatbots de conversação tradicionais com capacidades que levam em conta a informação visual, o que permite analisar imagens e levar em conta o texto manuscrito no processo de interação com o sistema (por exemplo, você pode perguntar que tipo de objeto é mostrado na foto, peça ao bot para escrever uma história com base no que é mostrado na foto, ou com base em um esboço esquemático, peça para criar um site). A implementação do MiniGPT-4 é escrita em Python e distribuída sob a licença BSD.
  • O Facebook publicou um kit de ferramentas e um modelo de visão de máquina DINOv2 de autoaprendizagem (SSL, Self-Supervisioned Learning, não usa rótulos e anotações preparados por humanos) adequado para resolver problemas de processamento de dados visuais generalizados (classificação de imagens, extração de informações sobre objetos em imagens, entendendo o que está acontecendo no vídeo) e manipulações no nível do pixel (previsão de profundidade, segmentação). O modelo é treinado em uma coleção de 142 milhões de imagens. A implementação é escrita em Python e distribuída sob uma licença Creative Commons Attribution-NonCommercial 4.0 que permite uso não comercial.
  • O GPT4All é um kit de ferramentas para iniciar rapidamente chatbots autônomos em seu próprio hardware (eles não acessam serviços externos e usam CPUs com suporte AVX2 para executar). A conexão de modelos de linguagem grandes baseados em GPT-J e LLaMa é suportada. O código é escrito em Python e distribuído sob a licença do MIT.

Fonte: opennet.ru

Adicionar um comentário