É apresentado o kit de ferramentas de código aberto OpenChatKit, que visa simplificar a criação de chatbots para uso especializado e geral. O sistema está adaptado para realizar tarefas como responder perguntas, conduzir diálogos em várias etapas, resumir, extrair informações e classificar textos. O código é escrito em Python e distribuído sob a licença Apache 2.0. O projeto inclui um modelo pronto, código para treinar seu modelo, utilitários para testar os resultados do modelo, ferramentas para complementar o modelo com contexto de um índice externo e adaptar o modelo base para resolver seus próprios problemas.
O bot é baseado em um modelo básico de aprendizado de máquina (GPT-NeoXT-Chat-Base-20B), construído usando um modelo de linguagem que cobre cerca de 20 bilhões de parâmetros e otimizado para comunicação conversacional. Para treinar o modelo foram utilizados dados obtidos das coleções dos projetos LAION, Together e Ontocord.ai.
Para expandir a base de conhecimento existente, é proposto um sistema que pode recuperar informações adicionais de repositórios externos, APIs e outras fontes. Por exemplo, é possível atualizar informações usando dados da Wikipédia e feeds de notícias. Está disponível um modelo de moderação opcional, treinado em 6 bilhões de parâmetros e baseado no modelo GPT-JT, para filtrar perguntas inadequadas ou limitar as discussões a tópicos específicos.
Separadamente, podemos citar o projeto ChatLLaMA, que oferece uma biblioteca para criação de assistentes inteligentes semelhante ao ChatGPT. O projeto está sendo desenvolvido pensando na possibilidade de rodar em equipamentos próprios e criar soluções personalizadas destinadas a abranger áreas restritas do conhecimento (por exemplo, medicina, direito, jogos, pesquisa científica, etc.). O código ChatLLaMA é licenciado sob GPLv3.
O projeto apoia a utilização de modelos baseados na arquitetura LLaMA (Large Language Model Meta AI) proposta pela Meta. O modelo LLaMA completo cobre 65 bilhões de parâmetros, mas para ChatLLaMA recomenda-se usar opções com 7 e 13 bilhões de parâmetros ou o GPTJ (6 bilhões), GPTNeoX (1.3 bilhão), 20BOPT (13 bilhões), BLOOM (7.1 bilhões) e Modelos Galactica (6.7 bilhões). Inicialmente, os modelos LLaMA eram fornecidos apenas aos pesquisadores mediante solicitação especial, mas como eram usados torrents para entregar os dados, os entusiastas prepararam um script que permitia a qualquer pessoa baixar o modelo.
Fonte: opennet.ru