Publication d'OpenChatKit, une boîte à outils pour créer des chatbots

La boîte à outils ouverte OpenChatKit est introduite, visant à simplifier la création de chatbots pour des applications spécialisées et générales. Le système est adapté pour effectuer des tâches telles que répondre à des questions, mener des dialogues en plusieurs étapes, résumer, extraire des informations, classer du texte. Le code est écrit en Python et distribué sous la licence Apache 2.0. Le projet comprend un modèle prêt à l'emploi, un code pour former votre modèle, des utilitaires pour tester les résultats du modèle, des outils pour compléter le modèle avec le contexte d'un index externe et adapter le modèle de base pour résoudre vos propres problèmes.

Le bot est basé sur un modèle d'apprentissage automatique de base (GPT-NeoXT-Chat-Base-20B), construit à l'aide d'un modèle de langage couvrant environ 20 milliards de paramètres et optimisé pour la communication conversationnelle. Le modèle a été formé à l'aide de données obtenues à partir des collections des projets LAION, Together et Ontocord.ai.

Pour étendre la base de connaissances existante, un système est proposé, capable d'extraire des informations supplémentaires à partir de référentiels externes, d'API et d'autres sources. Par exemple, il est possible de mettre à jour les informations en utilisant les données de Wikipédia et les flux d'actualités. De plus, un modèle de modération est disponible, formé avec 6 milliards de paramètres, basé sur le modèle GPT-JT, et conçu pour filtrer les questions inappropriées ou limiter les discussions à certains sujets.

Séparément, on peut noter le projet ChatLLaMA, qui propose une bibliothèque pour créer des assistants intelligents similaires à ChatGPT. Le projet se développe dans l'optique de pouvoir fonctionner sur ses propres équipements et de créer des solutions personnalisées destinées à couvrir des domaines de connaissance étroits (par exemple, médecine, droit, jeux, recherche scientifique, etc.). Le code ChatLLaMA est sous licence GPLv3.

Le projet supporte l'utilisation de modèles basés sur l'architecture LLaMA (Large Language Model Meta AI) proposée par Meta. Le modèle LLaMA complet couvre 65 milliards de paramètres, mais pour ChatLLaMA il est recommandé d'utiliser les variantes à 7 et 13 milliards de paramètres ou le GPTJ (6 milliards), GPTNeoX (1.3 milliard), 20BOPT (13 milliards), BLOOM (7.1 milliards) et modèles Galactica (6.7 milliards). Au départ, les modèles LLaMA ne sont fournis qu'aux chercheurs sur demande spéciale, mais comme des torrents ont été utilisés pour fournir les données, les passionnés ont préparé un script qui permet à quiconque de télécharger le modèle.

Source: opennet.ru

Ajouter un commentaire