Publicó OpenChatKit, un conjunto de herramientas para construir chatbots

Se presenta el kit de herramientas abierto OpenChatKit, cuyo objetivo es simplificar la creación de chatbots para aplicaciones especializadas y generales. El sistema está adaptado para realizar tareas como responder preguntas, realizar diálogos de varias etapas, resumir, extraer información, clasificar texto. El código está escrito en Python y se distribuye bajo la licencia Apache 2.0. El proyecto incluye un modelo listo para usar, código para entrenar su modelo, utilidades para probar los resultados del modelo, herramientas para complementar el modelo con contexto de un índice externo y adaptar el modelo base para resolver sus propios problemas.

El bot se basa en un modelo básico de aprendizaje automático (GPT-NeoXT-Chat-Base-20B), construido utilizando un modelo de lenguaje que cubre alrededor de 20 mil millones de parámetros y optimizado para la comunicación conversacional. El modelo fue entrenado utilizando datos obtenidos de las colecciones de los proyectos LAION, Together y Ontocord.ai.

Para ampliar la base de conocimiento existente, se propone un sistema que sea capaz de extraer información adicional de repositorios externos, APIs y otras fuentes. Por ejemplo, es posible actualizar la información utilizando datos de Wikipedia y fuentes de noticias. Además, está disponible un modelo de moderación, entrenado con 6 mil millones de parámetros, basado en el modelo GPT-JT, y diseñado para filtrar preguntas inapropiadas o limitar las discusiones a ciertos temas.

Por separado, podemos señalar el proyecto ChatLLaMA, que ofrece una biblioteca para crear asistentes inteligentes similares a ChatGPT. El proyecto se desarrolla pensando en la posibilidad de funcionar con su propio equipo y crear soluciones personalizadas diseñadas para cubrir áreas de conocimiento limitadas (por ejemplo, medicina, derecho, juegos, investigación científica, etc.). El código de ChatLLaMA está licenciado bajo la GPLv3.

El proyecto soporta el uso de modelos basados ​​en la arquitectura LLaMA (Large Language Model Meta AI) propuesta por Meta. El modelo LLaMA completo cubre 65 mil millones de parámetros, pero para ChatLLaMA se recomienda usar las variantes con 7 y 13 mil millones de parámetros o el GPTJ (6 mil millones), GPTNeoX (1.3 mil millones), 20BOPT (13 mil millones), BLOOM (7.1 mil millones) y Galactica (6.7 millones) modelos). Inicialmente, los modelos LLaMA solo se suministran a los investigadores a pedido especial, pero dado que se usaron torrents para entregar los datos, los entusiastas prepararon un script que permite que cualquier persona descargue el modelo.

Fuente: opennet.ru

Añadir un comentario