El proyecto RedPajama desarrolla un dataset abierto para sistemas de inteligencia artificial

Se presenta un proyecto colaborativo de RedPajama para crear modelos abiertos de aprendizaje automático y aportes de capacitación que los acompañan y que pueden usarse para crear asistentes inteligentes que compitan con productos comerciales como ChatGPT. Se espera que la presencia de datos de código abierto y grandes modelos de lenguaje elimine las restricciones de los equipos independientes que investigan en el campo del aprendizaje automático y simplifique la creación de sistemas de diálogo especializados. Organizaciones y comunidades como Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research y MILA Québec AI Institute se han sumado al trabajo del proyecto.

El primer paso fue la publicación del conjunto de datos RedPajama-Data-1T de 1.2 billones de tokens para entrenar modelos conversacionales. El conjunto RedPajama reproduce datos de fuentes públicas utilizadas por Facebook para crear su modelo LLaMA (en total 1.25 billones de tokens), pero se suministra bajo una licencia abierta que no limita el alcance de uso (los datos y modelos de LLaMA fueron proporcionados solo a investigadores por empresas especiales). solicitud de uso no comercial). El conjunto RedPajama-Data-1T descargable tiene un tamaño de 2.67 TB e incluye información de páginas web indexadas por Common Crawl, archivos de Wikipedia, código fuente de GitHub, libros públicos de la biblioteca de Gutenberg, artículos científicos del archivo ArXiv y debates con Stack Overflow y otros. Sitios de intercambio de pilas.

En las próximas semanas está previsto formar modelos preparados, entrenados sobre la base del conjunto de datos preparado y optimizados utilizando ejemplos de diálogos preparados en forma de ejecución de instrucciones de los proyectos Alpaca y OpenChatKit. Iniciativas de modelos de lenguaje similares incluyen los proyectos de código parcialmente abierto LLaMA, Alpaca, Vicuna y Koala, así como las iniciativas de código totalmente abierto Pythia, OpenChatKit, Open Assistant y Dolly.

Además, hay varios proyectos nuevos relacionados con el aprendizaje automático:

  • MiniGPT-4: amplía los chatbots conversacionales tradicionales con capacidades que tienen en cuenta información visual, lo que le permite analizar imágenes y tener en cuenta texto escrito a mano en el proceso de interacción con el sistema (por ejemplo, puede preguntar qué tipo de objeto se muestra en la imagen, pídale al bot que escriba una historia basada en lo que se muestra en la foto, o basándose en un boceto esquemático, pídale que cree un sitio web). La implementación MiniGPT-4 está escrita en Python y distribuida bajo la licencia BSD.
  • Facebook ha publicado un kit de herramientas y un modelo de visión artificial DINov2 de autoaprendizaje (SSL, Self-Supervised Learning, no utiliza etiquetas ni anotaciones preparadas por humanos) adecuado para resolver problemas de procesamiento de datos visuales generalizados (clasificación de imágenes, extracción de información sobre objetos en imágenes, comprensión de lo que sucede en vídeo) y manipulaciones a nivel de píxeles (predicción de profundidad, segmentación). El modelo está entrenado en una colección de 142 millones de imágenes. La implementación está escrita en Python y distribuida bajo una licencia Creative Commons Attribution-NonCommercial 4.0 que permite el uso no comercial.
  • GPT4All es un conjunto de herramientas para lanzar rápidamente chatbots independientes en su propio hardware (no acceden a servicios externos y utilizan CPU con soporte AVX2 para ejecutarse). Se admite la conexión de modelos de lenguaje grandes basados ​​en GPT-J y LLaMa. El código está escrito en Python y distribuido bajo la licencia MIT.

Fuente: opennet.ru

Añadir un comentario