Se presenta un proyecto colaborativo de RedPajama para crear modelos abiertos de aprendizaje automático y aportes de capacitación que los acompañan y que pueden usarse para crear asistentes inteligentes que compitan con productos comerciales como ChatGPT. Se espera que la presencia de datos de código abierto y grandes modelos de lenguaje elimine las restricciones de los equipos independientes que investigan en el campo del aprendizaje automático y simplifique la creación de sistemas de diálogo especializados. Organizaciones y comunidades como Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research y MILA Québec AI Institute se han sumado al trabajo del proyecto.
El primer paso fue la publicación del conjunto de datos RedPajama-Data-1T de 1.2 billones de tokens para entrenar modelos conversacionales. El conjunto RedPajama reproduce datos de fuentes públicas utilizadas por Facebook para crear su modelo LLaMA (en total 1.25 billones de tokens), pero se suministra bajo una licencia abierta que no limita el alcance de uso (los datos y modelos de LLaMA fueron proporcionados solo a investigadores por empresas especiales). solicitud de uso no comercial). El conjunto RedPajama-Data-1T descargable tiene un tamaño de 2.67 TB e incluye información de páginas web indexadas por Common Crawl, archivos de Wikipedia, código fuente de GitHub, libros públicos de la biblioteca de Gutenberg, artículos científicos del archivo ArXiv y debates con Stack Overflow y otros. Sitios de intercambio de pilas.
En las próximas semanas está previsto formar modelos preparados, entrenados sobre la base del conjunto de datos preparado y optimizados utilizando ejemplos de diálogos preparados en forma de ejecución de instrucciones de los proyectos Alpaca y OpenChatKit. Iniciativas de modelos de lenguaje similares incluyen los proyectos de código parcialmente abierto LLaMA, Alpaca, Vicuna y Koala, así como las iniciativas de código totalmente abierto Pythia, OpenChatKit, Open Assistant y Dolly.
Además, hay varios proyectos nuevos relacionados con el aprendizaje automático:
- MiniGPT-4: amplía los chatbots conversacionales tradicionales con capacidades que tienen en cuenta información visual, lo que le permite analizar imágenes y tener en cuenta texto escrito a mano en el proceso de interacción con el sistema (por ejemplo, puede preguntar qué tipo de objeto se muestra en la imagen, pídale al bot que escriba una historia basada en lo que se muestra en la foto, o basándose en un boceto esquemático, pídale que cree un sitio web). La implementación MiniGPT-4 está escrita en Python y distribuida bajo la licencia BSD.
- Facebook ha publicado un kit de herramientas y una herramienta de autoaprendizaje (SSLEl modelo de visión artificial DINOv2 (aprendizaje autosupervisado, que no utiliza etiquetas ni anotaciones preparadas por humanos durante el entrenamiento) es adecuado para tareas generales de procesamiento de datos visuales (clasificación de imágenes, extracción de objetos, comprensión de vídeo) y manipulación a nivel de píxel (predicción de profundidad, segmentación). El modelo se entrenó con una colección de 142 millones de imágenes. La implementación está escrita en Python y se distribuye bajo la licencia Creative Commons Atribución-NoComercial 4.0, que permite su uso no comercial.
- GPT4All es un conjunto de herramientas para lanzar rápidamente chatbots independientes en su propio hardware (no acceden a servicios externos y utilizan CPU con soporte AVX2 para ejecutarse). Se admite la conexión de modelos de lenguaje grandes basados en GPT-J y LLaMa. El código está escrito en Python y distribuido bajo la licencia MIT.
Fuente: opennet.ru
