Le projet RedPajama développe un jeu de données ouvert pour les systèmes d'intelligence artificielle

Présentation de RedPajama, un projet collaboratif visant à créer des modèles d'apprentissage automatique ouverts et des éléments de formation associés pouvant être utilisés pour créer des assistants intelligents qui rivalisent avec des produits commerciaux tels que ChatGPT. La disponibilité de données open source et de grands modèles de langage devrait libérer les équipes de recherche indépendantes en apprentissage automatique et faciliter la création de systèmes conversationnels personnalisés. Des organisations et des communautés telles que Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research et MILA Québec AI Institute se sont jointes au projet.

La première étape a été la publication de l'ensemble de données RedPajama-Data-1T pour la formation de modèles conversationnels, contenant 1.2 billion de jetons. La suite RedPajama reproduit les données accessibles au public utilisées par Facebook pour créer son modèle LLaMA (d'une valeur de 1.25 billion de jetons), mais est fournie sous une licence ouverte et non restrictive (les données et les modèles LLaMA n'ont été mis à la disposition des chercheurs que sur demande spéciale et à des fins non restrictives). -un usage commercial). L'ensemble téléchargeable RedPajama-Data-1T mesure 2.67 To et comprend des informations provenant de pages Web indexées par Common Crawl, des archives Wikipedia, du code source de GitHub, des livres du domaine public de la bibliothèque Gutenberg, des articles scientifiques des archives ArXiv et des discussions de Stack Overflow et autres sites Stack Exchange.

Des modèles prêts à l'emploi, formés sur la base d'un ensemble de données préparés et optimisés à l'aide d'exemples prêts à l'emploi de dialogues sous forme d'instructions-exécution des projets Alpaca et OpenChatKit, devraient être formés dans les prochaines semaines. Des initiatives de modèles de langage similaires incluent les projets partiellement open source LLaMA, Alpaca, Vicuna et Koala, ainsi que les initiatives entièrement open source Pythia, OpenChatKit, Open Assistant et Dolly.

De plus, plusieurs nouveaux projets liés à l’apprentissage automatique peuvent être notés :

  • MiniGPT-4 - étend les chatbots interactifs traditionnels avec des capacités qui prennent en compte les informations visuelles, ce qui vous permet d'analyser les images et de prendre en compte le texte manuscrit lors de l'interaction avec le système (par exemple, vous pouvez demander quel type d'objet est affiché dans l'image , demandez au bot d'écrire une histoire basée sur celle montrée sur la photographie, ou sur la base d'un croquis schématique, demandez de créer un site Web). L'implémentation MiniGPT-4 est écrite en Python et distribuée sous licence BSD.
  • Facebook a publié des outils et un modèle de vision par ordinateur d'auto-apprentissage (SSL, Self-Supervised Learning, n'utilise pas d'étiquettes et d'annotations préparées par l'homme pendant la formation) DINOv2, adapté à la résolution de problèmes de traitement généralisé de données visuelles (classification d'images, extraction d'informations sur objets dans les images, compréhension de ce qui se passe en vidéo) et manipulations au niveau des pixels (prédiction de profondeur, segmentation). Le modèle a été formé sur une collection de 142 millions d'images. L'implémentation est écrite en Python et est distribuée sous une licence Creative Commons Attribution-NonCommercial 4.0, autorisant une utilisation non commerciale.
  • GPT4All est une boîte à outils permettant de lancer rapidement des chatbots autonomes sur votre propre matériel (ils n'accèdent pas aux services externes et utilisent un processeur avec prise en charge AVX2 pour l'exécution). Prend en charge la connexion de grands modèles de langage basés sur GPT-J et LLaMa. Le code est écrit en Python et est distribué sous licence MIT.

Source: opennet.ru

Ajouter un commentaire