Il progetto RedPajama sviluppa un set di dati aperto per i sistemi di intelligenza artificiale

Viene presentato un progetto collaborativo RedPajama per creare modelli di apprendimento automatico aperti e input di formazione di accompagnamento che possono essere utilizzati per creare assistenti intelligenti che competono con prodotti commerciali come ChatGPT. Si prevede che la presenza di dati open source e modelli di linguaggio di grandi dimensioni eliminerà le restrizioni dei team indipendenti impegnati nella ricerca nel campo dell'apprendimento automatico e semplificherà la creazione di sistemi di dialogo specializzati. Organizzazioni e comunità come Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research e MILA Québec AI Institute si sono unite al progetto.

Il primo passo è stata la pubblicazione del set di dati RedPajama-Data-1T di 1.2 trilioni di token per l'addestramento dei modelli conversazionali. Il set RedPajama riproduce i dati da fonti pubbliche utilizzate da Facebook per creare il suo modello LLaMA (in totale 1.25 trilioni di token), ma è fornito con una licenza aperta che non limita l'ambito di utilizzo (i dati e i modelli LLaMA sono stati forniti solo ai ricercatori da speciali richiesta per uso non commerciale). Il set scaricabile RedPajama-Data-1T è di 2.67 TB e include informazioni da pagine Web indicizzate da Common Crawl, archivi Wikipedia, codice sorgente da GitHub, libri pubblici dalla biblioteca Gutenberg, articoli scientifici dall'archivio ArXiv e discussioni con Stack Overflow e altri Stack Siti di scambio.

Nelle prossime settimane è prevista la formazione di modelli già pronti, addestrati sulla base del set di dati preparato e ottimizzati utilizzando esempi già pronti di dialoghi sotto forma di esecuzione di istruzioni dai progetti Alpaca e OpenChatKit. Simili iniziative di modelli linguistici includono i progetti parzialmente open source LLaMA, Alpaca, Vicuna e Koala, nonché le iniziative completamente open source Pythia, OpenChatKit, Open Assistant e Dolly.

Inoltre, ci sono diversi nuovi progetti relativi al machine learning:

  • MiniGPT-4 - estende i tradizionali chatbot conversazionali con funzionalità che tengono conto delle informazioni visive, che consentono di analizzare le immagini e tenere conto del testo scritto a mano nel processo di interazione con il sistema (ad esempio, puoi chiedere che tipo di oggetto viene mostrato nella foto, chiedi al bot di scrivere una storia basata su quanto mostrato nella foto, oppure sulla base di uno schizzo schematico, chiedi di creare un sito web). L'implementazione MiniGPT-4 è scritta in Python e distribuita con licenza BSD.
  • Facebook ha pubblicato un toolkit e un modello di visione artificiale DINOv2 di autoapprendimento (SSL, Self-Supervised Learning, non utilizza etichette e annotazioni preparate dall'uomo) adatto a risolvere problemi di elaborazione di dati visivi generalizzati (classificazione di immagini, estrazione di informazioni su oggetti in immagini, capire cosa sta succedendo nel video) e manipolazioni a livello di pixel (previsione della profondità, segmentazione). Il modello viene addestrato su una raccolta di 142 milioni di immagini. L'implementazione è scritta in Python e distribuita con una licenza Creative Commons Attribution-NonCommercial 4.0 che ne consente l'uso non commerciale.
  • GPT4All è un toolkit per avviare rapidamente chatbot autonomi sul proprio hardware (non accedono a servizi esterni e utilizzano CPU con supporto AVX2 per l'esecuzione). È supportata la connessione di modelli di linguaggi di grandi dimensioni basati su GPT-J e LLaMa. Il codice è scritto in Python e distribuito con licenza MIT.

Fonte: opennet.ru

Aggiungi un commento