RedPajama-prosjektet utvikler et åpent datasett for kunstig intelligens-systemer

Et RedPajama-samarbeidsprosjekt presenteres for å lage åpne maskinlæringsmodeller og tilhørende opplæringsinnganger som kan brukes til å bygge intelligente assistenter som konkurrerer med kommersielle produkter som ChatGPT. Det forventes at tilstedeværelsen av åpen kildekodedata og store språkmodeller vil fjerne begrensningene til uavhengige team som er engasjert i forskning innen maskinlæring, og vil forenkle opprettelsen av spesialiserte dialogsystemer. Organisasjoner og samfunn som Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research og MILA Québec AI Institute har sluttet seg til arbeidet med prosjektet.

Det første trinnet var publiseringen av 1 billioner token RedPajama-Data-1.2T datasett for trening av samtalemodeller. RedPajama-settet reproduserer data fra offentlige kilder brukt av Facebook for å lage sin LLaMA-modell (totalt 1.25 billioner tokens), men leveres under en åpen lisens som ikke begrenser bruksomfanget (LLaMA-data og -modeller ble kun levert til forskere av spesielle forespørsel om ikke-kommersiell bruk). RedPajama-Data-1T nedlastbare sett er på 2.67 TB og inkluderer informasjon fra Common Crawl-indekserte nettsider, Wikipedia-arkiver, kildekode fra GitHub, offentlige bøker fra Gutenberg-biblioteket, vitenskapelige artikler fra ArXiv-arkivet og diskusjoner med Stack Overflow og andre Stack Overflow Utveksle nettsteder.

Ferdige modeller, trent på grunnlag av utarbeidet datasett og optimalisert ved hjelp av ferdige eksempler på dialoger i form av instruksjonsutførelse fra Alpakka- og OpenChatKit-prosjektene, planlegges dannet i løpet av de neste ukene. Lignende språkmodellinitiativ inkluderer de delvis åpen kildekode-prosjektene LLaMA, Alpaca, Vicuna og Koala, samt de fullstendig åpen kildekode-initiativene Pythia, OpenChatKit, Open Assistant og Dolly.

I tillegg er det flere nye prosjekter knyttet til maskinlæring:

  • MiniGPT-4 - utvider tradisjonelle samtale chatbots med muligheter som tar hensyn til visuell informasjon, som lar deg analysere bilder og ta hensyn til håndskrevet tekst i prosessen med å samhandle med systemet (du kan for eksempel spørre hva slags objekt som vises i bildet, be boten skrive en historie basert på det som vises på bildet, eller basert på en skjematisk skisse, be om å lage en nettside). MiniGPT-4-implementeringen er skrevet i Python og distribuert under BSD-lisensen.
  • Facebook har publisert et verktøysett og en selvlærende (SSL, Self-Supervised Learning, bruker ikke menneskeforberedte etiketter og merknader) DINOv2 maskinsynsmodell egnet for å løse problemer med generalisert visuell databehandling (bildeklassifisering, uttrekk av informasjon om objekter i bilder, forstå hva som skjer på video) og manipulasjoner på pikselnivå (dybdeprediksjon, segmentering). Modellen er trent på en samling på 142 millioner bilder. Implementeringen er skrevet i Python og distribuert under en Creative Commons Attribution-NonCommercial 4.0-lisens som tillater ikke-kommersiell bruk.
  • GPT4All er et verktøysett for raskt å lansere frittstående chatbots på sin egen maskinvare (de har ikke tilgang til eksterne tjenester og bruker CPUer med AVX2-støtte for å utføre). Tilkobling av store språkmodeller basert på GPT-J og LLaMa støttes. Koden er skrevet i Python og distribuert under MIT-lisensen.

Kilde: opennet.ru

Legg til en kommentar