RedPajama-projektet udvikler et åbent datasæt til kunstige intelligenssystemer

Et RedPajama-samarbejdsprojekt præsenteres for at skabe åbne maskinlæringsmodeller og tilhørende træningsinput, der kan bruges til at bygge intelligente assistenter, der konkurrerer med kommercielle produkter såsom ChatGPT. Det forventes, at tilstedeværelsen af ​​open source-data og store sprogmodeller vil fjerne begrænsningerne for uafhængige teams, der er engageret i forskning inden for maskinlæring, og vil forenkle oprettelsen af ​​specialiserede dialogsystemer. Organisationer og fællesskaber som Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research og MILA Québec AI Institute har tilsluttet sig arbejdet med projektet.

Det første skridt var offentliggørelsen af ​​1 billioner token RedPajama-Data-1.2T-datasæt til træning af samtalemodeller. RedPajama-sættet gengiver data fra offentlige kilder brugt af Facebook til at skabe sin LLaMA-model (i alt 1.25 billioner tokens), men leveres under en åben licens, der ikke begrænser anvendelsesområdet (LLaMA-data og -modeller blev kun leveret til forskere af særlige anmodning om ikke-kommerciel brug). RedPajama-Data-1T-sættet, der kan downloades, er på 2.67 TB og indeholder oplysninger fra Common Crawl-indekserede websider, Wikipedia-arkiver, kildekode fra GitHub, offentlige bøger fra Gutenberg-biblioteket, videnskabelige artikler fra ArXiv-arkivet og diskussioner med Stack Overflow og andre Stack Exchange-websteder.

Færdiglavede modeller, trænet på baggrund af det udarbejdede datasæt og optimeret ved hjælp af færdige eksempler på dialoger i form af instruktionsudførelse fra Alpaca- og OpenChatKit-projekterne, planlægges dannet i løbet af de næste par uger. Lignende sprogmodelinitiativer omfatter de delvist open source-projekter LLaMA, Alpaca, Vicuna og Koala, samt de fuldt open source-initiativer Pythia, OpenChatKit, Open Assistant og Dolly.

Derudover er der flere nye projekter relateret til maskinlæring:

  • MiniGPT-4 - udvider traditionelle samtale chatbots med funktioner, der tager hensyn til visuel information, som giver dig mulighed for at analysere billeder og tage højde for håndskrevet tekst i processen med at interagere med systemet (du kan for eksempel spørge, hvilken slags objekt der vises på billedet, bed botten om at skrive en historie baseret på det, der er vist på billedet, eller ud fra en skematisk skitse, bed om at oprette en hjemmeside). MiniGPT-4-implementeringen er skrevet i Python og distribueret under BSD-licensen.
  • Facebook har udgivet et værktøjssæt og en selvlærende (SSL, Self-Supervised Learning, bruger ikke menneskeforberedte etiketter og annoteringer) DINOv2 maskinsynsmodel, der er egnet til at løse problemer med generaliseret visuel databehandling (billedklassificering, udtrækning af information om objekter i billeder, forståelse af, hvad der sker på video) og manipulationer på pixelniveau (dybdeforudsigelse, segmentering). Modellen er trænet på en samling af 142 millioner billeder. Implementeringen er skrevet i Python og distribueret under en Creative Commons Attribution-NonCommercial 4.0-licens, der tillader ikke-kommerciel brug.
  • GPT4All er et værktøjssæt til hurtigt at starte selvstændige chatbots på deres egen hardware (de har ikke adgang til eksterne tjenester og bruger CPU'er med AVX2-understøttelse til at udføre). Tilslutning af store sprogmodeller baseret på GPT-J og LLaMa er understøttet. Koden er skrevet i Python og distribueret under MIT-licensen.

Kilde: opennet.ru

Tilføj en kommentar