RedPajama-projektet utvecklar en öppen datauppsättning för artificiell intelligenssystem

Ett RedPajama-samarbetsprojekt presenteras för att skapa öppna maskininlärningsmodeller och tillhörande utbildningsingångar som kan användas för att bygga intelligenta assistenter som konkurrerar med kommersiella produkter som ChatGPT. Det förväntas att närvaron av öppen källkod och stora språkmodeller kommer att ta bort begränsningarna för oberoende team som är engagerade i forskning inom området maskininlärning, och kommer att förenkla skapandet av specialiserade dialogsystem. Organisationer och gemenskaper som Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research och MILA Québec AI Institute har anslutit sig till arbetet med projektet.

Det första steget var publiceringen av den 1 biljoner token RedPajama-Data-1.2T-datauppsättningen för träning av konversationsmodeller. RedPajama-setet återger data från offentliga källor som används av Facebook för att skapa sin LLaMA-modell (totalt 1.25 biljoner tokens), men tillhandahålls under en öppen licens som inte begränsar användningsområdet (LLaMA-data och -modeller levererades endast till forskare av speciella begäran om icke-kommersiell användning). RedPajama-Data-1T nedladdningsbara set är 2.67 TB och innehåller information från Common Crawl-indexerade webbsidor, Wikipedia-arkiv, källkod från GitHub, offentliga böcker från Gutenberg-biblioteket, vetenskapliga artiklar från ArXiv-arkivet och diskussioner med Stack Overflow och andra Stack Overflow Byt webbplatser.

Färdiga modeller, utbildade utifrån den förberedda datamängden och optimerade med hjälp av färdiga exempel på dialoger i form av instruktionsexekvering från Alpaca- och OpenChatKit-projekten, planeras att formas under de närmaste veckorna. Liknande språkmodellinitiativ inkluderar projekten med delvis öppen källkod LLaMA, Alpaca, Vicuna och Koala, såväl som initiativen med helt öppen källkod Pythia, OpenChatKit, Open Assistant och Dolly.

Dessutom finns det flera nya projekt relaterade till maskininlärning:

  • MiniGPT-4 - utökar traditionella konversationschatbotar med funktioner som tar hänsyn till visuell information, vilket gör att du kan analysera bilder och ta hänsyn till handskriven text i processen att interagera med systemet (du kan till exempel fråga vilken typ av objekt som visas i bilden, be boten att skriva en berättelse baserat på det som visas på bilden, eller baserat på en schematisk skiss, be att få skapa en webbplats). MiniGPT-4-implementeringen är skriven i Python och distribueras under BSD-licensen.
  • Facebook har publicerat en verktygslåda och en självlärande (SSL, Self-Supervised Learning, använder inte mänskligt förberedda etiketter och anteckningar) DINOv2 maskinseende modell lämplig för att lösa problem med generaliserad visuell databehandling (bildklassificering, extrahera information om objekt i bilder, förstå vad som händer på video) och manipulationer på pixelnivå (djupprediktion, segmentering). Modellen är tränad på en samling av 142 miljoner bilder. Implementeringen är skriven i Python och distribueras under en Creative Commons Attribution-NonCommercial 4.0-licens som tillåter icke-kommersiell användning.
  • GPT4All är en verktygslåda för att snabbt lansera fristående chatbots på sin egen hårdvara (de kommer inte åt externa tjänster och använder processorer med AVX2-stöd för att exekvera). Anslutning av stora språkmodeller baserade på GPT-J och LLaMa stöds. Koden är skriven i Python och distribueras under MIT-licensen.

Källa: opennet.ru

Lägg en kommentar