RedPajama projekts izstrādā atvērtu datu kopu mākslīgā intelekta sistēmām

Ieviests RedPajama — sadarbības projekts, kura mērķis ir izveidot atvērtus mašīnmācīšanās modeļus un papildu apmācību, ko var izmantot, lai izveidotu viedus palīgus, kas konkurē ar komerciāliem produktiem, piemēram, ChatGPT. Paredzams, ka atvērtā pirmkoda datu un lielu valodu modeļu pieejamība atbrīvos neatkarīgas mašīnmācīšanās pētniecības komandas un atvieglos pielāgotu sarunvalodu sistēmu izveidi. Projektam pievienojās tādas organizācijas un kopienas kā Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research un MILA Québec AI institūts.

Pirmais solis bija RedPajama-Data-1T datu kopas publicēšana sarunvalodas modeļu apmācībai, kas satur 1.2 triljonus marķieru. RedPajama komplekts reproducē publiski pieejamos datus, ko Facebook izmantoja, lai izveidotu savu LLaMA modeli (vērts 1.25 triljoniem žetonu), taču tas tiek nodrošināts saskaņā ar atklātu, neierobežojošu licenci (LLaMA dati un modeļi tika darīti pieejami pētniekiem tikai pēc īpaša pieprasījuma - komerciālai lietošanai). Lejupielādējamais komplekts RedPajama-Data-1T ir 2.67 TB liels, un tajā ir iekļauta informācija no Common Crawl indeksētām tīmekļa lapām, Wikipedia arhīviem, GitHub pirmkods, publiskā domēna grāmatas no Gūtenbergas bibliotēkas, zinātniski raksti no ArXiv arhīva un diskusijas no Stack Overflow un citas Stack Exchange vietnes.

Gatavus modeļus, kas apmācīti, pamatojoties uz sagatavotu datu kopu un optimizēti, izmantojot gatavus dialogu piemērus instrukciju-izpildīšanas veidā no Alpaca un OpenChatKit projektiem, plānots izveidot tuvāko nedēļu laikā. Līdzīgas valodas modeļu iniciatīvas ietver daļēji atvērtā pirmkoda projektus LLaMA, Alpaca, Vicuna un Koala, kā arī pilnībā atvērtā koda iniciatīvas Pythia, OpenChatKit, Open Assistant un Dolly.

Turklāt var atzīmēt vairākus jaunus projektus, kas saistīti ar mašīnmācību:

  • MiniGPT-4 - paplašina tradicionālos interaktīvos tērzēšanas robotus ar iespējām, kas ņem vērā vizuālo informāciju, kas ļauj analizēt attēlus un ņemt vērā ar roku rakstītu tekstu, mijiedarbojoties ar sistēmu (piemēram, varat jautāt, kāds objekts ir redzams attēlā , palūdziet robotam uzrakstīt stāstu, pamatojoties uz fotogrāfijā redzamo, vai pamatojoties uz shematisku skici, palūdziet izveidot vietni). MiniGPT-4 ieviešana ir rakstīta Python un tiek izplatīta saskaņā ar BSD licenci.
  • Facebook ir publicējis pašmācības (SSL, Self-Supervised Learning, apmācības laikā neizmanto cilvēka sagatavotas etiķetes un anotācijas) datorredzes modeli DINOv2, kas piemērots vispārinātas vizuālās datu apstrādes problēmu risināšanai (attēlu klasifikācija, informācijas iegūšana par objekti attēlos, izpratne par to, kas notiek video) un manipulācijas pikseļu līmenī (dziļuma prognozēšana, segmentēšana). Modele tika apmācīta 142 miljonu attēlu kolekcijai. Ieviešana ir rakstīta Python un tiek izplatīta saskaņā ar Creative Commons Attribution-NonCommercial 4.0 licenci, kas ļauj izmantot nekomerciālu.
  • GPT4All ir rīku komplekts, lai ātri palaistu atsevišķus tērzēšanas robotus uz jūsu aparatūras (tie nepiekļūst ārējiem pakalpojumiem un izpildei izmanto centrālo procesoru ar AVX2 atbalstu). Atbalsta lielu valodu modeļu savienojumu, pamatojoties uz GPT-J un LLaMa. Kods ir rakstīts Python un tiek izplatīts saskaņā ar MIT licenci.

Avots: opennet.ru

Pievieno komentāru