Projekt RedPajama razvija otvoreni skup podataka za sustave umjetne inteligencije

Predstavljena RedPajama, zajednički projekt usmjeren na stvaranje otvorenih modela strojnog učenja i popratnih inputa za obuku koji se mogu koristiti za stvaranje inteligentnih pomoćnika koji se natječu s komercijalnim proizvodima kao što je ChatGPT. Očekuje se da će dostupnost podataka otvorenog koda i velikih jezičnih modela osloboditi neovisne istraživačke timove za strojno učenje i olakšati izgradnju prilagođenih konverzacijskih sustava. Projektu su se pridružile organizacije i zajednice kao što su Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research i MILA Québec AI Institute.

Prvi korak bilo je objavljivanje skupa podataka RedPajama-Data-1T za obuku konverzacijskih modela, koji sadrži 1.2 trilijuna tokena. Paket RedPajama reproducira javno dostupne podatke koje je koristio Facebook za stvaranje svog LLaMA modela (vrijedan 1.25 trilijuna tokena), ali se pruža pod otvorenom, neograničenom licencom (LLaMA podaci i modeli dostupni su samo istraživačima na poseban zahtjev za ne -Komercijalna upotreba). Skup RedPajama-Data-1T koji se može preuzeti veličine je 2.67 TB i uključuje informacije s web stranica indeksiranih Common Crawl-om, arhive Wikipedije, izvorni kod s GitHuba, knjige iz javne domene iz knjižnice Gutenberg, znanstvene članke iz arhive ArXiv i rasprave iz Stack Overflow i druge stranice Stack Exchangea.

U sljedećih nekoliko tjedana planira se formiranje gotovih modela, obučenih na temelju pripremljenog skupa podataka i optimiziranih pomoću gotovih primjera dijaloga u obliku instrukcija-izvršenja iz projekata Alpaca i OpenChatKit. Slične inicijative modela jezika uključuju djelomično otvorene projekte LLaMA, Alpaca, Vicuna i Koala, kao i potpuno otvorene inicijative Pythia, OpenChatKit, Open Assistant i Dolly.

Dodatno, može se primijetiti nekoliko novih projekata povezanih sa strojnim učenjem:

  • MiniGPT-4 - proširuje tradicionalne interaktivne chatbotove s mogućnostima koje uzimaju u obzir vizualne informacije, što vam omogućuje analizu slika i uzimanje u obzir rukom pisanog teksta prilikom interakcije sa sustavom (na primjer, možete pitati kakav je objekt prikazan na slici , zatražite od bota da napiše priču na temelju one prikazane na fotografiji ili na temelju shematske skice, zatražite izradu web stranice). Implementacija MiniGPT-4 napisana je u Pythonu i distribuirana pod BSD licencom.
  • Facebook je objavio alate i samoučeći (SSL, Self-Supervised Learning, ne koristi ljudske oznake i komentare tijekom obuke) model računalnog vida DINOv2, prikladan za rješavanje problema generalizirane obrade vizualnih podataka (razvrstavanje slika, izdvajanje informacija o objekti u slikama, razumijevanje onoga što se događa na videu) i manipulacije na razini piksela (predviđanje dubine, segmentacija). Model je treniran na kolekciji od 142 milijuna slika. Implementacija je napisana u Pythonu i distribuira se pod licencom Creative Commons Attribution-NonCommercial 4.0, dopuštajući nekomercijalnu upotrebu.
  • GPT4All je skup alata za brzo pokretanje samostalnih chatbota na vlastitom hardveru (ne pristupaju vanjskim servisima i za izvršavanje koriste CPU s podrškom za AVX2). Podržava povezivanje velikih jezičnih modela temeljenih na GPT-J i LLaMa. Kod je napisan u Pythonu i distribuira se pod licencom MIT-a.

Izvor: opennet.ru

Dodajte komentar