Projekt RedPajama razvija nabor odprtih podatkov za sisteme umetne inteligence

Predstavljen je RedPajama, skupni projekt, namenjen ustvarjanju odprtih modelov strojnega učenja in spremljajočih vložkov za usposabljanje, ki jih je mogoče uporabiti za ustvarjanje inteligentnih pomočnikov, ki tekmujejo s komercialnimi izdelki, kot je ChatGPT. Razpoložljivost odprtokodnih podatkov in velikih jezikovnih modelov naj bi sprostila neodvisne raziskovalne skupine strojnega učenja in olajšala gradnjo pogovornih sistemov po meri. Projektu so se pridružile organizacije in skupnosti, kot so Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research in MILA Québec AI Institute.

Prvi korak je bila objava nabora podatkov RedPajama-Data-1T za usposabljanje pogovornih modelov, ki vsebuje 1.2 bilijona žetonov. Paket RedPajama reproducira javno dostopne podatke, ki jih je Facebook uporabil za ustvarjanje svojega modela LLaMA (v vrednosti 1.25 bilijona žetonov), vendar je na voljo pod odprtokodno licenco (podatki in modeli LLaMA so raziskovalcem na voljo le na posebno zahtevo za ne - komercialna uporaba). Komplet za prenos RedPajama-Data-1T je velik 2.67 TB in vključuje informacije s spletnih strani, indeksiranih s Common Crawl, arhive Wikipedije, izvorno kodo iz GitHuba, knjige v javni lasti iz knjižnice Gutenberg, znanstvene članke iz arhiva ArXiv in razprave iz Stack Overflow in druga spletna mesta Stack Exchange.

V naslednjih tednih je predvideno oblikovanje že pripravljenih modelov, izurjenih na podlagi pripravljenega nabora podatkov in optimiziranih z uporabo že pripravljenih primerov dialogov v obliki izvajanja navodil iz projektov Alpaca in OpenChatKit. Podobne pobude za jezikovne modele vključujejo delno odprtokodne projekte LLaMA, Alpaca, Vicuna in Koala ter popolnoma odprtokodne pobude Pythia, OpenChatKit, Open Assistant in Dolly.

Poleg tega je mogoče opaziti več novih projektov, povezanih s strojnim učenjem:

  • MiniGPT-4 - razširi tradicionalne interaktivne chatbote z zmožnostmi, ki upoštevajo vizualne informacije, kar vam omogoča analizo slik in upoštevanje ročno napisanega besedila pri interakciji s sistemom (lahko na primer vprašate, kakšen predmet je prikazan na sliki , prosite bota, naj napiše zgodbo na podlagi tiste, ki je prikazana na fotografiji, ali na podlagi shematske skice, prosite, da ustvari spletno stran). Izvedba MiniGPT-4 je napisana v Pythonu in se distribuira pod licenco BSD.
  • Facebook je objavil orodja in samoučeči se (SSL, Self-Supervised Learning, med usposabljanjem ne uporablja oznak in opomb, ki jih pripravi človek) model računalniškega vida DINOv2, primeren za reševanje problemov generalizirane vizualne obdelave podatkov (klasifikacija slik, pridobivanje informacij o objektov na slikah, razumevanje dogajanja na videu) in manipulacije na ravni slikovnih pik (predvidevanje globine, segmentacija). Model je bil uren na zbirki 142 milijonov slik. Izvedba je napisana v Pythonu in se distribuira pod licenco Creative Commons Attribution-NonCommercial 4.0, ki omogoča nekomercialno uporabo.
  • GPT4All je komplet orodij za hiter zagon samostojnih chatbotov na vaši strojni opremi (ne dostopajo do zunanjih storitev in za izvajanje uporabljajo CPE s podporo AVX2). Podpira povezavo velikih jezikovnih modelov, ki temeljijo na GPT-J in LLaMa. Koda je napisana v Pythonu in se distribuira pod licenco MIT.

Vir: opennet.ru

Dodaj komentar