RedPajama projekt arendab tehisintellektisüsteemide avatud andmekogumit

Tutvustas koostööprojekti RedPajama, mille eesmärk on luua avatud masinõppe mudeleid ja sellega kaasnevaid koolitussisendeid, mida saab kasutada intelligentsete abiliste loomiseks, mis konkureerivad kaubanduslike toodetega, nagu ChatGPT. Avatud lähtekoodiga andmete ja suurte keelemudelite kättesaadavus vabastab eeldatavasti sõltumatud masinõppe uurimisrühmad ja hõlbustab kohandatud vestlussüsteemide loomist. Projektiga liitusid sellised organisatsioonid ja kogukonnad nagu Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research ja MILA Québec AI Institute.

Esimene samm oli RedPajama-Data-1T andmestiku avaldamine vestlusmudelite treenimiseks, mis sisaldab 1.2 triljonit märki. RedPajama komplekt reprodutseerib avalikult kättesaadavaid andmeid, mida Facebook kasutas oma LLaMA mudeli loomiseks (väärtusega 1.25 triljonit žetoone), kuid seda pakutakse avatud, mittepiirava litsentsi alusel (LLaMA andmed ja mudelid tehti teadlastele kättesaadavaks ainult eritaotlusel - kaubanduslik kasutamine). RedPajama-Data-1T allalaaditav komplekt on 2.67 TB suur ja sisaldab teavet Common Crawl-indekseeritud veebilehtedelt, Wikipedia arhiividest, GitHubi lähtekoodi, Gutenbergi raamatukogu üldkasutatavaid raamatuid, teadusartikleid ArXivi arhiivist ja arutelusid Stack Overflow ja muud Stack Exchange'i saidid.

Valmismudelid, mis on koolitatud ettevalmistatud andmekogumi põhjal ja optimeeritud Alpaca ja OpenChatKiti projektide juhiste-täitmise vormis dialoogide valmisnäidete abil, on plaanis moodustada lähinädalatel. Sarnaste keelemudelite algatuste hulka kuuluvad osaliselt avatud lähtekoodiga projektid LLaMA, Alpaca, Vicuna ja Koala, samuti täielikult avatud lähtekoodiga algatused Pythia, OpenChatKit, Open Assistant ja Dolly.

Lisaks võib märkida mitmeid uusi masinõppega seotud projekte:

  • MiniGPT-4 – laiendab traditsioonilisi interaktiivseid vestlusroboteid visuaalset infot arvestavate võimalustega, mis võimaldab süsteemiga suheldes pilte analüüsida ja käsitsi kirjutatud tekstiga arvestada (näiteks saab küsida, millist objekti pildil näidatakse , paluge robotil kirjutada fotol kujutatu põhjal lugu või skemaatilise visandi põhjal, paluge luua veebisait). MiniGPT-4 juurutus on kirjutatud Pythonis ja levitatakse BSD litsentsi all.
  • Facebook on avaldanud iseõppiva (SSL, Self-Supervised Learning, ei kasuta koolitusel inimese poolt ettevalmistatud silte ja annotatsioone) arvutinägemismudeli DINOv2, mis sobib üldistatud visuaalse andmetöötluse probleemide lahendamiseks (pildi klassifikatsioon, info hankimine objektid piltidel, videol toimuva mõistmine) ja pikslitasandi manipulatsioonid (sügavuse ennustamine, segmenteerimine). Modelli koolitati 142 miljonist pildist koosneva kollektsiooniga. Rakendus on kirjutatud Pythonis ja seda levitatakse Creative Commons Attribution-NonCommercial 4.0 litsentsi alusel, mis võimaldab mitteärilist kasutamist.
  • GPT4All on tööriistakomplekt iseseisvate vestlusrobotite kiireks käivitamiseks teie enda riistvaras (need ei pääse juurde välisteenustele ja kasutavad täitmiseks AVX2 toega protsessorit). Toetab suurte keelemudelite ühendamist GPT-J ja LLaMa baasil. Kood on kirjutatud Pythonis ja seda levitatakse MIT-i litsentsi all.

Allikas: opennet.ru

Lisa kommentaar