A RedPajama projekt nyílt adatkészletet fejleszt a mesterséges intelligencia rendszerek számára

Bemutatnak egy RedPajama együttműködési projektet, amelynek célja nyílt gépi tanulási modellek és kapcsolódó képzési inputok létrehozása, amelyek felhasználhatók olyan intelligens asszisztensek létrehozására, amelyek versenyeznek a kereskedelmi termékekkel, például a ChatGPT-vel. A nyílt forráskódú adatok és a nagy nyelvi modellek jelenléte várhatóan megszünteti a gépi tanulás területén kutatást folytató független csapatok korlátozásait, és leegyszerűsíti a speciális párbeszédrendszerek létrehozását. Olyan szervezetek és közösségek csatlakoztak a projekthez, mint a Together, az Ontocord.ai, az ETH DS3Lab, a Stanford CRFM, a Hazy Research és a MILA Québec AI Institute.

Az első lépés az 1 billió token RedPajama-Data-1.2T adatkészlet közzététele volt a társalgási modellek betanításához. A RedPajama készlet olyan nyilvános forrásokból származó adatokat reprodukál, amelyeket a Facebook használt LLaMA modelljének elkészítéséhez (összesen 1.25 billió token), de nyílt licenc alatt szállítják, amely nem korlátozza a felhasználási kört (a LLaMA adatokat és modelleket csak speciális kutatók bocsátották rendelkezésre nem kereskedelmi felhasználásra vonatkozó kérelem). A RedPajama-Data-1T letölthető készlet 2.67 TB-os, és tartalmaz információkat a Common Crawl indexelt weboldalairól, a Wikipédia archívumáról, a GitHub forráskódjáról, a Gutenberg könyvtár nyilvános könyveiről, az ArXiv archívum tudományos cikkeiről, valamint a Stack Overflow-val és más Stackekkel folytatott beszélgetésekről. Csereoldalak.

Az előkészített adatkészlet alapján betanított, az Alpaca és az OpenChatKit projektekből származó, utasítás-végrehajtás formájában megjelenő párbeszédablakok kész példáival optimalizált kész modellek kialakítását a következő hetekben tervezzük. Hasonló nyelvi modellkezdeményezések közé tartoznak a részben nyílt forráskódú LLaMA, Alpaca, Vicuna és Koala projektek, valamint a teljesen nyílt forráskódú Pythia, OpenChatKit, Open Assistant és Dolly kezdeményezések.

Ezenkívül számos új projekt kapcsolódik a gépi tanuláshoz:

  • MiniGPT-4 - kibővíti a hagyományos társalgási chatbotokat olyan képességekkel, amelyek figyelembe veszik a vizuális információkat, amelyek lehetővé teszik a képek elemzését és a kézírásos szövegek figyelembevételét a rendszerrel való interakció során (például megkérdezheti, hogy milyen objektum jelenik meg a képen kérje meg a botot, hogy írjon egy történetet a fotón láthatóak alapján, vagy egy sematikus vázlat alapján kérje meg, hogy készítsen weboldalt). A MiniGPT-4 implementáció Python nyelven íródott, és a BSD licenc alatt terjeszthető.
  • A Facebook közzétett egy eszközkészletet és egy öntanuló (SSL, Self-Supervised Learning, nem használ ember által előkészített címkéket és megjegyzéseket) DINOv2 gépi látásmodellt, amely alkalmas az általánosított vizuális adatfeldolgozás problémáinak megoldására (képek osztályozása, objektumokról információ kinyerése a programban). képek, a videón zajló események megértése) és pixel szintű manipulációk (mélység-előrejelzés, szegmentálás). A modellt 142 millió képből álló gyűjteményre képezték ki. A megvalósítás Python nyelven íródott, és egy Creative Commons Nevezd meg! – Nem kereskedelmi célú 4.0 licenc alatt terjesztik, amely lehetővé teszi a nem kereskedelmi felhasználást.
  • A GPT4All egy eszközkészlet az önálló chatbotok gyors elindításához saját hardverükön (nem férnek hozzá külső szolgáltatásokhoz, és AVX2-támogatással rendelkező CPU-kat használnak a végrehajtáshoz). A GPT-J és LLaMa alapú nagy nyelvi modellek csatlakoztatása támogatott. A kód Python nyelven íródott, és az MIT licenc alatt kerül terjesztésre.

Forrás: opennet.ru

Hozzászólás