Projekt RedPajama vyvíjí otevřený soubor dat pro systémy umělé inteligence

Je představen společný projekt RedPajama s cílem vytvořit otevřené modely strojového učení a doprovodné školicí vstupy, které lze použít k vytvoření inteligentních asistentů, kteří konkurují komerčním produktům, jako je ChatGPT. Očekává se, že přítomnost open source dat a velkých jazykových modelů odstraní omezení nezávislých týmů zabývajících se výzkumem v oblasti strojového učení a zjednoduší vytváření specializovaných dialogových systémů. Do práce na projektu se zapojily organizace a komunity jako Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research a MILA Québec AI Institute.

Prvním krokem bylo zveřejnění datové sady RedPajama-Data-1T o objemu 1.2 bilionu tokenů pro trénování konverzačních modelů. Sada RedPajama reprodukuje data z veřejných zdrojů, které Facebook použil k vytvoření svého modelu LLaMA (celkem 1.25 bilionu tokenů), ale je dodáván pod otevřenou licencí, která neomezuje rozsah použití (data a modely LLaMA byly dodány pouze výzkumníkům speciální žádost o nekomerční použití). Sada ke stažení RedPajama-Data-1T má 2.67 TB a obsahuje informace z indexovaných webových stránek Common Crawl, archivů Wikipedie, zdrojového kódu z GitHubu, veřejných knih z knihovny Gutenberg, vědeckých článků z archivu ArXiv a diskusí se Stack Overflow a dalšími Stackem. Výměnné weby.

V nejbližších týdnech je plánováno vytvoření hotových modelů, natrénovaných na základě připraveného datasetu a optimalizovaných pomocí hotových příkladů dialogů ve formě instrukce-provádění z projektů Alpaca a OpenChatKit. Podobné iniciativy jazykového modelu zahrnují částečně open source projekty LLaMA, Alpaca, Vicuna a Koala, stejně jako plně open source iniciativy Pythia, OpenChatKit, Open Assistant a Dolly.

Kromě toho existuje několik nových projektů souvisejících se strojovým učením:

  • MiniGPT-4 - rozšiřuje tradiční konverzační chatboty o schopnosti, které berou v úvahu vizuální informace, což vám umožňuje analyzovat obrázky a brát v úvahu ručně psaný text v procesu interakce se systémem (můžete se například zeptat, jaký druh objektu je zobrazen na obrázku požádejte robota, aby napsal příběh na základě toho, co je zobrazeno na fotografii, nebo na základě schematického náčrtu požádejte o vytvoření webové stránky). Implementace MiniGPT-4 je napsána v Pythonu a distribuována pod licencí BSD.
  • Facebook zveřejnil sadu nástrojů a samoučící se (SSL, Self-Supervised Learning, nepoužívá štítky a anotace připravené člověkem) DINOv2 model strojového vidění vhodný pro řešení problémů zobecněného zpracování vizuálních dat (klasifikace obrázků, extrahování informací o objektech v obrázky, pochopení toho, co se děje na videu) a manipulace na úrovni pixelů (predikce hloubky, segmentace). Model je trénován na kolekci 142 milionů snímků. Implementace je napsána v Pythonu a distribuována pod licencí Creative Commons Attribution-NonCommercial 4.0, která umožňuje nekomerční použití.
  • GPT4All je sada nástrojů pro rychlé spouštění samostatných chatbotů na jejich vlastním hardwaru (nepřistupují k externím službám a ke spuštění využívají CPU s podporou AVX2). Je podporováno propojení velkých jazykových modelů založených na GPT-J a LLaMa. Kód je napsán v Pythonu a distribuován pod licencí MIT.

Zdroj: opennet.ru

Přidat komentář