Projekt RedPajama vyvíja otvorený súbor údajov pre systémy umelej inteligencie

Predstavuje sa spoločný projekt RedPajama na vytvorenie otvorených modelov strojového učenia a sprievodných tréningových vstupov, ktoré možno použiť na zostavenie inteligentných asistentov, ktorí konkurujú komerčným produktom, ako je ChatGPT. Očakáva sa, že prítomnosť otvorených zdrojových údajov a veľkých jazykových modelov odstráni obmedzenia nezávislých tímov zaoberajúcich sa výskumom v oblasti strojového učenia a zjednoduší vytváranie špecializovaných dialógových systémov. Do práce na projekte sa zapojili organizácie a komunity ako Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research a MILA Québec AI Institute.

Prvým krokom bolo zverejnenie 1 bilióna tokenov RedPajama-Data-1.2T dátového súboru na trénovanie konverzačných modelov. Sada RedPajama reprodukuje údaje z verejných zdrojov, ktoré Facebook použil na vytvorenie svojho modelu LLaMA (spolu 1.25 bilióna tokenov), ale je dodávaný pod otvorenou licenciou, ktorá neobmedzuje rozsah použitia (dáta a modely LLaMA boli dodané iba výskumníkom od špeciálneho žiadosť o nekomerčné použitie). Súbor na stiahnutie RedPajama-Data-1T má 2.67 TB a obsahuje informácie z indexovaných webových stránok Common Crawl, archívov Wikipedie, zdrojový kód z GitHub, verejné knihy z knižnice Gutenberg, vedecké články z archívu ArXiv a diskusie so Stack Overflow a ďalšími Stackom. Výmenné stránky.

Pripravené modely, trénované na základe pripraveného datasetu a optimalizované pomocou hotových príkladov dialógov vo forme inštrukcií a vykonávania z projektov Alpaca a OpenChatKit, sa plánujú vytvoriť v najbližších týždňoch. Podobné iniciatívy jazykového modelu zahŕňajú čiastočne open source projekty LLaMA, Alpaca, Vicuna a Koala, ako aj plne open source iniciatívy Pythia, OpenChatKit, Open Assistant a Dolly.

Okrem toho existuje niekoľko nových projektov súvisiacich so strojovým učením:

  • MiniGPT-4 - rozširuje tradičné konverzačné chatboty o možnosti, ktoré zohľadňujú vizuálne informácie, čo vám umožňuje analyzovať obrázky a brať do úvahy ručne písaný text v procese interakcie so systémom (môžete sa napríklad opýtať, aký druh objektu sa zobrazuje na obrázku požiadajte robota, aby napísal príbeh na základe toho, čo je zobrazené na fotografii, alebo na základe schematického náčrtu požiadajte o vytvorenie webovej stránky). Implementácia MiniGPT-4 je napísaná v jazyku Python a distribuovaná pod licenciou BSD.
  • Facebook zverejnil sadu nástrojov a samoučiaci sa (SSL, Self-Supervised Learning, nepoužíva ľudsky pripravené štítky a anotácie) DINOv2 model strojového videnia vhodný na riešenie problémov zovšeobecneného spracovania vizuálnych dát (klasifikácia obrázkov, extrahovanie informácií o objektoch v obrázky, pochopenie toho, čo sa deje na videu) a manipulácie na úrovni pixelov (predikcia hĺbky, segmentácia). Model je trénovaný na kolekcii 142 miliónov obrázkov. Implementácia je napísaná v jazyku Python a distribuovaná pod licenciou Creative Commons Attribution-NonCommercial 4.0, ktorá umožňuje nekomerčné použitie.
  • GPT4All je súprava nástrojov na rýchle spustenie samostatných chatbotov na ich vlastnom hardvéri (nemajú prístup k externým službám a na spustenie používajú procesory s podporou AVX2). Podporuje sa prepojenie veľkých jazykových modelov založených na GPT-J a LLaMa. Kód je napísaný v jazyku Python a distribuovaný pod licenciou MIT.

Zdroj: opennet.ru

Pridať komentár