Mradi wa RedPajama unatengeneza hifadhidata wazi kwa mifumo ya kijasusi bandia

Mradi wa ushirikiano wa RedPajama unawasilishwa ili kuunda miundo ya mashine huria ya kujifunza na nyenzo zinazoambatana za mafunzo ambazo zinaweza kutumika kutengeneza wasaidizi mahiri wanaoshindana na bidhaa za kibiashara kama vile ChatGPT. Inatarajiwa kuwa kuwepo kwa data ya chanzo huria na miundo mikubwa ya lugha kutaondoa vizuizi vya timu huru zinazojishughulisha na utafiti katika uwanja wa kujifunza kwa mashine, na kutarahisisha uundaji wa mifumo maalum ya mazungumzo. Mashirika na jumuiya kama vile Pamoja, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research na Taasisi ya AI ya MILA QuΓ©bec wamejiunga na kazi ya mradi huo.

Hatua ya kwanza ilikuwa uchapishaji wa seti ya data ya tokeni ya RedPajama-Data-1T ya trilioni 1.2 kwa ajili ya mafunzo ya miundo ya mazungumzo. Seti ya RedPajama hutoa data kutoka kwa vyanzo vya umma vinavyotumiwa na Facebook kuunda muundo wake wa LLaMA (jumla ya tokeni trilioni 1.25), lakini hutolewa chini ya leseni huria ambayo haizuii upeo wa matumizi (data na miundo ya LLaMA ilitolewa kwa watafiti pekee na maalum. ombi la matumizi yasiyo ya kibiashara). Seti inayoweza kupakuliwa ya RedPajama-Data-1T ni 2.67 TB na inajumuisha maelezo kutoka kwa kurasa za wavuti zilizoorodheshwa za Common Crawl, kumbukumbu za Wikipedia, msimbo wa chanzo kutoka GitHub, vitabu vya umma kutoka maktaba ya Gutenberg, makala za kisayansi kutoka kwenye kumbukumbu ya ArXiv na majadiliano na Stack Overflow na Stack nyingine. Tovuti za kubadilishana.

Miundo iliyotengenezwa tayari, iliyofunzwa kwa msingi wa seti ya data iliyotayarishwa na kuboreshwa kwa kutumia mifano iliyotengenezwa tayari ya mazungumzo katika mfumo wa utekelezaji wa maagizo kutoka kwa miradi ya Alpaca na OpenChatKit, imepangwa kuundwa katika wiki chache zijazo. Mipango sawa ya muundo wa lugha ni pamoja na miradi ya programu huria kiasi LLaMA, Alpaca, Vicuna na Koala, pamoja na mipango huria ya Pythia, OpenChatKit, Mratibu Huria na Dolly.

Zaidi ya hayo, kuna miradi kadhaa mipya inayohusiana na kujifunza kwa mashine:

  • MiniGPT-4 - inapanua chatbots za jadi za mazungumzo na uwezo unaozingatia habari ya kuona, ambayo hukuruhusu kuchambua picha na kuzingatia maandishi yaliyoandikwa kwa mkono katika mchakato wa kuingiliana na mfumo (kwa mfano, unaweza kuuliza ni aina gani ya kitu kinachoonyeshwa. kwenye picha, waulize bot kuandika hadithi kulingana na kile kinachoonyeshwa kwenye picha, au kulingana na mchoro wa mchoro, uulize kuunda tovuti). Utekelezaji wa MiniGPT-4 umeandikwa katika Python na kusambazwa chini ya leseni ya BSD.
  • Facebook imechapisha kisanduku cha zana na mafunzo ya kujifunzia (SSL, Mafunzo ya Kujisimamia, hayatumii lebo na maelezo yaliyotayarishwa na binadamu) Muundo wa kuona wa mashine ya DINOv2 unaofaa kutatua matatizo ya uchakataji wa data unaoonekana wa jumla (uainishaji wa picha, kutoa taarifa kuhusu vitu kwenye picha, kuelewa kinachotokea kwenye video) na udanganyifu katika kiwango cha pixel (utabiri wa kina, sehemu). Mfano huo umefunzwa kwenye mkusanyiko wa picha milioni 142. Utekelezaji umeandikwa kwa Python na kusambazwa chini ya leseni ya Creative Commons Attribution-NonCommercial 4.0 ambayo inaruhusu matumizi yasiyo ya kibiashara.
  • GPT4All ni zana ya kuzindua haraka chatbots za kusimama pekee kwenye maunzi yao wenyewe (hazifikii huduma za nje na hutumia CPU zilizo na usaidizi wa AVX2 kutekeleza). Kuunganisha miundo mikubwa ya lugha kulingana na GPT-J na LLaMa kunasaidiwa. Nambari hiyo imeandikwa kwa Python na kusambazwa chini ya leseni ya MIT.

Chanzo: opennet.ru

Kuongeza maoni