Aikin RedPajama yana haɓaka buɗaɗɗen saitin bayanai don tsarin bayanan ɗan adam

An gabatar da aikin haɗin gwiwa na RedPajama don ƙirƙirar ƙirar koyon injin buɗaɗɗiya da rakiyar abubuwan horarwa waɗanda za a iya amfani da su don gina mataimakan ƙwararrun waɗanda ke gogayya da samfuran kasuwanci kamar ChatGPT. Ana sa ran kasancewar buɗaɗɗen bayanan tushe da manyan nau'ikan harshe za su cire hani na ƙungiyoyi masu zaman kansu da ke gudanar da bincike a fagen koyon injin, kuma za su sauƙaƙe ƙirƙirar tsarin tattaunawa na musamman. Ƙungiyoyi da al'ummomi irin su Tare, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research da MILA Quebec AI Cibiyar sun shiga aikin.

Mataki na farko shi ne buga bayanan dala tiriliyan 1 na RedPajama-Data-1.2T don horar da samfuran tattaunawa. Saitin RedPajama yana sake fitar da bayanai daga kafofin jama'a da Facebook ke amfani da shi don ƙirƙirar ƙirar LLAMA ( jimlar 1.25 tiriliyan tokens), amma ana ba da shi ƙarƙashin buɗaɗɗen lasisi wanda baya iyakance iyakokin amfani (bayanan LLaMA da samfura an ba su kawai ga masu bincike ta musamman ta musamman. nema don amfanin da ba na kasuwanci ba). Saitin zazzagewar RedPajama-Data-1T shine TB 2.67 kuma ya haɗa da bayanai daga shafukan yanar gizo na yau da kullun, wuraren ajiyar Wikipedia, lambar tushe daga GitHub, littattafan jama'a daga ɗakin karatu na Gutenberg, labaran kimiyya daga tarihin ArXiv da tattaunawa tare da Stack Overflow da sauran Stack Shafukan musanya.

Shirye-shiryen da aka yi, waɗanda aka horar da su bisa tsarin bayanan da aka shirya kuma an inganta su ta amfani da shirye-shiryen misalan tattaunawa ta hanyar aiwatar da umarni daga ayyukan Alpaca da OpenChatKit, ana shirin kafa su a cikin ƴan makonni masu zuwa. Samfuran ƙirar harshe iri ɗaya sun haɗa da ayyukan buɗaɗɗen ɓangaren tushen ayyukan LLAMA, Alpaca, Vicuna, da Koala, da kuma cikakken buɗaɗɗen manufofin Pythia, OpenChatKit, Buɗe Mataimakin, da Dolly.

Bugu da ƙari, akwai sabbin ayyuka da yawa da suka shafi koyon injin:

  • MiniGPT-4 - yana faɗaɗa hira ta al'ada tare da damar da ke yin la'akari da bayanan gani, wanda ke ba ku damar bincika hotuna da la'akari da rubutun da aka rubuta da hannu a cikin aiwatar da mu'amala da tsarin (misali, zaku iya tambayar wane nau'in abu ne aka nuna. a cikin hoton, tambayi bot don rubuta labari bisa ga abin da aka nuna a cikin hoton, ko kuma bisa tsarin zane, nemi ƙirƙirar gidan yanar gizo). An rubuta aiwatar da MiniGPT-4 a cikin Python kuma an rarraba shi ƙarƙashin lasisin BSD.
  • Facebook ya wallafa kayan aiki da koyo (SSL, Koyon Kula da Kai, baya amfani da alamun da aka tanadar da ɗan adam da annotations) samfurin hangen nesa na injin DINov2 wanda ya dace da magance matsalolin sarrafa bayanan gani gaba ɗaya (rarɓar hoto, cire bayanai game da abubuwa a ciki). hotuna, fahimtar abin da ke faruwa akan bidiyo) da kuma manipulations a matakin pixel (hasashen zurfin, rarrabuwa). An horar da samfurin akan tarin hotuna miliyan 142. An rubuta aiwatar da aiwatarwa a cikin Python kuma an rarraba a ƙarƙashin lasisin Creative Commons Attribution-NonCommercial 4.0 wanda ke ba da izinin amfani da ba na kasuwanci ba.
  • GPT4All kayan aikin kayan aiki ne don hanzarta ƙaddamar da ƙwararrun masu yin hira a kan nasu kayan aikin (ba sa samun damar sabis na waje kuma suna amfani da CPUs tare da tallafin AVX2 don aiwatarwa). Haɗa manyan samfuran harshe bisa GPT-J da LLaMa ana tallafawa. An rubuta lambar a Python kuma an rarraba ta ƙarƙashin lasisin MIT.

source: budenet.ru

Add a comment