Mashruuca RedPajama wuxuu horumariyaa xog-ururin furan oo loogu talagalay nidaamyada sirdoonka macmal

Mashruuc wada shaqayneed oo RedPajama ah ayaa la soo bandhigay si loo abuuro moodooyinka barashada mashiinka furan iyo agabka tababarka ee la socda kuwaas oo loo isticmaali karo in lagu dhiso kaaliyeyaasha caqliga leh ee la tartamaya alaabada ganacsiga sida ChatGPT. Waxaa la filayaa in joogitaanka xogta il furan iyo moodooyinka luqadeed ee waaweyn ay meesha ka saarayaan xannibaadaha kooxaha madax-bannaan ee ku hawlan cilmi-baarista dhinaca barashada mashiinka, waxayna fududeyn doontaa abuurista hababka wada-hadallada gaarka ah. Ururada iyo jaaliyadaha sida wadajirka ah, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research iyo MILA Québec AI Institute ayaa ku soo biiray shaqada mashruuca.

Talaabadii ugu horeysay waxay ahayd daabacaadda 1 tiriliyan calaamada xogta RedPajama-Data-1.2T ee tababarka moodooyinka wada sheekaysiga. Dejinta RedPajama waxay soo saartaa xogta ilaha dadweynaha ee Facebook ay isticmaasho si ay u abuurto moodelkeeda LLAMA (wadarta 1.25 tiriliyan token), laakiin waxaa lagu bixiyaa shati furan oo aan xaddidnayn baaxadda isticmaalka (xogta LLaMA iyo moodooyinka waxaa la siiyay cilmi-baarayaasha khaas codsiga isticmaalka aan ganacsiga ahayn). Qalabka la soo dajin karo ee RedPajama-Data-1T waa 2.67 TB waxaana ku jira macluumaadka laga helay boggaga gurguurta ee la tilmaansaday, kaydka Wikipedia, koodhka isha ee GitHub, buugaagta dadwaynaha ee maktabadda Gutenberg, maqaallo saynis ah oo ka mid ah kaydka ArXiv iyo wadahadallo lala yeeshay Stack Overflow iyo Stack kale Goobaha sarrifka.

Moodooyinka diyaarsan, oo lagu tababaray xog-ururinta la diyaariyey lana wanaajiyey iyadoo la adeegsanayo tusaalayaal diyaarsan oo wada-hadal ah oo qaab tilmaamid-fulin ah oo ka yimid mashaariicda Alpaca iyo OpenChatKit, ayaa la qorsheeyay in la sameeyo dhowrka toddobaad ee soo socda. Hindisaha moodelka luqadda la midka ah waxaa ka mid ah mashaariicda isha furan ee LLMA, Alpaca, Vicuna, iyo Koala, iyo sidoo kale hindisayaasha isha si buuxda u furan ee Pythia, OpenChatKit, Kaaliyaha Furan, iyo Dolly.

Intaa waxaa dheer, waxaa jira dhowr mashruuc oo cusub oo la xiriira barashada mashiinka:

  • MiniGPT-4 - waxay kordhisaa wada sheekaysiga dhaqameed ee leh awoodo tixgelinaya macluumaadka muuqaalka, taas oo kuu ogolaanaysa inaad falanqeyso sawirada oo aad tixgeliso qoraalka gacanta ee habka isdhexgalka nidaamka (tusaale, waxaad weydiin kartaa nooca shay ee la muujiyay. sawirka, weydiiso bot-ka inuu qoro sheeko ku saleysan waxa sawirka ka muuqda, ama ku saleysan sawir-gacmeedka, weydiiso inuu abuuro shabakad). Dhaqangelinta MiniGPT-4 waxay ku qoran tahay Python waxaana lagu qaybiyaa shatiga BSD.
  • Facebook ayaa daabacday qalab iyo is-barasho (SSL, Barashada Is-ilaalinta, ma isticmaasho calaamado iyo tilmaamo u diyaarsan bini-aadmiga) DINOv2 qaabka aragga mashiinka oo ku habboon xallinta dhibaatooyinka habaynta xogta guud ee muuqaalka (qaybinta sawirka, soo saarista macluumaadka ku saabsan walxaha ku jira sawirada, fahamka waxa ka dhacaya fiidyowga) iyo khalkhalgelinta heerka pixel (saadaasha qoto dheer, qaybinta). Qaabka ayaa lagu tababaray ururinta 142 milyan oo sawir. Hirgelintu waxay ku qoran tahay Python waxaana lagu qaybiyaa shatiga Creative Commons Attribution-NonCommercial 4.0 kaas oo u ogolaanaya isticmaalka aan ganacsiga ahayn.
  • GPT4All waa qalab loogu talagalay in si degdeg ah loo bilaabo chatbots keligood ah qalabkooda (ma helaan adeegyada dibadda waxayna isticmaalaan CPU-yada leh taageerada AVX2 si ay u fuliyaan). Isku xirka moodooyinka luqadaha waaweyn ee ku saleysan GPT-J iyo LLaMa waa la taageeray. Nambarku wuxuu ku qoran yahay Python waxaana lagu qaybiyaa shatiga MIT.

Source: opennet.ru

Add a comment