Bidh am pròiseact RedPajama a’ leasachadh seata dàta fosgailte airson siostaman fiosrachaidh fuadain

Tha pròiseact co-obrachail RedPajama air a thaisbeanadh gus modalan ionnsachaidh inneal fosgailte a chruthachadh agus cuir a-steach trèanaidh nan cois a dh’ fhaodar a chleachdadh gus luchd-cuideachaidh tuigseach a thogail a bhios a ’farpais ri toraidhean malairteach leithid ChatGPT. Thathas an dùil gun toir làthaireachd dàta stòr fosgailte agus modalan cànain mòra air falbh na cuingeadan air sgiobaidhean neo-eisimeileach a tha an sàs ann an rannsachadh ann an raon ionnsachadh innealan, agus gun dèan e sìmplidh air cruthachadh siostaman còmhraidh sònraichte. Tha buidhnean agus coimhearsnachdan leithid Còmhla, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research agus MILA Québec AI Institute air a dhol còmhla ris an obair air a’ phròiseact.

B ’e a’ chiad cheum foillseachadh an stòr-dàta RedPajama-Data-1T tòcan 1.2 trillion airson modalan còmhraidh trèanaidh. Bidh an seata RedPajama ag ath-riochdachadh dàta bho stòran poblach a chleachd Facebook gus am modal LLaMA aca a chruthachadh (1.25 trillion tokens gu h-iomlan), ach tha e air a thoirt seachad fo chead fosgailte nach eil a’ cuingealachadh farsaingeachd cleachdaidh (cha deach dàta LLaMA agus modalan a thoirt do luchd-rannsachaidh a-mhàin le luchd-rannsachaidh sònraichte). iarrtas airson cleachdadh neo-mhalairteach). Is e an seata RedPajama-Data-1T a ghabhas luchdachadh a-nuas 2.67 TB agus a’ toirt a-steach fiosrachadh bho dhuilleagan lìn clàr-amais Common Crawl, tasglannan Wikipedia, còd stòr bho GitHub, leabhraichean poblach bho leabharlann Gutenberg, artaigilean saidheansail bho thasglann ArXiv agus còmhraidhean le Stack Overflow agus Stack eile Làraich-lìn iomlaid.

Thathas an dùil modalan deiseil, air an trèanadh air bunait an dàta ullaichte agus air an ùrachadh le bhith a’ cleachdadh eisimpleirean deiseil de chòmhraidhean ann an cruth stiùireadh bho phròiseactan Alpaca agus OpenChatKit, a chruthachadh anns na beagan sheachdainean a tha romhainn. Tha iomairtean modail cànain coltach ris a’ toirt a-steach pròiseactan le còd fosgailte gu ìre LLaMA, Alpaca, Vicuna, agus Koala, a bharrachd air na h-iomairtean làn fhosgailte Pythia, OpenChatKit, Open Assistant, agus Dolly.

A bharrachd air an sin, tha grunn phròiseactan ùra ann co-cheangailte ri ionnsachadh innealan:

  • MiniGPT-4 - a ’leudachadh chatbots còmhraidh traidiseanta le comasan a bheir aire do fhiosrachadh lèirsinneach, a leigeas leat ìomhaighean a mhion-sgrùdadh agus aire a thoirt do theacsa làmh-sgrìobhte anns a’ phròiseas eadar-obrachadh leis an t-siostam (mar eisimpleir, faodaidh tu faighneachd dè an seòrsa rud a tha air a thaisbeanadh san dealbh, iarr air a’ bot sgeulachd a sgrìobhadh stèidhichte air na tha air a shealltainn san dealbh, no stèidhichte air sgeidse sgeamach, iarr air làrach-lìn a chruthachadh). Tha buileachadh MiniGPT-4 air a sgrìobhadh ann am Python agus air a chuairteachadh fo chead BSD.
  • Tha Facebook air pasgan inneal fhoillseachadh agus chan eil fèin-ionnsachadh (SSL, Ionnsachadh Fèin-stiùirichte, a’ cleachdadh bileagan agus notaichean ullaichte le daoine) Modail lèirsinn inneal DINOv2 a tha freagarrach airson fuasgladh fhaighinn air duilgheadasan giullachd dàta lèirsinneach coitcheann (seòrsachadh ìomhaigh, a’ toirt a-mach fiosrachadh mu nithean ann an ìomhaighean, a’ tuigsinn na tha a’ tachairt air bhidio) agus làimhseachadh aig ìre piogsail (ro-innse doimhneachd, sgaradh). Tha am modail air a thrèanadh air cruinneachadh de 142 millean ìomhaigh. Tha am buileachadh air a sgrìobhadh ann am Python agus air a chuairteachadh fo chead Creative Commons Attribution-NonCommercial 4.0 a leigeas le cleachdadh neo-mhalairteach.
  • Is e inneal a th’ ann an GPT4All airson chatbots leotha fhèin a chuir air bhog gu sgiobalta air am bathar-cruaidh aca fhèin (chan fhaigh iad cothrom air seirbheisean taobh a-muigh agus bidh iad a’ cleachdadh CPUan le taic AVX2 airson a chuir an gnìomh). Thathas a’ toirt taic do bhith a’ ceangal mhodalan cànain mòra stèidhichte air GPT-J agus LLaMa. Tha an còd sgrìobhte ann am Python agus air a chuairteachadh fo chead MIT.

Source: fosgailtenet.ru

Cuir beachd ann