Ka hangaia e te kaupapa RedPajama he huinga raraunga tuwhera mo nga punaha mohio

I whakauruhia a RedPajama, he kaupapa mahi tahi e whai ana ki te hanga tauira ako miihini tuwhera me te whai i nga whakauru whakangungu ka taea te whakamahi hei hanga kaiawhina mohio e whakataetae ana ki nga hua arumoni penei i te ChatGPT. Ko te waatea o nga raraunga puna tuwhera me nga tauira reo nui e tika ana kia waatea nga roopu rangahau miihini motuhake me te ngawari ki te hanga i nga punaha korero. Ko nga whakahaere me nga hapori penei i a Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research me MILA Québec AI Institute i uru ki te kaupapa.

Ko te mahi tuatahi ko te whakaputanga o te huinga raraunga RedPajama-Data-1T mo te whakangungu i nga tauira korerorero, kei roto nga tohu 1.2 trillion. Ko te huinga RedPajama e whakaputa ana i nga raraunga e waatea ana ki te iwi whanui e whakamahia ana e Facebook ki te hanga i tana tauira LLaMA (he 1.25 trillion token te utu), engari ka tukuna i raro i te raihana tuwhera, kore herea (LLaMA raraunga me nga tauira i waatea noa ki nga kairangahau i runga i te tono motuhake mo te kore. -whakamahi arumoni). Ko te huinga RedPajama-Data-1T ka taea te tango he 2.67 TB te rahi me te whakauru i nga korero mai i nga wharangi Tukutuku Common Crawl-indexed, puranga Wikipedia, waehere puna mai i GitHub, pukapuka rohe whanui mai i te whare pukapuka Gutenberg, tuhinga putaiao mai i te ArXiv archive, me nga korerorero mai i Stack Overflow me etahi atu pae Stack Exchange.

Ko nga tauira kua rite, kua whakangunguhia i runga i te huinga raraunga kua oti te whakarite me te arotau ma te whakamahi i nga tauira kua oti te hanga o nga korero i roto i te ahua o te ako-whakamahinga mai i nga kaupapa Alpaca me OpenChatKit, kua whakamaheretia kia hangaia i roto i nga wiki e whai ake nei. Ko nga kaupapa tauira reo rite ko nga kaupapa tuwhera-puna LLaMA, Alpaca, Vicuna, me Koala, tae atu ki nga kaupapa tuwhera-puna Pythia, OpenChatKit, Open Assistant, me Dolly.

Hei taapiri, he maha nga kaupapa hou e pa ana ki te ako miihini ka taea te tohu:

  • MiniGPT-4 - ka whakawhänui i nga chatbots tauwhitiwhiti tuku iho me nga kaha ki te whai whakaaro ki nga korero ataata, ka taea e koe te tarai i nga whakaahua me te whai whakaaro ki nga tuhinga tuhi-a-ringa i te wa e taunekeneke ana ki te punaha (hei tauira, ka taea e koe te patai he aha te ahua o te ahanoa e whakaatuhia ana i te pikitia , tono ki te karetao ki te tuhi i tetahi korero i runga i te mea kua whakaatuhia i te whakaahua, i runga ranei i te hoahoa hoahoa, tono ki te hanga paetukutuku). Ko te whakatinanatanga MiniGPT-4 ka tuhia ki te Python ka tohatohahia i raro i te raihana BSD.
  • Kua whakaputahia e Facebook nga taputapu me te ako-whaiaro (SSL, Ako Whaiaro-Tirotiro, kaore e whakamahi i nga tapanga kua oti te whakarite e te tangata me nga tuhinga korero i te wa e whakangungu ana) tauira tirohanga rorohiko DINOv2, e tika ana mo te whakaoti rapanga o te tukatuka raraunga tirohanga whanui (whakamaori whakaahua, tango korero mo ahanoa i roto i nga whakaahua, te mohio ki nga mea e tupu ana i runga i te ataata) me nga whawhe i te taumata pika (te matapae hohonu, te wehewehe). I whakangungua te tauira ki te kohinga 142 miriona whakaahua. Ko te whakatinanatanga kua tuhia ki te Python ka tohatohahia i raro i te raihana Creative Commons Attribution-NonCommercial 4.0, ka taea te whakamahi kore-arumoni.
  • Ko te GPT4All he kete taputapu mo te whakarewa tere i nga chatbots tu-koke i runga i o ake taputapu (kaore ratou e uru ki nga ratonga o waho me te whakamahi i te PTM me te tautoko AVX2 mo te mahi). Ka tautoko i te hononga o nga tauira reo nui i runga i te GPT-J me te LLaMa. Kua tuhia te waehere ki te Python ka tohatohahia i raro i te raihana MIT.

Source: opennet.ru

Tāpiri i te kōrero