RedPajama verkefnið þróar opið gagnasafn fyrir gervigreindarkerfi

RedPajama samstarfsverkefni er kynnt til að búa til opin vélanámslíkön og meðfylgjandi þjálfunarinntak sem hægt er að nota til að byggja upp greindar aðstoðarmenn sem keppa við auglýsingavörur eins og ChatGPT. Gert er ráð fyrir að tilvist opinna gagna og stórra tungumálalíkana muni fjarlægja hömlur óháðra teyma sem stunda rannsóknir á sviði vélanáms og einfalda gerð sérhæfðra samræðukerfa. Stofnanir og samfélög eins og Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research og MILA Québec AI Institute hafa tekið þátt í vinnu við verkefnið.

Fyrsta skrefið var birting á 1 trilljón tákn RedPajama-Data-1.2T gagnapakkanum til að þjálfa samtalslíkön. RedPajama settið endurskapar gögn frá opinberum aðilum sem Facebook notar til að búa til LLaMA líkan sitt (samtals 1.25 trilljón tákn), en er afhent með opnu leyfi sem takmarkar ekki umfang notkunar (LLaMA gögn og líkön voru eingöngu afhent rannsakendum af sérstökum beiðni um notkun án viðskipta). RedPajama-Data-1T niðurhalanlegt sett er 2.67 TB og inniheldur upplýsingar frá Common Crawl verðtryggðum vefsíðum, Wikipedia skjalasöfnum, frumkóða frá GitHub, opinberum bókum frá Gutenberg bókasafninu, vísindagreinum úr ArXiv skjalasafninu og umræðum við Stack Overflow og aðra Stack Overflow. Skipti á síðum.

Stefnt er að tilbúnum líkönum, þjálfuð á grundvelli tilbúins gagnasafns og fínstillt með tilbúnum dæmum um glugga í formi kennslu-framkvæmda frá Alpaca og OpenChatKit verkefnunum, á næstu vikum. Svipuð frumkvæði að tungumálamódelum eru meðal annars opinn uppspretta verkefnin LLaMA, Alpaca, Vicuna og Koala, sem og fullkomlega opinn frumkvæði Pythia, OpenChatKit, Open Assistant og Dolly.

Að auki eru nokkur ný verkefni sem tengjast vélanámi:

  • MiniGPT-4 - framlengir hefðbundna samtalsspjallspjalla með getu sem tekur mið af sjónrænum upplýsingum, sem gerir þér kleift að greina myndir og taka tillit til handskrifaðs texta í samskiptum við kerfið (til dæmis geturðu spurt hvers konar hlutur er sýndur á myndinni skaltu biðja botninn um að skrifa sögu út frá því sem sést á myndinni, eða byggt á skýringarmynd, biðja um að búa til vefsíðu). MiniGPT-4 útfærslan er skrifuð í Python og dreift undir BSD leyfinu.
  • Facebook hefur gefið út verkfærasett og sjálfsnám (SSL, sjálfstætt nám, notar ekki tilbúin merki og athugasemdir) DINOv2 vélsjónarlíkan sem hentar til að leysa vandamál við almenna sjónræna gagnavinnslu (myndflokkun, útdráttur upplýsinga um hluti í myndir, skilja hvað er að gerast á myndbandi) og meðhöndlun á pixlastigi (dýptarspá, skipting). Fyrirsætan er þjálfuð á safni 142 milljóna mynda. Útfærslan er skrifuð í Python og dreift undir Creative Commons Attribution-NonCommercial 4.0 leyfi sem leyfir notkun án viðskipta.
  • GPT4All er verkfærakista til að skjóta af stað sjálfstæðum spjallvítum á eigin vélbúnaði (þeir hafa ekki aðgang að ytri þjónustu og nota örgjörva með AVX2 stuðningi til að keyra). Stuðningur er við að tengja stór tungumálalíkön byggð á GPT-J og LLaMa. Kóðinn er skrifaður í Python og dreift undir MIT leyfinu.

Heimild: opennet.ru

Bæta við athugasemd