Ang proyekto ng RedPajama ay bumuo ng isang bukas na dataset para sa mga sistema ng artificial intelligence

Iniharap ang isang collaborative na proyekto ng RedPajama upang lumikha ng mga bukas na modelo ng pag-aaral ng makina at kasamang mga input ng pagsasanay na maaaring magamit upang bumuo ng mga matatalinong katulong na nakikipagkumpitensya sa mga komersyal na produkto tulad ng ChatGPT. Inaasahan na ang pagkakaroon ng open source na data at malalaking modelo ng wika ay mag-aalis ng mga paghihigpit ng mga independiyenteng koponan na nakikibahagi sa pananaliksik sa larangan ng machine learning, at magpapasimple sa paglikha ng mga espesyal na sistema ng pag-uusap. Ang mga organisasyon at komunidad tulad ng Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research at MILA QuΓ©bec AI Institute ay sumali sa gawain sa proyekto.

Ang unang hakbang ay ang paglalathala ng 1 trilyong token na RedPajama-Data-1.2T na dataset para sa pagsasanay ng mga modelo ng pakikipag-usap. Ang RedPajama set ay nagre-reproduce ng data mula sa mga pampublikong pinagmumulan na ginagamit ng Facebook upang likhain ang modelong LLaMA nito (kabuuang 1.25 trilyong token), ngunit ibinibigay sa ilalim ng isang bukas na lisensya na hindi naglilimita sa saklaw ng paggamit (ang data at mga modelo ng LLaMA ay ibinigay lamang sa mga mananaliksik ng espesyal kahilingan para sa di-komersyal na paggamit). Ang mada-download na set ng RedPajama-Data-1T ay 2.67 TB at may kasamang impormasyon mula sa Common Crawl na na-index na mga web page, mga archive ng Wikipedia, source code mula sa GitHub, mga pampublikong aklat mula sa Gutenberg library, mga siyentipikong artikulo mula sa ArXiv archive at mga talakayan sa Stack Overflow at iba pang Stack Exchange site.

Ang mga ready-made na modelo, na sinanay batay sa inihandang dataset at na-optimize gamit ang mga ready-made na halimbawa ng mga dialog sa anyo ng instruction-execution mula sa mga proyekto ng Alpaca at OpenChatKit, ay binalak na mabuo sa susunod na ilang linggo. Kasama sa mga katulad na modelo ng wika ang mga bahagyang open source na proyekto na LLaMA, Alpaca, Vicuna, at Koala, pati na rin ang ganap na open source na mga inisyatiba na Pythia, OpenChatKit, Open Assistant, at Dolly.

Bukod pa rito, may ilang bagong proyekto na nauugnay sa machine learning:

  • MiniGPT-4 - nagpapalawak ng tradisyonal na mga chatbot sa pakikipag-usap na may mga kakayahan na isinasaalang-alang ang visual na impormasyon, na nagbibigay-daan sa iyo upang pag-aralan ang mga imahe at isaalang-alang ang sulat-kamay na teksto sa proseso ng pakikipag-ugnay sa system (halimbawa, maaari mong tanungin kung anong uri ng bagay ang ipinapakita sa larawan, hilingin sa bot na magsulat ng isang kuwento batay sa kung ano ang ipinapakita sa larawan, o batay sa isang schematic sketch, hilingin na lumikha ng isang website). Ang pagpapatupad ng MiniGPT-4 ay nakasulat sa Python at ipinamahagi sa ilalim ng lisensya ng BSD.
  • Ang Facebook ay nag-publish ng isang toolkit at isang self-learning (SSL, Self-Supervised Learning, ay hindi gumagamit ng mga label at anotasyon na inihanda ng tao) DINOv2 machine vision model na angkop para sa paglutas ng mga problema ng pangkalahatang visual na pagproseso ng data (pag-uuri ng imahe, pagkuha ng impormasyon tungkol sa mga bagay sa mga larawan, pag-unawa sa kung ano ang nangyayari sa video) at mga manipulasyon sa antas ng pixel (depth prediction, segmentation). Ang modelo ay sinanay sa isang koleksyon ng 142 milyong mga imahe. Ang pagpapatupad ay nakasulat sa Python at ipinamahagi sa ilalim ng lisensyang Creative Commons Attribution-NonCommercial 4.0 na nagpapahintulot sa hindi pangkomersyal na paggamit.
  • Ang GPT4All ay isang toolkit para sa mabilis na paglulunsad ng mga stand-alone na chatbot sa kanilang sariling hardware (hindi sila nag-a-access ng mga panlabas na serbisyo at gumagamit ng mga CPU na may suporta sa AVX2 upang maipatupad). Ang pagkonekta ng malalaking modelo ng wika batay sa GPT-J at LLaMa ay suportado. Ang code ay nakasulat sa Python at ipinamahagi sa ilalim ng lisensya ng MIT.

Pinagmulan: opennet.ru

Magdagdag ng komento