Ang proyekto sa RedPajama nagpalambo sa usa ka bukas nga dataset alang sa mga sistema sa artificial intelligence

Gipresentar ang usa ka proyekto nga kolaborasyon sa RedPajama aron makamugna ang mga modelo sa pagkat-on sa bukas nga makina ug kauban nga mga input sa pagbansay nga magamit sa paghimo og mga smart assistant nga makigkompetensya sa mga komersyal nga produkto sama sa ChatGPT. Gilauman nga ang presensya sa open source data ug dagkong mga modelo sa pinulongan makapawala sa mga pagdili sa mga independente nga mga team nga nalambigit sa panukiduki sa natad sa pagkat-on sa makina, ug makapasayon ​​sa paghimo sa mga espesyal nga sistema sa dayalogo. Ang mga organisasyon ug komunidad sama sa Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research ug MILA QuΓ©bec AI Institute miapil sa trabaho sa proyekto.

Ang una nga lakang mao ang pagmantala sa 1 trilyon nga token nga RedPajama-Data-1.2T dataset alang sa pagbansay sa mga modelo sa panag-istoryahanay. Ang RedPajama set nag-reproduce sa datos gikan sa publikong mga tinubdan nga gigamit sa Facebook sa paghimo sa iyang LLaMA nga modelo (mga total nga 1.25 trilyon nga mga token), apan gihatag ubos sa usa ka bukas nga lisensya nga wala maglimite sa gidak-on sa paggamit (LLaMA data ug mga modelo gihatag lamang sa mga tigdukiduki pinaagi sa espesyal hangyo alang sa dili-komersyal nga paggamit). Ang RedPajama-Data-1T nga ma-download nga set kay 2.67 TB ug naglakip sa impormasyon gikan sa Common Crawl indexed web pages, Wikipedia archives, source code gikan sa GitHub, public books gikan sa Gutenberg library, siyentipikong mga artikulo gikan sa ArXiv archive ug mga diskusyon sa Stack Overflow ug uban pang Stack Mga dapit sa pagbayloay.

Ang mga andam nga modelo, nga gibansay pinasukad sa giandam nga dataset ug gi-optimize gamit ang andam nga mga panig-ingnan sa mga diyalogo sa porma sa pagpatuman sa panudlo gikan sa mga proyekto sa Alpaca ug OpenChatKit, giplano nga maporma sa sunod nga mga semana. Ang susamang mga inisyatibo sa modelo sa pinulongan naglakip sa partially open source nga mga proyekto nga LLaMA, Alpaca, Vicuna, ug Koala, ingon man ang hingpit nga open source nga mga inisyatibo nga Pythia, OpenChatKit, Open Assistant, ug Dolly.

Dugang pa, adunay daghang mga bag-ong proyekto nga may kalabotan sa pagkat-on sa makina:

  • MiniGPT-4 - nagpalapad sa tradisyonal nga mga chatbot sa panag-istoryahanay nga adunay mga kapabilidad nga nagkonsiderar sa biswal nga impormasyon, nga nagtugot kanimo sa pag-analisar sa mga hulagway ug pagkonsiderar sa sinulat sa kamot nga teksto sa proseso sa pagpakig-uban sa sistema (pananglitan, mahimo ka mangutana kung unsang matang sa butang ang gipakita. sa hulagway, hangyoa ang bot sa pagsulat og istorya base sa gipakita sa litrato, o base sa schematic sketch, hangyoa nga maghimo ug website). Ang pagpatuman sa MiniGPT-4 gisulat sa Python ug giapod-apod ubos sa lisensya sa BSD.
  • Ang Facebook nagpatik sa usa ka toolkit ug usa ka self-learning (SSL, Self-Supervised Learning, wala mogamit sa mga label ug anotasyon nga giandam sa tawo) DINOv2 machine vision model nga angay sa pagsulbad sa mga problema sa generalized visual data processing (pag-uuri sa imahe, pagkuha sa impormasyon bahin sa mga butang sa mga imahe, pagsabut kung unsa ang nahitabo sa video) ug mga manipulasyon sa lebel sa pixel (pagtagna sa giladmon, pagbahin). Ang modelo gibansay sa usa ka koleksyon sa 142 milyon nga mga imahe. Ang pagpatuman gisulat sa Python ug giapod-apod ubos sa Creative Commons Attribution-NonCommercial 4.0 nga lisensya nga nagtugot sa dili pang-komersyal nga paggamit.
  • Ang GPT4All usa ka toolkit alang sa dali nga paglansad sa mga stand-alone nga chatbots sa ilang kaugalingon nga hardware (dili sila maka-access sa mga serbisyo sa gawas ug mogamit mga CPU nga adunay suporta sa AVX2 aron ipatuman). Ang pagkonektar sa dagkong mga modelo sa pinulongan base sa GPT-J ug LLaMa gisuportahan. Ang code gisulat sa Python ug giapod-apod ubos sa lisensya sa MIT.

Source: opennet.ru

Idugang sa usa ka comment