El projecte RedPjama desenvolupa un conjunt de dades obert per a sistemes d'intel·ligència artificial

Es presenta un projecte col·laboratiu de RedPjama per crear models d'aprenentatge automàtic obert i aportacions de formació acompanyades que es poden utilitzar per crear assistents intel·ligents que competeixen amb productes comercials com ara ChatGPT. S'espera que la presència de dades de codi obert i grans models de llenguatge eliminarà les restriccions dels equips independents que es dediquen a la investigació en l'àmbit de l'aprenentatge automàtic i simplifiqui la creació de sistemes de diàleg especialitzats. Organitzacions i comunitats com Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research i MILA Québec AI Institute s'han sumat al treball en el projecte.

El primer pas va ser la publicació del conjunt de dades RedPajama-Data-1T d'1.2 bilions de testimonis per entrenar models de conversa. El conjunt RedPjama reprodueix dades de fonts públiques utilitzades per Facebook per crear el seu model LLaMA (un total de 1.25 bilions de fitxes), però es subministra sota una llicència oberta que no limita l'abast d'ús (les dades i els models de LLaMA només es van subministrar als investigadors per mitjà especial). sol·licitud d'ús no comercial). El conjunt RedPjama-Data-1T descarregable té 2.67 TB i inclou informació de pàgines web indexades de Common Crawl, arxius de la Viquipèdia, codi font de GitHub, llibres públics de la biblioteca Gutenberg, articles científics de l'arxiu ArXiv i discussions amb Stack Overflow i altres Llocs de Stack Exchange.

Es preveu que en les properes setmanes es formin models ja preparats, entrenats a partir del conjunt de dades preparat i optimitzats mitjançant exemples de diàlegs preparats en forma d'execució d'instruccions dels projectes Alpaca i OpenChatKit. Iniciatives de models de llenguatge similars inclouen els projectes parcialment de codi obert LLaMA, Alpaca, Vicuna i Koala, així com les iniciatives de codi obert totalment Pythia, OpenChatKit, Open Assistant i Dolly.

A més, hi ha diversos projectes nous relacionats amb l'aprenentatge automàtic:

  • MiniGPT-4: amplia els xatbots de conversa tradicionals amb capacitats que tenen en compte la informació visual, la qual cosa us permet analitzar imatges i tenir en compte el text escrit a mà en el procés d'interacció amb el sistema (per exemple, podeu preguntar quin tipus d'objecte es mostra). a la imatge, demaneu al bot que escrigui una història basant-se en el que es mostra a la foto, o a partir d'un esbós esquemàtic, demaneu que creï un lloc web). La implementació MiniGPT-4 està escrita en Python i es distribueix sota la llicència BSD.
  • Facebook ha publicat un conjunt d'eines i un model d'autoaprenentatge (SSL, Self-Supervised Learning, no utilitza etiquetes i anotacions preparades per humans) DINOv2 model de visió artificial adequat per resoldre problemes de processament generalitzat de dades visuals (classificació d'imatges, extracció d'informació sobre objectes en imatges, entendre què passa al vídeo) i manipulacions a nivell de píxels (predicció de profunditat, segmentació). El model està entrenat en una col·lecció de 142 milions d'imatges. La implementació està escrita en Python i es distribueix sota una llicència Creative Commons Reconeixement-NoComercial 4.0 que permet un ús no comercial.
  • GPT4All és un conjunt d'eines per llançar ràpidament chatbots autònoms amb el seu propi maquinari (no accedeixen a serveis externs i utilitzen CPU amb suport AVX2 per executar-se). S'admet la connexió de grans models d'idioma basats en GPT-J i LLaMa. El codi està escrit en Python i es distribueix sota la llicència MIT.

Font: opennet.ru

Afegeix comentari