Het RedPajama-project ontwikkelt een open dataset voor kunstmatige intelligentiesystemen

Er wordt een RedPajama-samenwerkingsproject gepresenteerd om open machine learning-modellen en bijbehorende trainingsinputs te creëren die kunnen worden gebruikt om intelligente assistenten te bouwen die concurreren met commerciële producten zoals ChatGPT. Er wordt verwacht dat de aanwezigheid van open source data en grote taalmodellen de beperkingen zullen wegnemen van onafhankelijke teams die zich bezighouden met onderzoek op het gebied van machinaal leren, en de creatie van gespecialiseerde dialoogsystemen zullen vereenvoudigen. Organisaties en gemeenschappen zoals Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research en MILA Québec AI Institute hebben zich bij het project aangesloten.

De eerste stap was de publicatie van de RedPajama-Data-1T-dataset met een waarde van 1.2 biljoen token voor het trainen van gespreksmodellen. De RedPajama-set reproduceert gegevens uit openbare bronnen die door Facebook zijn gebruikt om zijn LLaMA-model te creëren (in totaal 1.25 biljoen tokens), maar wordt geleverd onder een open licentie die de reikwijdte van het gebruik niet beperkt (LLaMA-gegevens en -modellen werden alleen aan onderzoekers geleverd door speciale verzoek voor niet-commercieel gebruik). De downloadbare set RedPajama-Data-1T is 2.67 TB en bevat informatie van door Common Crawl geïndexeerde webpagina's, Wikipedia-archieven, broncode van GitHub, openbare boeken uit de Gutenberg-bibliotheek, wetenschappelijke artikelen uit het ArXiv-archief en discussies met Stack Overflow en andere Stack Uitwisselingssites.

Het is de bedoeling dat er in de komende weken kant-en-klare modellen worden gevormd, getraind op basis van de voorbereide dataset en geoptimaliseerd met behulp van kant-en-klare voorbeelden van dialogen in de vorm van instructie-uitvoering uit de projecten Alpaca en OpenChatKit. Soortgelijke taalmodelinitiatieven omvatten de gedeeltelijk open source-projecten LLaMA, Alpaca, Vicuna en Koala, evenals de volledig open source-initiatieven Pythia, OpenChatKit, Open Assistant en Dolly.

Daarnaast zijn er verschillende nieuwe projecten gerelateerd aan machine learning:

  • MiniGPT-4 - breidt traditionele conversatie-chatbots uit met mogelijkheden die rekening houden met visuele informatie, waardoor u afbeeldingen kunt analyseren en rekening kunt houden met handgeschreven tekst tijdens de interactie met het systeem (u kunt bijvoorbeeld vragen wat voor soort object wordt weergegeven op de foto, vraag de bot om een ​​verhaal te schrijven op basis van wat er op de foto wordt getoond, of vraag op basis van een schematische schets om een ​​website te maken). De MiniGPT-4-implementatie is geschreven in Python en gedistribueerd onder de BSD-licentie.
  • Facebook heeft een toolkit en een zelflerend (SSL, Self-Supervised Learning, gebruikt geen door mensen voorbereide labels en annotaties) DINOv2 machine vision-model gepubliceerd dat geschikt is voor het oplossen van problemen van gegeneraliseerde visuele gegevensverwerking (beeldclassificatie, het extraheren van informatie over objecten in afbeeldingen, begrijpen wat er op video gebeurt) en manipulaties op pixelniveau (dieptevoorspelling, segmentatie). Het model is getraind op een verzameling van 142 miljoen afbeeldingen. De implementatie is geschreven in Python en gedistribueerd onder een Creative Commons Attribution-NonCommercial 4.0-licentie die niet-commercieel gebruik toestaat.
  • GPT4All is een toolkit voor het snel lanceren van stand-alone chatbots op hun eigen hardware (ze hebben geen toegang tot externe services en gebruiken CPU's met AVX2-ondersteuning om uit te voeren). Het verbinden van grote taalmodellen op basis van GPT-J en LLaMa wordt ondersteund. De code is geschreven in Python en wordt gedistribueerd onder de MIT-licentie.

Bron: opennet.ru

Voeg een reactie