Das RedPajama-Projekt entwickelt einen offenen Datensatz für Systeme der künstlichen Intelligenz

Ein RedPajama-Verbundprojekt wird vorgestellt, um offene Modelle für maschinelles Lernen und begleitende Trainingseingaben zu erstellen, die zum Aufbau intelligenter Assistenten verwendet werden können, die mit kommerziellen Produkten wie ChatGPT konkurrieren. Es wird erwartet, dass das Vorhandensein von Open-Source-Daten und großen Sprachmodellen die Einschränkungen unabhängiger Forschungsteams im Bereich des maschinellen Lernens beseitigen und die Erstellung spezialisierter Dialogsysteme vereinfachen wird. Organisationen und Communities wie Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research und MILA Québec AI Institute haben sich der Arbeit an dem Projekt angeschlossen.

Der erste Schritt war die Veröffentlichung des 1 Billionen Token umfassenden RedPajama-Data-1.2T-Datensatzes zum Training von Konversationsmodellen. Das RedPajama-Set reproduziert Daten aus öffentlichen Quellen, die Facebook zur Erstellung seines LLaMA-Modells verwendet hat (insgesamt 1.25 Billionen Token), wird jedoch unter einer offenen Lizenz bereitgestellt, die den Nutzungsumfang nicht einschränkt (LLaMA-Daten und -Modelle wurden nur Forschern von Special bereitgestellt). Anfrage für nicht-kommerzielle Nutzung). Das herunterladbare RedPajama-Data-1T-Set ist 2.67 TB groß und enthält Informationen von in Common Crawl indizierten Webseiten, Wikipedia-Archiven, Quellcode von GitHub, öffentlichen Büchern aus der Gutenberg-Bibliothek, wissenschaftlichen Artikeln aus dem ArXiv-Archiv sowie Diskussionen mit Stack Overflow und anderen Stack Exchange-Sites.

In den nächsten Wochen sollen vorgefertigte Modelle erstellt werden, die auf der Grundlage des vorbereiteten Datensatzes trainiert und anhand vorgefertigter Dialogbeispiele in Form von Anweisungen und Ausführungen aus den Projekten Alpaca und OpenChatKit optimiert werden. Ähnliche Sprachmodellinitiativen umfassen die teilweise Open-Source-Projekte LLaMA, Alpaca, Vicuna und Koala sowie die vollständig Open-Source-Initiativen Pythia, OpenChatKit, Open Assistant und Dolly.

Darüber hinaus gibt es mehrere neue Projekte zum Thema maschinelles Lernen:

  • MiniGPT-4 – erweitert herkömmliche Konversations-Chatbots um Funktionen, die visuelle Informationen berücksichtigen, sodass Sie Bilder analysieren und handgeschriebenen Text bei der Interaktion mit dem System berücksichtigen können (Sie können beispielsweise fragen, welche Art von Objekt angezeigt wird). Bitten Sie den Bot auf dem Bild, eine Geschichte basierend auf dem, was auf dem Foto gezeigt wird, zu schreiben, oder bitten Sie ihn, basierend auf einer schematischen Skizze eine Website zu erstellen. Die MiniGPT-4-Implementierung ist in Python geschrieben und wird unter der BSD-Lizenz vertrieben.
  • Facebook hat ein Toolkit und ein selbstlernendes (SSL, Self-Supervised Learning, verwendet keine vom Menschen erstellten Etiketten und Anmerkungen) DINOv2-Bildverarbeitungsmodell veröffentlicht, das sich zur Lösung von Problemen der allgemeinen visuellen Datenverarbeitung (Bildklassifizierung, Extrahieren von Informationen über Objekte in) eignet Bilder, Verstehen, was im Video passiert) und Manipulationen auf Pixelebene (Tiefenvorhersage, Segmentierung). Das Modell wird anhand einer Sammlung von 142 Millionen Bildern trainiert. Die Implementierung ist in Python geschrieben und wird unter einer Creative Commons Attribution-NonCommercial 4.0-Lizenz vertrieben, die eine nichtkommerzielle Nutzung erlaubt.
  • GPT4All ist ein Toolkit zum schnellen Starten eigenständiger Chatbots auf ihrer eigenen Hardware (sie greifen nicht auf externe Dienste zu und verwenden zur Ausführung CPUs mit AVX2-Unterstützung). Die Anbindung großer Sprachmodelle auf Basis von GPT-J und LLaMa wird unterstützt. Der Code ist in Python geschrieben und wird unter der MIT-Lizenz vertrieben.

Source: opennet.ru

Kommentar hinzufügen