Veröffentlichung von OpenChatKit, einem Toolkit zum Erstellen von Chatbots

Es wird das Open-Source-Toolkit OpenChatKit vorgestellt, das die Erstellung von Chatbots für den speziellen und allgemeinen Gebrauch vereinfachen soll. Das System ist darauf ausgelegt, Aufgaben wie das Beantworten von Fragen, das Führen von mehrstufigen Dialogen, das Zusammenfassen, das Extrahieren von Informationen und das Klassifizieren von Texten auszuführen. Der Code ist in Python geschrieben und wird unter der Apache 2.0-Lizenz vertrieben. Das Projekt umfasst ein vorgefertigtes Modell, Code zum Trainieren Ihres Modells, Dienstprogramme zum Testen der Ergebnisse des Modells, Tools zum Ergänzen des Modells mit Kontext aus einem externen Index und zum Anpassen des Basismodells zur Lösung Ihrer eigenen Probleme.

Der Bot basiert auf einem grundlegenden Modell für maschinelles Lernen (GPT-NeoXT-Chat-Base-20B), das auf einem Sprachmodell basiert, das etwa 20 Milliarden Parameter abdeckt und für die Konversationskommunikation optimiert ist. Zum Trainieren des Modells wurden Daten aus den Projektsammlungen LAION, Together und Ontocord.ai verwendet.

Um die bestehende Wissensbasis zu erweitern, wird ein System vorgeschlagen, das zusätzliche Informationen aus externen Repositories, APIs und anderen Quellen abrufen kann. Beispielsweise ist es möglich, Informationen mithilfe von Daten aus Wikipedia und Newsfeeds zu aktualisieren. Es steht ein optionales Moderationsmodell zur Verfügung, das auf 6 Milliarden Parametern trainiert wird und auf dem GPT-JT-Modell basiert, um unangemessene Fragen herauszufiltern oder Diskussionen auf bestimmte Themen zu beschränken.

Unabhängig davon können wir das ChatLLaMA-Projekt erwähnen, das eine Bibliothek zum Erstellen intelligenter Assistenten ähnlich wie ChatGPT bietet. Das Projekt wird mit Blick auf die Möglichkeit entwickelt, auf eigener Ausrüstung zu laufen und personalisierte Lösungen zu schaffen, die auf enge Wissensbereiche (z. B. Medizin, Recht, Spiele, wissenschaftliche Forschung usw.) abzielen. Der ChatLLaMA-Code ist unter GPLv3 lizenziert.

Das Projekt unterstützt die Verwendung von Modellen, die auf der von Meta vorgeschlagenen LLaMA-Architektur (Large Language Model Meta AI) basieren. Das vollständige LLaMA-Modell deckt 65 Milliarden Parameter ab, aber für ChatLLaMA wird empfohlen, Optionen mit 7 und 13 Milliarden Parametern oder GPTJ (6 Milliarden), GPTNeoX (1.3 Milliarden), 20BOPT (13 Milliarden), BLOOM (7.1 Milliarden) und zu verwenden Galactica (6.7 Milliarden) Modelle). Anfangs wurden LLaMA-Modelle nur auf besondere Anfrage an Forscher geliefert, aber da Torrents zur Übermittlung von Daten verwendet wurden, erstellten Enthusiasten ein Skript, das es jedem ermöglichte, das Modell herunterzuladen.

Source: opennet.ru

Kommentar hinzufügen