OpenChatKit, een toolkit voor het maken van chatbots, is gepubliceerd

De OpenChatKit open source toolkit wordt gepresenteerd, gericht op het vereenvoudigen van het maken van chatbots voor gespecialiseerd en algemeen gebruik. Het systeem is aangepast om taken uit te voeren zoals het beantwoorden van vragen, het voeren van dialogen in meerdere fasen, het samenvatten, het extraheren van informatie en het classificeren van tekst. De code is geschreven in Python en gedistribueerd onder de Apache 2.0-licentie. Het project omvat een kant-en-klaar model, code voor het trainen van uw model, hulpprogramma's voor het testen van de resultaten van het model, hulpmiddelen voor het aanvullen van het model met context uit een externe index en het aanpassen van het basismodel om uw eigen problemen op te lossen.

De bot is gebaseerd op een basismodel voor machine learning (GPT-NeoXT-Chat-Base-20B), gebouwd met behulp van een taalmodel dat ongeveer 20 miljard parameters omvat en geoptimaliseerd voor conversatiecommunicatie. Om het model te trainen werden gegevens verkregen uit de projectcollecties LAION, Together en Ontocord.ai gebruikt.

Om de bestaande kennisbasis uit te breiden, wordt een systeem voorgesteld dat aanvullende informatie kan ophalen uit externe repositories, API's en andere bronnen. Het is bijvoorbeeld mogelijk om informatie bij te werken met behulp van gegevens uit Wikipedia en nieuwsfeeds. Er is een optioneel moderatiemodel beschikbaar, getraind op 6 miljard parameters en gebaseerd op het GPT-JT-model, om ongepaste vragen uit te filteren of discussies tot specifieke onderwerpen te beperken.

Afzonderlijk kunnen we het ChatLLaMA-project noemen, dat een bibliotheek biedt voor het maken van intelligente assistenten vergelijkbaar met ChatGPT. Het project wordt ontwikkeld met het oog op de mogelijkheid om op uw eigen apparatuur te draaien en gepersonaliseerde oplossingen te creëren die zijn ontworpen om beperkte kennisgebieden te bestrijken (bijvoorbeeld geneeskunde, recht, games, wetenschappelijk onderzoek, enz.). De ChatLLaMA-code is gelicentieerd onder GPLv3.

Het project ondersteunt het gebruik van modellen gebaseerd op de door Meta voorgestelde LLaMA-architectuur (Large Language Model Meta AI). Het volledige LLaMA-model omvat 65 miljard parameters, maar voor ChatLLaMA wordt aanbevolen om opties te gebruiken met 7 en 13 miljard parameters of de GPTJ (6 miljard), GPTNeoX (1.3 miljard), 20BOPT (13 miljard), BLOOM (7.1 miljard) en Galactica (6.7 miljard) modellen). Aanvankelijk werden LLaMA-modellen alleen op speciaal verzoek aan onderzoekers geleverd, maar omdat torrents werden gebruikt om gegevens te leveren, maakten enthousiastelingen een script waarmee iedereen het model kon downloaden.

Bron: opennet.ru

Voeg een reactie