L'OpenChatKit open source toolkit hè presentatu, destinatu à simplificà a creazione di chatbots per un usu specializatu è generale. U sistema hè adattatu per eseguisce travaglii cum'è risponde à e dumande, cunducendu dialoghi multi-stadi, riassuntu, estrae l'infurmazioni, è classificà u testu. U codice hè scrittu in Python è distribuitu sottu a licenza Apache 2.0. U prughjettu include un mudellu prontu, codice per a furmazione di u vostru mudellu, utilità per pruvà i risultati di u mudellu, arnesi per cumplementà u mudellu cù u cuntestu da un indice esternu è adattà u mudellu di basa per risolve i vostri prublemi.
U bot hè basatu annantu à un mudellu di machine learning basi (GPT-NeoXT-Chat-Base-20B), custruitu cù un mudellu di lingua chì copre circa 20 miliardi di parametri è ottimizzati per a cumunicazione conversazionale. Per furmà u mudellu, i dati ottenuti da e cullezzione di prughjettu LAION, Together è Ontocord.ai sò stati utilizati.
Per espansione a basa di cunniscenza esistenti, hè prupostu un sistema chì pò ricuperà infurmazioni supplementari da repositori esterni, API è altre fonti. Per esempiu, hè pussibule aghjurnà l'infurmazioni utilizendu dati da Wikipedia è nutizie. Un mudellu di moderazione opzionale hè dispunibule, furmatu nantu à 6 miliardi di parametri è basatu annantu à u mudellu GPT-JT, per filtrà e dumande inappropriate o limità e discussioni à temi specifichi.
Separatamente, pudemu mintuvà u prughjettu ChatLLaMA, chì offre una biblioteca per creà assistenti intelligenti simili à ChatGPT. U prugettu hè sviluppatu cù un ochju à a pussibilità di correre nantu à u vostru propiu equipamentu è di creà suluzioni persunalizati pensati per copre spazii stretti di cunniscenza (per esempiu, medicina, dirittu, ghjochi, ricerca scientifica, etc.). U codice ChatLLaMA hè licenziatu sottu GPLv3.
U prughjettu sustene l'usu di mudelli basati nantu à l'architettura LLaMA (Large Language Model Meta AI) pruposta da Meta. U mudellu LLaMA cumpletu copre 65 miliardi di paràmetri, ma per ChatLLaMA hè cunsigliatu di utilizà l'opzioni cù 7 è 13 miliardi di parametri o GPTJ (6 miliardi), GPTNeoX (1.3 miliardi), 20BOPT (13 miliardi), BLOOM (7.1 miliardi) è Galactica (6.7 miliardi) mudelli). Inizialmente, i mudelli LLaMA sò stati furniti solu à i circadori nantu à una dumanda speciale, ma postu chì i torrenti sò stati utilizati per furnisce e dati, i dilettanti anu preparatu un script chì permette à qualcunu di scaricà u mudellu.
Source: opennet.ru
