Menerbitkan OpenChatKit, sebuah toolkit untuk membangun chatbots

Toolkit terbuka OpenChatKit diperkenalkan, bertujuan untuk menyederhanakan pembuatan chatbots untuk aplikasi khusus dan umum. Sistem diadaptasi untuk melakukan tugas-tugas seperti menjawab pertanyaan, melakukan dialog multi-tahap, meringkas, mengekstraksi informasi, mengklasifikasikan teks. Kode ditulis dengan Python dan didistribusikan di bawah lisensi Apache 2.0. Proyek ini mencakup model siap pakai, kode untuk melatih model Anda, utilitas untuk menguji hasil model, alat untuk melengkapi model dengan konteks dari indeks eksternal dan mengadaptasi model dasar untuk menyelesaikan masalah Anda sendiri.

Bot didasarkan pada model pembelajaran mesin dasar (GPT-NeoXT-Chat-Base-20B), dibangun menggunakan model bahasa yang mencakup sekitar 20 miliar parameter dan dioptimalkan untuk komunikasi percakapan. Model dilatih menggunakan data yang diperoleh dari kumpulan proyek LAION, Together, dan Ontocord.ai.

Untuk memperluas basis pengetahuan yang ada, sebuah sistem diusulkan yang mampu mengekstraksi informasi tambahan dari repositori eksternal, API, dan sumber lainnya. Misalnya, dimungkinkan untuk memperbarui informasi menggunakan data dari Wikipedia dan umpan berita. Selain itu, model moderasi tersedia, dilatih dengan 6 miliar parameter, berdasarkan model GPT-JT, dan dirancang untuk menyaring pertanyaan yang tidak pantas atau membatasi diskusi pada topik tertentu.

Secara terpisah, kami dapat mencatat proyek ChatLLaMA, yang menawarkan perpustakaan untuk membuat asisten cerdas yang mirip dengan ChatGPT. Proyek ini berkembang dengan memperhatikan kemungkinan berjalan dengan peralatannya sendiri dan menciptakan solusi yang dipersonalisasi yang dirancang untuk mencakup bidang pengetahuan yang sempit (misalnya, kedokteran, hukum, permainan, penelitian ilmiah, dll.). Kode ChatLLaMA dilisensikan di bawah GPLv3.

Proyek ini mendukung penggunaan model berdasarkan arsitektur LLaMA (Large Language Model Meta AI) yang diusulkan oleh Meta. Model LLaMA lengkap mencakup 65 miliar parameter, tetapi untuk ChatLLaMA disarankan untuk menggunakan varian dengan 7 dan 13 miliar parameter atau GPTJ (6 miliar), GPTNeoX (1.3 miliar), 20BOPT (13 miliar), BLOOM (7.1 miliar) dan Galactica (6.7 miliar) model). Awalnya, model LLaMA disediakan hanya untuk peneliti berdasarkan permintaan khusus, tetapi karena torrent digunakan untuk mengirimkan data, para peminat telah menyiapkan skrip yang memungkinkan siapa saja mengunduh model tersebut.

Sumber: opennet.ru

Tambah komentar