Proyek RedPajama mengembangkan kumpulan data terbuka untuk sistem kecerdasan buatan

Proyek kolaboratif RedPajama dihadirkan untuk membuat model pembelajaran mesin terbuka dan input pelatihan yang menyertainya yang dapat digunakan untuk membangun asisten cerdas yang bersaing dengan produk komersial seperti ChatGPT. Kehadiran data sumber terbuka dan model bahasa besar diharapkan akan menghilangkan batasan tim independen yang terlibat dalam penelitian di bidang pembelajaran mesin, dan akan menyederhanakan pembuatan sistem dialog khusus. Organisasi dan komunitas seperti Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research, dan MILA QuΓ©bec AI Institute telah bergabung dalam pengerjaan proyek ini.

Langkah pertama adalah publikasi set data RedPajama-Data-1T senilai 1.2 triliun token untuk melatih model percakapan. Set RedPajama mereproduksi data dari sumber publik yang digunakan oleh Facebook untuk membuat model LLaMA-nya (total 1.25 triliun token), tetapi diberikan di bawah lisensi terbuka yang tidak membatasi ruang lingkup penggunaan (data dan model LLaMA hanya diberikan kepada peneliti oleh khusus permintaan untuk penggunaan non-komersial). Set unduhan RedPajama-Data-1T adalah 2.67 TB dan mencakup informasi dari halaman web yang diindeks Common Crawl, arsip Wikipedia, kode sumber dari GitHub, buku publik dari perpustakaan Gutenberg, artikel ilmiah dari arsip ArXiv dan diskusi dengan Stack Overflow dan Stack lainnya Pertukaran situs.

Model siap pakai, dilatih berdasarkan dataset yang disiapkan dan dioptimalkan menggunakan contoh dialog siap pakai dalam bentuk eksekusi instruksi dari proyek Alpaca dan OpenChatKit, direncanakan akan dibentuk dalam beberapa minggu ke depan. Inisiatif model bahasa serupa mencakup proyek sumber terbuka sebagian LLaMA, Alpaca, Vicuna, dan Koala, serta inisiatif sumber terbuka sepenuhnya Pythia, OpenChatKit, Asisten Terbuka, dan Dolly.

Selain itu, ada beberapa proyek baru yang terkait dengan pembelajaran mesin:

  • MiniGPT-4 - memperluas chatbot percakapan tradisional dengan kemampuan yang memperhitungkan informasi visual, yang memungkinkan Anda menganalisis gambar dan memperhitungkan teks tulisan tangan dalam proses berinteraksi dengan sistem (misalnya, Anda dapat menanyakan jenis objek apa yang ditampilkan pada gambar, minta bot untuk menulis cerita berdasarkan apa yang ditampilkan di foto, atau berdasarkan sketsa skematik, minta untuk membuat situs web). Implementasi MiniGPT-4 ditulis dengan Python dan didistribusikan di bawah lisensi BSD.
  • Facebook telah menerbitkan toolkit dan belajar mandiri (SSL, Self-Supervised Learning, tidak menggunakan label dan anotasi yang disiapkan manusia) model visi mesin DINOv2 yang cocok untuk memecahkan masalah pemrosesan data visual umum (klasifikasi gambar, penggalian informasi tentang objek di gambar, memahami apa yang terjadi pada video) dan manipulasi pada tingkat piksel (prediksi kedalaman, segmentasi). Model dilatih pada kumpulan 142 juta gambar. Implementasinya ditulis dengan Python dan didistribusikan di bawah lisensi Creative Commons Attribution-NonCommercial 4.0 yang mengizinkan penggunaan non-komersial.
  • GPT4All adalah toolkit untuk meluncurkan chatbot mandiri dengan cepat di perangkat keras mereka sendiri (mereka tidak mengakses layanan eksternal dan menggunakan CPU dengan dukungan AVX2 untuk mengeksekusi). Menghubungkan model bahasa besar berdasarkan GPT-J dan LLaMa didukung. Kode ditulis dengan Python dan didistribusikan di bawah lisensi MIT.

Sumber: opennet.ru

Tambah komentar