Projek RedPajama membangunkan set data terbuka untuk sistem kecerdasan buatan

Projek kerjasama RedPajama dibentangkan untuk mencipta model pembelajaran mesin terbuka dan input latihan yang disertakan yang boleh digunakan untuk membina pembantu pintar yang bersaing dengan produk komersial seperti ChatGPT. Kehadiran data sumber terbuka dan model bahasa besar dijangka akan menghapuskan sekatan pasukan bebas yang terlibat dalam penyelidikan dalam bidang pembelajaran mesin, dan akan memudahkan penciptaan sistem dialog khusus. Organisasi dan komuniti seperti Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research dan MILA QuΓ©bec AI Institute telah menyertai kerja projek itu.

Langkah pertama ialah penerbitan set data RedPajama-Data-1T 1.2 trilion token untuk melatih model perbualan. Set RedPajama mengeluarkan semula data daripada sumber awam yang digunakan oleh Facebook untuk mencipta model LLaMAnya (berjumlah 1.25 trilion token), tetapi dibekalkan di bawah lesen terbuka yang tidak mengehadkan skop penggunaan (data dan model LLaMA hanya dibekalkan kepada penyelidik oleh khas permintaan untuk kegunaan bukan komersial). Set RedPajama-Data-1T yang boleh dimuat turun ialah 2.67 TB dan termasuk maklumat daripada halaman web terindeks Common Crawl, arkib Wikipedia, kod sumber daripada GitHub, buku awam daripada perpustakaan Gutenberg, artikel saintifik daripada arkib ArXiv dan perbincangan dengan Stack Overflow dan lain-lain Laman Stack Exchange.

Model sedia dibuat, dilatih berdasarkan set data yang disediakan dan dioptimumkan menggunakan contoh dialog siap sedia dalam bentuk pelaksanaan arahan daripada projek Alpaca dan OpenChatKit, dirancang untuk dibentuk dalam beberapa minggu akan datang. Inisiatif model bahasa yang serupa termasuk projek sebahagian sumber terbuka LLaMA, Alpaca, Vicuna dan Koala, serta inisiatif sumber terbuka sepenuhnya Pythia, OpenChatKit, Pembantu Terbuka dan Dolly.

Selain itu, terdapat beberapa projek baharu yang berkaitan dengan pembelajaran mesin:

  • MiniGPT-4 - memanjangkan chatbot perbualan tradisional dengan keupayaan yang mengambil kira maklumat visual, yang membolehkan anda menganalisis imej dan mengambil kira teks tulisan tangan dalam proses berinteraksi dengan sistem (contohnya, anda boleh bertanya jenis objek yang ditunjukkan dalam gambar, minta bot menulis cerita berdasarkan apa yang ditunjukkan dalam foto, atau berdasarkan lakaran skematik, minta buat tapak web). Pelaksanaan MiniGPT-4 ditulis dalam Python dan diedarkan di bawah lesen BSD.
  • Facebook telah menerbitkan kit alat dan pembelajaran kendiri (SSL, Self-Supervised Learning, tidak menggunakan label dan anotasi yang disediakan manusia) Model penglihatan mesin DINOv2 yang sesuai untuk menyelesaikan masalah pemprosesan data visual umum (pengkelasan imej, mengekstrak maklumat tentang objek dalam imej, memahami perkara yang berlaku pada video) dan manipulasi pada tahap piksel (ramalan kedalaman, pembahagian). Model ini dilatih pada koleksi 142 juta imej. Pelaksanaan ini ditulis dalam Python dan diedarkan di bawah lesen Creative Commons Attribution-NonCommercial 4.0 yang membenarkan penggunaan bukan komersial.
  • GPT4All ialah kit alat untuk melancarkan chatbot bersendirian dengan cepat pada perkakasan mereka sendiri (mereka tidak mengakses perkhidmatan luaran dan menggunakan CPU dengan sokongan AVX2 untuk dilaksanakan). Menyambung model bahasa besar berdasarkan GPT-J dan LLaMa disokong. Kod ini ditulis dalam Python dan diedarkan di bawah lesen MIT.

Sumber: opennet.ru

Tambah komen