Proyék RedPajama ngamekarkeun dataset kabuka pikeun sistem kecerdasan jieunan

Proyék kolaborasi RedPajama dibere pikeun nyiptakeun modél pembelajaran mesin kabuka sareng input pelatihan anu tiasa dianggo pikeun ngawangun asistén calakan anu bersaing sareng produk komérsial sapertos ChatGPT. Diperkirakeun yén ayana data open source sareng modél basa ageung bakal ngaleungitkeun larangan tim mandiri anu kalibet dina panalungtikan dina widang pembelajaran mesin, sareng bakal nyederhanakeun nyiptakeun sistem dialog khusus. Organisasi sareng komunitas sapertos Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research sareng MILA Québec AI Institute parantos ngiringan dina proyék éta.

Léngkah munggaran nyaéta publikasi 1 triliun token RedPajama-Data-1.2T dataset pikeun latihan model conversational. Set RedPajama ngahasilkeun deui data tina sumber umum anu dianggo ku Facebook pikeun nyiptakeun modél LLaMA na (jumlah token 1.25 triliun), tapi disayogikeun dina lisénsi kabuka anu henteu ngabatesan ruang lingkup pamakean (data sareng model LLaMA ngan disayogikeun ka panaliti ku khusus. pamundut pikeun pamakéan non-komersil). Set anu tiasa diunduh RedPajama-Data-1T nyaéta 2.67 TB sareng kalebet inpormasi tina halaman wéb anu diindeks Common Crawl, arsip Wikipedia, kode sumber tina GitHub, buku umum ti perpustakaan Gutenberg, artikel ilmiah tina arsip ArXiv sareng diskusi sareng Stack Overflow sareng Stack anu sanés. Situs bursa.

Modél siap-dijieun, dilatih dumasar kana susunan data anu disusun sareng dioptimalkeun nganggo conto dialog anu siap-siap dina bentuk palaksanaan instruksi tina proyék Alpaca sareng OpenChatKit, rencanana bakal dibentuk dina sababaraha minggu ka hareup. Inisiatif modél basa anu sami kalebet proyék sumber terbuka sawaréh LLaMA, Alpaca, Vicuna, sareng Koala, ogé inisiatif sumber terbuka pinuh Pythia, OpenChatKit, Open Assistant, sareng Dolly.

Salaku tambahan, aya sababaraha proyék anyar anu aya hubunganana sareng pembelajaran mesin:

  • MiniGPT-4 - ngalegaan chatbots conversational tradisional jeung kamampuhan nu merhatikeun informasi visual, nu ngidinan Anjeun pikeun nganalisis gambar jeung merhatikeun téks tulisan leungeun dina prosés interacting jeung sistem (contona, anjeun tiasa nanya naon jenis objék ditémbongkeun). dina gambar, ménta bot nulis carita dumasar kana naon ditémbongkeun dina poto, atawa dumasar kana sketsa schematic, ménta nyieun ramatloka). Palaksanaan MiniGPT-4 ditulis dina Python jeung disebarkeun dina lisénsi BSD.
  • Facebook geus diterbitkeun mangrupa toolkit jeung timer learning (SSL, Self-Supervised Learning, teu make labél jeung annotations disusun manusa) model visi mesin DINOv2 cocog pikeun ngarengsekeun masalah ngolah data visual digeneralisasi (klasifikasi gambar, extracting informasi ngeunaan objék dina). gambar, ngartos naon anu lumangsung dina video) jeung manipulasi dina tingkat piksel (prediksi jero, segmentation). Modél ieu dilatih dina kumpulan 142 juta gambar. Palaksanaan ieu ditulis dina Python jeung disebarkeun dina Creative Commons Attribution-NonCommercial 4.0 lisénsi anu ngamungkinkeun pamakéan non-komérsial.
  • GPT4All mangrupikeun toolkit pikeun gancang ngaluncurkeun chatbots mandiri dina hardware sorangan (aranjeunna henteu ngaksés jasa éksternal sareng nganggo CPU kalayan dukungan AVX2 pikeun ngaéksekusi). Nyambungkeun modél basa ageung dumasar kana GPT-J sareng LLaMa dirojong. Kodeu ditulis dina Python sareng disebarkeun dina lisénsi MIT.

sumber: opennet.ru

Tambahkeun komentar