NVIDIA nandur modal $1.5 yuta ing proyek Common Voice Mozilla.

NVIDIA nandur modal $ 1.5 yuta ing proyek Mozilla Common Voice. Kapentingan ing sistem pangenalan wicara asale saka prediksi yen ing sepuluh taun sabanjure, teknologi swara bakal dadi salah sawijining cara utama wong sesambungan karo macem-macem piranti, saka komputer lan telpon menyang asisten digital lan mesin penjual otomatis.

Kinerja sistem swara gumantung banget marang volume lan keragaman data swara sing kasedhiya kanggo latihan model pembelajaran mesin. Teknologi swara saiki utamane fokus ing pangenalan basa Inggris lan ora kalebu macem-macem basa, aksen, lan pola wicara. Investasi bakal mbantu nyepetake wutah data swara sing kasedhiya kanggo umum, melu komunitas lan sukarelawan liyane, lan nambah jumlah staf proyek full-time.

Ayo kita ngelingake yen proyek Common Voice ditujokake kanggo ngatur kerja bareng kanggo nglumpukake basis data pola swara sing nimbang macem-macem swara lan gaya wicara. Pangguna diundang kanggo swara swara sing ditampilake ing layar utawa ngevaluasi kualitas data sing ditambahake dening pangguna liyane. Basis data akumulasi kanthi cathetan macem-macem lafal saka frasa khas ucapan manungsa bisa digunakake tanpa watesan ing sistem pembelajaran mesin lan ing proyek riset.

Dataset Common Voice saiki kalebu conto lafal saka luwih saka 164 wong, sing kalebu kira-kira 9 jam data swara ing 60 basa sing beda-beda. Dataset Rusia kalebu 1412 peserta lan 111 jam materi pidato, dene dataset Ukrainia kalebu 459 peserta lan 30 jam. Kanggo mbandhingake, luwih saka 66 wong nyumbang 1686 jam wicara sing diverifikasi menyang dataset Inggris. Dataset kasebut bisa digunakake ing sistem pembelajaran mesin kanggo mbangun model pangenalan wicara lan sintesis. Data kasebut diterbitake ing domain umum (CC0).

Miturut penulis perpustakaan pangenalan wicara sing terus-terusan Vosk, kekurangan saka set Common Voice yaiku siji-sijine materi swara (dominasi wong lanang umur 20-30 taun, lan kekurangan materi karo swara wanita. , bocah lan wong tuwa), kekurangan variasi ing kamus (pengulangan frasa sing padha) lan distribusi rekaman ing format MP3 sing distorsi.

Source: opennet.ru

Tuku hosting sing dipercaya kanggo situs kanthi proteksi DDoS, server VPS VDS 🔥 Tuku hosting situs web sing bisa dipercaya nganggo proteksi DDoS, server VPS VDS | ProHoster