NVIDIA nandur modal $ 1.5 yuta ing proyek Mozilla Common Voice

NVIDIA nandur modal $ 1.5 yuta ing proyek Mozilla Common Voice. Kapentingan ing sistem pangenalan wicara asale saka prediksi yen sajrone sepuluh taun sabanjure, teknologi swara bakal dadi salah sawijining cara utama wong sesambungan karo piranti wiwit saka komputer lan telpon nganti asisten digital lan kios.

Kinerja sistem swara gumantung banget marang volume lan macem-macem data swara sing kasedhiya kanggo latihan model pembelajaran mesin. Teknologi swara saiki utamane fokus ing pangenalan basa Inggris lan ora kalebu macem-macem basa, aksen, lan pola wicara. Investasi kasebut bakal mbantu nyepetake data swara umum, melu luwih akeh komunitas lan sukarelawan, lan nambah jumlah staf proyek full-time.

Ayo kita ngelingake yen proyek Common Voice ditujokake kanggo ngatur kerja bareng kanggo nglumpukake basis data pola swara sing nimbang macem-macem swara lan gaya wicara. Pangguna diundang kanggo swara swara sing ditampilake ing layar utawa ngevaluasi kualitas data sing ditambahake dening pangguna liyane. Basis data akumulasi kanthi cathetan macem-macem lafal saka frasa khas ucapan manungsa bisa digunakake tanpa watesan ing sistem pembelajaran mesin lan ing proyek riset.

Set Common Voice saiki kalebu conto lafal saka luwih saka 164 wong. Udakara 9 ewu jam data swara wis diklumpukake ing 60 basa sing beda-beda. Set kanggo basa Rusia kalebu 1412 peserta lan 111 jam materi pidato, lan kanggo basa Ukrainia - 459 peserta lan 30 jam. Kanggo mbandhingake, luwih saka 66 ewu wong melu nyiapake bahan ing basa Inggris, kanthi didikte 1686 jam wicara sing diverifikasi. Set sing diusulake bisa digunakake ing sistem pembelajaran mesin kanggo mbangun model pangenalan wicara lan sintesis. Data kasebut diterbitake minangka domain publik (CC0).

Miturut penulis perpustakaan pangenalan wicara sing terus-terusan Vosk, kekurangan saka set Common Voice yaiku siji-sijine materi swara (dominasi wong lanang umur 20-30 taun, lan kekurangan materi karo swara wanita. , bocah lan wong tuwa), kekurangan variasi ing kamus (pengulangan frasa sing padha) lan distribusi rekaman ing format MP3 sing distorsi.

Source: opennet.ru

Add a comment