Mozilla mbukak mesin pangenalan ucapan DeepSpeech 0.6

Dipuntepangaken release saka mesin pangenalan wicara dikembangaké dening Mozilla DeepSpeech 0.6, sing ngetrapake arsitektur pangenalan wicara kanthi jeneng sing padha, ngajokaken dening peneliti saka Baidu. Implementasine ditulis ing Python nggunakake platform learning mesin TensorFlow lan disebarake dening ing free lisènsi MPL 2.0. Ndhukung karya ing Linux, Android, macOS lan Windows. Kinerja cukup kanggo nggunakake mesin ing papan LePotato, Raspberry Pi 3 lan Raspberry Pi 4.

Uga kalebu ing set ditawani model terlatih, conto file swara lan alat pangenalan saka baris printah. Kanggo nggabungake fungsi pangenalan wicara menyang program sampeyan, modul siap digunakake kanggo Python, NodeJS, C++ lan .NET ditawakake (pangembang pihak katelu wis nyiapake modul kanthi kapisah kanggo Rust ΠΈ Go). Model rampung diwenehake mung kanggo basa Inggris, nanging kanggo basa liyane dening ditempelake instruksi sampeyan bisa nglatih sistem dhewe nggunakake data swara, diklumpukake dening proyek Common Voice.

DeepSpeech luwih prasaja tinimbang sistem tradisional lan ing wektu sing padha nyedhiyakake pangenalan kualitas sing luwih dhuwur ing ngarsane gangguan extraneous. Iki ngliwati model akustik tradisional lan konsep fonem, tinimbang nggunakake sistem pembelajaran mesin basis jaringan saraf sing dioptimalake banget sing ngilangi kebutuhan kanggo ngembangake komponen sing kapisah kanggo model macem-macem anomali kayata gangguan, gema, lan fitur wicara.

Kakurangan saka pendekatan iki yaiku kanggo entuk pangenalan lan latihan jaringan saraf sing berkualitas tinggi, mesin DeepSpeech mbutuhake data heterogen sing akeh, dictated ing kahanan nyata kanthi swara sing beda-beda lan ing ngarsane gangguan alam.
Proyek sing digawe ing Mozilla ngumpulake data kasebut. swara umum, nyedhiyakake dataset sing wis diverifikasi kanthi 780 jam Inggris, 325 ing basa Jerman, 173 ing basa Prancis lan 27 jam ing basa Rusia.

Tujuan utama proyek Common Voice yaiku nglumpukake 10 ewu jam rekaman saka macem-macem lafal frase khas ucapan manungsa, sing bakal ngidini entuk tingkat kesalahan sing bisa ditampa. Ing wangun saiki, peserta proyek wis ndhikte total 4.3 ewu jam, sing 3.5 ewu wis diuji. Nalika nglatih model basa Inggris pungkasan kanggo DeepSpeech, 3816 jam wicara digunakake, saliyane kanggo Common Voice ngliputi data saka proyek LibriSpeech, Fisher lan Switchboard, lan uga kalebu udakara 1700 jam rekaman acara radio sing ditranskripsi.

Nalika nggunakake model basa Inggris sing wis siap sing ditawakake kanggo diundhuh, tingkat kesalahan pangenalan ing DeepSpeech yaiku 7.5% nalika ditaksir nganggo set tes. PustakaSpeech. Kanggo mbandhingake, tingkat kesalahan kanggo pangenalan manungsa kira-kira ing 5.83%.

DeepSpeech kasusun saka rong subsistem - model akustik lan dekoder. Model akustik nggunakake metode learning machine jero kanggo ngetung kemungkinan karakter tartamtu sing ana ing swara input. Dekoder nggunakake algoritma telusuran sinar kanggo ngowahi data kemungkinan karakter dadi representasi teks.

Utama inovasi DeepSpeech 0.6 (cabang 0.6 ora kompatibel karo rilis sadurunge lan mbutuhake nganyari kode lan model):

  • A decoder streaming anyar diusulake sing nyedhiyakake responsif sing luwih dhuwur lan ora gumantung saka ukuran data audio sing diproses. AkibatΓ©, versi anyar DeepSpeech bisa nyuda latensi kanggo pangenalan dadi 260 ms, yaiku 73% luwih cepet tinimbang sadurunge, lan ngidini DeepSpeech bisa digunakake ing solusi pangenalan wicara kanthi cepet.
  • Pangowahan wis digawe kanggo API lan karya wis rampung kanggo nyawiji jeneng fungsi. Fungsi wis ditambahakΓ© kanggo njupuk metadata tambahan babagan sinkronisasi, ngijini sampeyan ora mung kanggo nampa perwakilan teks minangka output, nanging uga kanggo trek naleni karakter individu lan sentences kanggo posisi ing stream audio.
  • Dhukungan kanggo nggunakake perpustakaan wis ditambahake menyang toolkit kanggo modul latihan CuDNN kanggo ngoptimalake karya karo jaringan syaraf ambalan (RNN), kang digawe iku bisa kanggo entuk pinunjul (kira-kira tikel loro) ing kinerja latihan model, nanging mbutuhake owah-owahan kanggo kode sing nglanggar kompatibilitas karo model sadurunge disiapake.
  • Syarat versi TensorFlow minimal wis diunggahake saka 1.13.1 dadi 1.14.0. Ditambahake dhukungan kanggo edisi entheng TensorFlow Lite, sing nyuda ukuran paket DeepSpeech saka 98 MB dadi 3.7 MB. Kanggo digunakake ing piranti sing dipasang lan seluler, ukuran file sing dikemas karo model uga wis suda saka 188 MB dadi 47 MB ​​(metode kuantisasi digunakake kanggo kompresi sawise model dilatih).
  • Model basa wis diterjemahake menyang format struktur data sing beda sing ngidini file dipetakan menyang memori nalika dimuat. Dhukungan kanggo format lawas wis mandheg.
  • Mode loading file karo model basa wis diganti, kang wis suda konsumsi memori lan suda wektu tundha nalika proses request pisanan sawise nggawe model. Sajrone operasi, DeepSpeech saiki nggunakake memori 22 kaping luwih sithik lan diwiwiti 500 kaping luwih cepet.

    Mozilla mbukak mesin pangenalan ucapan DeepSpeech 0.6

  • Tembung-tembung langka disaring ing model basa. Jumlah tembung dikurangi dadi 500 ewu tembung sing paling populer sing ditemokake ing teks sing digunakake kanggo nglatih model kasebut. Reresik ndadekake iku bisa kanggo ngurangi ukuran model basa saka 1800MB kanggo 900MB, karo sakbenere ora ana pengaruh ing tingkat kesalahan pangenalan.
  • Dhukungan ditambahake kanggo macem-macem teknisi nggawe variasi tambahan (augmentation) saka data audio digunakake ing latihan (contone, nambah distorsi utawa gangguan kanggo pesawat saka opsi).
  • Added perpustakaan karo bindings kanggo integrasi karo aplikasi adhedhasar platform .NET.
  • Dokumentasi wis digarap maneh lan saiki diklumpukake ing situs web sing kapisah. deepspeech.readthedocs.io.

Source: opennet.ru

Add a comment