Mozilla ngenalkeun mesin pangenal ucapan DeepSpeech 0.6

Diwanohkeun sékrési mesin pangenal ucapan anu dikembangkeun ku Mozilla DeepSpeech 0.6, anu ngalaksanakeun arsitektur pangenal ucapan tina nami anu sami, diajukeun ku panalungtik ti Baidu. Palaksanaan ieu ditulis dina Python ngagunakeun platform learning mesin TensorFlow na disebarkeun ku handapeun bebas lisénsi MPL 2.0. Ngarojong dianggo dina Linux, Android, macOS sareng Windows. Kinerja cukup pikeun ngagunakeun mesin dina papan LePotato, Raspberry Pi 3 sareng Raspberry Pi 4.

Ogé kaasup dina susunan ditawarkeun model dilatih, conto file sora jeung alat pangakuan ti garis paréntah. Pikeun ngahijikeun pungsi pangenal ucapan kana program anjeun, modul siap dipaké pikeun Python, NodeJS, C++ jeung .NET ditawarkeun (pamekar pihak katilu geus misah nyiapkeun modul pikeun karahaan и Go). Modél rengse disadiakeun ukur keur basa Inggris, tapi pikeun basa séjén ku napel parentah Anjeun tiasa ngalatih sistem sorangan ngagunakeun data sora, dikumpulkeun ku proyék Common Voice.

DeepSpeech langkung saderhana tibatan sistem tradisional sareng dina waktos anu sami nyayogikeun pangakuan kualitas anu langkung luhur ku ayana gangguan luar. Éta ngalangkungan modél akustik tradisional sareng konsép fonem, tibatan ngagunakeun sistem pembelajaran mesin dumasar jaringan saraf anu dioptimalkeun pisan anu ngaleungitkeun kabutuhan pikeun ngembangkeun komponén anu misah pikeun modél rupa-rupa anomali sapertos noise, gema, sareng fitur ucapan.

Kakurangan tina pendekatan ieu nyaéta pikeun meunangkeun pangakuan kualitas luhur sareng pelatihan jaringan saraf, mesin DeepSpeech peryogi seueur data hétérogén, didikte dina kaayaan nyata ku sora anu béda sareng ku ayana noise alami.
Proyék anu didamel dina Mozilla ngumpulkeun data sapertos kitu. Sora umum, nyadiakeun dataset diverifikasi kalawan 780 jam tina Basa Inggris, 325 dina basa Jerman, 173 dina basa Perancis jeung 27 jam dina basa Rusia.

Tujuan pamungkas tina proyék Common Voice nyaéta pikeun ngumpulkeun 10 rébu jam ngarékam rupa-rupa lafal tina frasa has ucapan manusa, anu bakal ngamungkinkeun pikeun ngahontal tingkat kasalahan anu ditampi dina pangakuan. Dina bentuk ayeuna, pamilon proyék parantos didikte jumlahna 4.3 rébu jam, anu 3.5 rébu parantos diuji. Nalika ngalatih modél basa Inggris pamungkas pikeun DeepSpeech, 3816 jam pidato dianggo, salian ti Common Voice nyertakeun data tina proyék LibriSpeech, Fisher sareng Switchboard, sareng ogé kalebet ngeunaan 1700 jam rekaman acara radio anu ditranskripsi.

Nalika ngagunakeun modél basa Inggris siap-siap anu ditawarkeun pikeun diunduh, tingkat kasalahan pangenalan dina DeepSpeech nyaéta 7.5% nalika ditaksir ku set tés. Biantara Biantara. Pikeun babandingan, laju kasalahan pikeun pangakuan manusa diperkirakeun dina 5.83%.

DeepSpeech diwangun ku dua subsistem - modél akustik sareng dekoder. Modél akustik ngagunakeun métode learning machine jero pikeun ngitung likelihood tina karakter tangtu hadir dina sora input. decoder ngagunakeun algoritma pilarian sinar pikeun ngarobah data probabiliti karakter kana ngagambarkeun téks.

utama inovasi DeepSpeech 0.6 (Cabang 0.6 henteu cocog sareng sékrési sateuacana sareng peryogi pembaruan kode sareng modél):

  • A decoder streaming anyar diajukeun nu nyadiakeun responsiveness luhur sarta henteu gumantung kana ukuran data audio olahan. Hasilna, versi anyar tina DeepSpeech junun ngurangan latency pikeun pangakuan kana 260 mdet, nu 73% leuwih gancang ti saméméhna, sarta ngidinan DeepSpeech bisa dipaké dina solusi pangakuan ucapan on laleur.
  • Parobihan parantos dilakukeun kana API sareng padamelan parantos dilakukeun pikeun ngahijikeun nami fungsi. Fungsi geus ditambahkeun pikeun ménta metadata tambahan ngeunaan sinkronisasi, sahingga anjeun teu ngan pikeun nampa hiji ngagambarkeun téks salaku kaluaran, tapi ogé pikeun ngalacak beungkeutan karakter individu jeung kalimat ka posisi dina aliran audio.
  • Rojongan pikeun ngagunakeun perpustakaan geus ditambahkeun kana toolkit pikeun modul latihan CuDNN pikeun ngaoptimalkeun gawé kalawan jaringan neural kumat (RNN), nu ngamungkinkeun pikeun ngahontal signifikan (kira twofold) kanaékan kinerja latihan modél, tapi diperlukeun parobahan kode nu ngalanggar kasaluyuan jeung model saméméhna disiapkeun.
  • Sarat Vérsi TensorFlow minimum geus diangkat tina 1.13.1 kana 1.14.0. Ditambahkeun dukungan pikeun édisi ringan TensorFlow Lite, anu ngirangan ukuran pakét DeepSpeech tina 98 MB ka 3.7 MB. Pikeun dianggo dina alat anu dipasang sareng sélulér, ukuran file anu dibungkus sareng modél ogé parantos dikirangan tina 188 MB ka 47 MB ​​(metode kuantisasi dianggo pikeun komprési saatos modél dilatih).
  • Modél basa parantos ditarjamahkeun kana format struktur data anu béda anu ngamungkinkeun file dipetakeun kana mémori nalika dimuat. Rojongan pikeun format heubeul geus dieureunkeun.
  • Modeu ngamuat file nganggo modél basa parantos dirobih, anu ngirangan konsumsi mémori sareng ngirangan telat nalika ngolah pamundut munggaran saatos nyiptakeun modél. Salila operasi, DeepSpeech ayeuna meakeun memori 22 kali leuwih saeutik tur dimimitian 500 kali leuwih gancang.

    Mozilla ngenalkeun mesin pangenal ucapan DeepSpeech 0.6

  • Kecap langka disaring dina modél basa. Jumlah total kecap diréduksi jadi 500 rébu tina kecap nu pang populerna kapanggih dina téks dipaké pikeun ngalatih modél. Beberesih ngamungkinkeun pikeun ngurangan ukuran model basa ti 1800MB jadi 900MB, kalawan ampir euweuh pangaruh dina laju kasalahan pangakuan.
  • Ditambahkeun dukungan pikeun sagala rupa teknisi nyieun variasi tambahan (augmentation) tina data audio dipaké dina latihan (contona, nambahkeun distorsi atawa noise kana susunan pilihan).
  • Ditambahkeun perpustakaan kalawan bindings pikeun integrasi jeung aplikasi dumasar kana platform .NET.
  • Dokuméntasi parantos didamel deui sareng ayeuna dikumpulkeun dina halaman wéb anu misah. deepspeech.readthedocs.io.

sumber: opennet.ru

Tambahkeun komentar