Mozilla meluncurkan mesin pengenalan suara DeepSpeech 0.6

Disampaikan oleh peluncuran mesin pengenalan suara yang dikembangkan oleh Mozilla DeepSpeech 0.6, yang mengimplementasikan arsitektur pengenalan suara dengan nama yang sama, diajukan peneliti dari Baidu. Implementasinya ditulis dengan Python menggunakan kerangka pembelajaran mesin TensorFlow dan didistribusikan oleh di bawah lisensi gratis MPL 2.0. Mendukung Linux, Android, macOS dan Windows. Performanya cukup untuk menggunakan mesin di papan LePotato, Raspberry Pi 3 dan Raspberry Pi 4.

Set juga ditawarkan model terlatih, contoh file suara dan alat untuk pengenalan dari baris perintah. Untuk menyematkan fungsi pengenalan ucapan dalam program Anda, modul siap pakai untuk Python, NodeJS, C ++ dan .NET ditawarkan (pengembang pihak ketiga telah menyiapkan modul untuk Karat ΠΈ Go). Model yang sudah jadi hanya disediakan untuk bahasa Inggris, tetapi untuk bahasa lain berdasarkan permintaan. terlampir Instruksi Anda dapat melatih sistem sendiri menggunakan data suaradikumpulkan oleh proyek Common Voice.

DeepSpeech jauh lebih sederhana daripada sistem tradisional dan pada saat yang sama memberikan kualitas pengenalan yang lebih tinggi di hadapan kebisingan asing. Pengembangan tidak menggunakan model akustik tradisional dan konsep fonem, melainkan menggunakan sistem pembelajaran mesin yang dioptimalkan dengan baik berdasarkan jaringan saraf, yang menghilangkan kebutuhan untuk mengembangkan komponen terpisah untuk memodelkan berbagai penyimpangan, seperti fitur kebisingan, gema, dan ucapan .

Sisi negatif dari pendekatan ini adalah untuk mendapatkan pengenalan dan pelatihan jaringan saraf berkualitas tinggi, mesin DeepSpeech membutuhkan sejumlah besar data heterogen yang ditentukan dalam kondisi nyata oleh suara yang berbeda dan dengan adanya kebisingan alami.
Pengumpulan data tersebut dilakukan oleh proyek yang dibuat di Mozilla Suara biasa, menyediakan set data yang divalidasi dengan 780 jam aktif Bahasa Inggris, 325 dalam bahasa Jerman, 173 dalam bahasa Prancis dan 27 jam dalam bahasa Rusia.

Tujuan akhir dari proyek Common Voice adalah mengumpulkan 10 jam rekaman berbagai pengucapan frasa ucapan manusia yang khas, yang akan mencapai tingkat kesalahan pengenalan yang dapat diterima. Dalam bentuknya saat ini, peserta proyek telah mendikte total 4.3 ribu jam, 3.5 ribu di antaranya telah diuji. Saat melatih model terakhir bahasa Inggris untuk DeepSpeech, 3816 jam bicara digunakan, selain Common Voice yang mencakup data dari proyek LibriSpeech, Fisher, dan Switchboard, dan juga termasuk sekitar 1700 jam rekaman acara radio yang ditranskrip.

Saat menggunakan model bahasa Inggris siap pakai yang ditawarkan untuk diunduh, tingkat kesalahan pengenalan di DeepSpeech adalah 7.5% saat dinilai oleh set pengujian PerpustakaanPidato. Sebagai perbandingan, tingkat kesalahan dalam pengenalan manusia diperkirakan dalam 5.83%.

DeepSpeech terdiri dari dua subsistem - model akustik dan dekoder. Model akustik menggunakan metode pembelajaran mesin yang mendalam untuk menghitung kemungkinan simbol tertentu hadir dalam suara input. Dekoder menggunakan algoritma pencarian balok untuk mengubah data probabilitas simbol menjadi representasi tekstual.

Utama inovasi DeepSpeech 0.6 (cabang 0.6 tidak kompatibel mundur dan membutuhkan kode dan model untuk diperbarui):

  • Dekoder streaming baru diusulkan yang memberikan respons lebih tinggi dan tidak bergantung pada ukuran data audio yang diproses. Hasilnya, DeepSpeech versi baru mampu mengurangi penundaan pengenalan hingga 260 ms, yang 73% lebih cepat dari sebelumnya, dan memungkinkan Anda untuk menggunakan DeepSpeech dalam solusi pengenalan ucapan saat itu juga.
  • Perubahan telah dilakukan pada API dan pekerjaan telah dilakukan untuk menyatukan nama fungsi. Fungsi telah ditambahkan untuk mendapatkan metadata tambahan tentang sinkronisasi, yang memungkinkan tidak hanya untuk menerima representasi teks sebagai keluaran, tetapi juga untuk melacak pengikatan karakter dan kalimat individu ke posisi dalam aliran audio.
  • Dukungan untuk menggunakan perpustakaan telah ditambahkan ke toolkit untuk modul pembelajaran CuDNN untuk mengoptimalkan pekerjaan dengan jaringan saraf berulang (RNN), yang memungkinkan untuk mencapai peningkatan kinerja pelatihan model yang signifikan (sekitar dua kali), tetapi memerlukan perubahan pada kode yang melanggar kompatibilitas dengan model yang disiapkan sebelumnya.
  • Persyaratan minimum untuk versi TensorFlow telah dinaikkan dari 1.13.1 ke 1.14.0. Menambahkan dukungan untuk edisi ringan TensorFlow Lite, yang mengurangi ukuran paket DeepSpeech dari 98 MB menjadi 3.7 MB. Untuk digunakan pada perangkat tertanam dan seluler, ukuran file yang dikemas dengan model juga dikurangi dari 188 MB menjadi 47 MB ​​​​(metode kuantisasi digunakan untuk kompresi setelah model dilatih).
  • Model bahasa telah diterjemahkan ke format berbeda dari struktur data yang memungkinkan Anda untuk memetakan file ke dalam memori saat memuat. Dukungan untuk format lama telah dihentikan.
  • Mode memuat file dengan model bahasa telah diubah, yang mengurangi konsumsi memori dan mengurangi penundaan dalam memproses permintaan pertama setelah model dibuat. DeepSpeech sekarang menggunakan memori 22x lebih sedikit saat berjalan dan memulai 500x lebih cepat.

    Mozilla meluncurkan mesin pengenalan suara DeepSpeech 0.6

  • Kata-kata langka disaring dalam model bahasa. Jumlah total kata telah dikurangi menjadi 500 kata paling populer yang ditemukan dalam teks yang digunakan untuk melatih model. Pembersihan memungkinkan untuk mengurangi ukuran model bahasa dari 1800MB menjadi 900MB, hampir tidak berpengaruh pada tingkat kesalahan pengenalan.
  • Menambahkan dukungan untuk berbagai teknisi membuat variasi tambahan (augmentasi) dari data suara yang digunakan dalam pelatihan (misalnya, menambah rangkaian opsi yang menyertakan distorsi atau noise).
  • Menambahkan perpustakaan dengan binding untuk integrasi dengan aplikasi berbasis platform .NET.
  • Dokumentasi yang didesain ulang, yang sekarang dikumpulkan di situs terpisah pidato mendalam.readthedocs.io.

Sumber: opennet.ru

Tambah komentar