Mozilla memperkenalkan enjin pengecaman pertuturan DeepSpeech 0.6

Dikemukakan oleh keluaran enjin pengecaman pertuturan yang dibangunkan oleh Mozilla DeepSpeech 0.6, yang melaksanakan seni bina pengecaman pertuturan dengan nama yang sama, dicadangkan oleh penyelidik dari Baidu. Pelaksanaan ditulis dalam Python menggunakan platform pembelajaran mesin TensorFlow dan diedarkan oleh di bawah lesen MPL 2.0 percuma. Menyokong kerja pada Linux, Android, macOS dan Windows. Prestasinya mencukupi untuk menggunakan enjin pada papan LePotato, Raspberry Pi 3 dan Raspberry Pi 4.

Juga termasuk dalam set ditawarkan model terlatih, contoh fail bunyi dan alat pengecaman daripada baris arahan. Untuk menyepadukan fungsi pengecaman pertuturan ke dalam program anda, modul sedia untuk digunakan untuk Python, NodeJS, C++ dan .NET ditawarkan (pembangun pihak ketiga telah menyediakan modul secara berasingan untuk Rust ΠΈ Go). Model siap dibekalkan hanya untuk bahasa Inggeris, tetapi untuk bahasa lain oleh dilampirkan Directions anda boleh melatih sistem sendiri menggunakan data suara, dikumpulkan oleh projek Common Voice.

DeepSpeech jauh lebih mudah daripada sistem tradisional dan pada masa yang sama memberikan pengiktirafan kualiti yang lebih tinggi dengan kehadiran bunyi luar. Ia memintas model akustik tradisional dan konsep fonem, sebaliknya menggunakan sistem pembelajaran mesin berasaskan rangkaian saraf yang sangat optimum yang menghapuskan keperluan untuk membangunkan komponen berasingan untuk memodelkan pelbagai anomali seperti bunyi, gema dan ciri pertuturan.

Kelemahan pendekatan ini ialah untuk mendapatkan pengiktirafan dan latihan berkualiti tinggi bagi rangkaian saraf, enjin DeepSpeech memerlukan sejumlah besar data heterogen, ditentukan dalam keadaan sebenar oleh suara yang berbeza dan dengan kehadiran bunyi semula jadi.
Projek yang dibuat dalam Mozilla mengumpul data sedemikian. Suara biasa, menyediakan set data yang disahkan dengan 780 jam Bahasa Inggeris, 325 dalam bahasa Jerman, 173 dalam bahasa Perancis dan 27 jam dalam bahasa Rusia.

Matlamat utama projek Common Voice adalah untuk mengumpulkan 10 ribu jam rakaman pelbagai sebutan bagi frasa tipikal pertuturan manusia, yang akan membolehkan mencapai tahap kesilapan yang boleh diterima dalam pengecaman. Dalam bentuk semasa, peserta projek telah menetapkan sejumlah 4.3 ribu jam, di mana 3.5 ribu telah diuji. Semasa melatih model bahasa Inggeris terakhir untuk DeepSpeech, 3816 jam pertuturan telah digunakan, sebagai tambahan kepada Common Voice yang meliputi data daripada projek LibriSpeech, Fisher dan Switchboard, dan juga termasuk kira-kira 1700 jam rakaman rancangan radio yang ditranskripsikan.

Apabila menggunakan model bahasa Inggeris siap sedia yang ditawarkan untuk dimuat turun, kadar ralat pengecaman dalam DeepSpeech ialah 7.5% apabila dinilai dengan set ujian LibriSpeech. Sebagai perbandingan, kadar ralat untuk pengecaman manusia dianggarkan pada 5.83%.

DeepSpeech terdiri daripada dua subsistem - model akustik dan penyahkod. Model akustik menggunakan kaedah pembelajaran mesin mendalam untuk mengira kemungkinan aksara tertentu hadir dalam bunyi input. Penyahkod menggunakan algoritma carian sinar untuk menukar data kebarangkalian aksara kepada perwakilan teks.

Utama inovasi DeepSpeech 0.6 (cawangan 0.6 tidak serasi dengan keluaran sebelumnya dan memerlukan kemas kini kod dan model):

  • Penyahkod penstriman baharu dicadangkan yang memberikan responsif yang lebih tinggi dan tidak bergantung pada saiz data audio yang diproses. Hasilnya, versi baharu DeepSpeech berjaya mengurangkan kependaman untuk pengecaman kepada 260 ms, iaitu 73% lebih pantas daripada sebelumnya, dan membolehkan DeepSpeech digunakan dalam penyelesaian pengecaman pertuturan dengan cepat.
  • Perubahan telah dibuat pada API dan kerja telah dilakukan untuk menyatukan nama fungsi. Fungsi telah ditambah untuk mendapatkan metadata tambahan tentang penyegerakan, yang membolehkan bukan sahaja untuk mendapatkan perwakilan teks sebagai output, tetapi juga untuk menjejaki pengikatan aksara dan ayat individu pada kedudukan dalam aliran audio.
  • Sokongan untuk menggunakan perpustakaan telah ditambahkan pada kit alat untuk modul latihan CuDNN untuk mengoptimumkan kerja dengan rangkaian saraf berulang (RNN), yang memungkinkan untuk mencapai peningkatan yang ketara (kira-kira dua kali ganda) dalam prestasi latihan model, tetapi memerlukan perubahan pada kod yang melanggar keserasian dengan model yang disediakan sebelum ini.
  • Keperluan versi TensorFlow minimum telah dinaikkan daripada 1.13.1 kepada 1.14.0. Menambah sokongan untuk edisi ringan TensorFlow Lite, yang mengurangkan saiz pakej DeepSpeech daripada 98 MB kepada 3.7 MB. Untuk digunakan pada peranti terbenam dan mudah alih, saiz fail yang dibungkus dengan model juga telah dikurangkan daripada 188 MB kepada 47 MB ​​(kaedah pengkuantitian digunakan untuk pemampatan selepas model dilatih).
  • Model bahasa telah diterjemahkan kepada format struktur data yang berbeza yang membolehkan fail dipetakan ke dalam memori apabila dimuatkan. Sokongan untuk format lama telah dihentikan.
  • Mod memuatkan fail dengan model bahasa telah diubah, yang telah mengurangkan penggunaan memori dan mengurangkan kelewatan apabila memproses permintaan pertama selepas mencipta model. Semasa operasi, DeepSpeech kini menggunakan memori 22 kali lebih sedikit dan bermula 500 kali lebih cepat.

    Mozilla memperkenalkan enjin pengecaman pertuturan DeepSpeech 0.6

  • Perkataan yang jarang berlaku telah ditapis dalam model bahasa. Jumlah perkataan telah dikurangkan kepada 500 ribu perkataan paling popular yang terdapat dalam teks yang digunakan untuk melatih model. Pembersihan itu memungkinkan untuk mengurangkan saiz model bahasa daripada 1800MB kepada 900MB, dengan hampir tiada kesan pada kadar ralat pengecaman.
  • Menambah sokongan untuk pelbagai juruteknik mencipta variasi tambahan (tambahan) data audio yang digunakan dalam latihan (contohnya, menambah herotan atau hingar pada set pilihan).
  • Menambah perpustakaan dengan pengikatan untuk penyepaduan dengan aplikasi berdasarkan platform .NET.
  • Dokumentasi telah diolah semula dan kini dikumpulkan di tapak web yang berasingan. deepspeech.readthedocs.io.

Sumber: opennet.ru

Tambah komen