🥇Mozilla DeepSpeech 0.6 nutqni aniqlash mexanizmini taqdim etdi

Tanishtirdi Mozilla tomonidan ishlab chiqilgan nutqni aniqlash dvigatelining chiqarilishi DeepSpeech 0.6, xuddi shu nomdagi nutqni aniqlash arxitekturasini amalga oshiradi, taklif qilingan Baidu tadqiqotchilari tomonidan. Amalga oshirish Python-da TensorFlow mashina o'rganish platformasi yordamida yozilgan va tarqaladi bepul MPL 2.0 litsenziyasi ostida. Linux, Android, macOS va Windows-da ishlashni qo'llab-quvvatlaydi. Unumdorligi dvigatelni LePotato, Raspberry Pi 3 va Raspberry Pi 4 platalarida ishlatish uchun yetarli.

Shuningdek, to'plamga kiritilgan taklif qildi tayyorlangan modellar, misollar ovoz fayllari va buyruq satridan tanib olish vositalari. Nutqni aniqlash funksiyasini dasturlaringizga integratsiya qilish uchun Python, NodeJS, C++ va .NET uchun foydalanishga tayyor modullar taklif etiladi (uchinchi tomon ishlab chiquvchilari ushbu dastur uchun alohida modullar tayyorlaganlar. zang и Go). Tayyor model faqat ingliz tili uchun, ammo boshqa tillar uchun taqdim etiladi biriktirilgan ko'rsatmalar yordamida tizimni o'zingiz tayyorlashingiz mumkin ovozli ma'lumotlar, Common Voice loyihasi tomonidan to'plangan.

DeepSpeech an'anaviy tizimlarga qaraganda ancha sodda va shu bilan birga begona shovqin mavjud bo'lganda yuqori sifatni aniqlash imkonini beradi. U an'anaviy akustik modellar va fonema tushunchasini chetlab o'tadi, buning o'rniga shovqin, aks-sado va nutq xususiyatlari kabi turli anomaliyalarni modellashtirish uchun alohida komponentlarni ishlab chiqish zaruratini bartaraf etadigan yuqori darajada optimallashtirilgan neyron tarmog'iga asoslangan mashinani o'rganish tizimidan foydalanadi.

Ushbu yondashuvning salbiy tomoni shundaki, neyron tarmog'ini yuqori sifatli tanib olish va o'rgatish uchun DeepSpeech dvigateli real sharoitlarda turli xil ovozlar va tabiiy shovqinlar mavjudligida aytiladigan katta miqdordagi heterojen ma'lumotlarni talab qiladi.
Mozilla'da yaratilgan loyiha bunday ma'lumotlarni to'playdi. umumiy ovoz, 780 soatlik tasdiqlangan ma'lumotlar to'plamini taqdim etish Inglizcha, nemis tilida 325, frantsuz tilida 173 va rus tilida 27 soat.

Common Voice loyihasining yakuniy maqsadi inson nutqining tipik iboralarining turli talaffuzlarini 10 ming soatlik yozuvlarni to'plashdan iborat bo'lib, bu tanib olishda qabul qilinadigan xatolar darajasiga erishishga imkon beradi. Hozirgi ko'rinishda loyiha ishtirokchilari jami 4.3 ming soatni aytib berishgan, shundan 3.5 mingtasi sinovdan o'tgan. DeepSpeech uchun ingliz tilining yakuniy modelini o'rgatishda LibriSpeech, Fisher va Switchboard loyihalari ma'lumotlarini qamrab oluvchi Common Voice'dan tashqari, 3816 soatlik nutq ishlatilgan, shuningdek, 1700 soatga yaqin transkripsiyalangan radioshou yozuvlari ham kiritilgan.

Yuklab olish uchun taqdim etilgan ingliz tilining tayyor modelidan foydalanganda, DeepSpeech-da tanib olish xatosi darajasi test to'plami bilan baholanganda 7.5% ni tashkil qiladi. LibriSpeech. Taqqoslash uchun, insonni tanib olish uchun xatolik darajasi taxmin qilingan 5.83% da.

DeepSpeech ikkita quyi tizimdan iborat - akustik model va dekoder. Akustik model kirish ovozida ma'lum belgilar mavjud bo'lish ehtimolini hisoblash uchun chuqur mashinani o'rganish usullaridan foydalanadi. Dekoder belgilar ehtimoli haqidagi ma'lumotlarni matn ko'rinishiga aylantirish uchun nurli qidiruv algoritmidan foydalanadi.

asosiy yangiliklar DeepSpeech 0.6 (0.6 filiali oldingi versiyalarga mos kelmaydi va kod va model yangilanishlarini talab qiladi):

Yuqori sezgirlikni ta'minlaydigan va qayta ishlangan audio ma'lumotlar hajmidan mustaqil bo'lgan yangi oqim dekoderi taklif etiladi. Natijada, DeepSpeech-ning yangi versiyasi tanib olish uchun kechikish vaqtini 260 ms gacha kamaytirishga muvaffaq bo'ldi, bu avvalgiga qaraganda 73% tezroq va DeepSpeech-dan nutqni aniqlash yechimlarida tezda foydalanish imkonini beradi.
APIga oʻzgartirishlar kiritildi va funksiya nomlarini birlashtirish boʻyicha ishlar amalga oshirildi. Sinxronizatsiya bo'yicha qo'shimcha metama'lumotlarni olish uchun funksiyalar qo'shildi, bu sizga nafaqat matn ko'rinishini chiqish sifatida qabul qilish, balki alohida belgilar va jumlalarni audio oqimdagi pozitsiyaga bog'lanishini kuzatish imkonini beradi.
O'quv modullari uchun asboblar to'plamiga kutubxonadan foydalanishni qo'llab-quvvatlash qo'shildi CuDNN takroriy neyron tarmoqlari (RNN) bilan ishlashni optimallashtirish, bu modelni o'qitish samaradorligini sezilarli darajada (taxminan ikki baravar) oshirishga imkon berdi, lekin oldindan tayyorlangan modellar bilan muvofiqlikni buzgan kodga o'zgartirishlar kiritishni talab qildi.
TensorFlow versiyasiga minimal talablar 1.13.1 dan 1.14.0 ga ko'tarildi. DeepSpeech paketi hajmini 98 MB dan 3.7 MB gacha kamaytiradigan TensorFlow Lite ning engil nashri uchun qo'shimcha qo'llab-quvvatlash. O'rnatilgan va mobil qurilmalarda foydalanish uchun model bilan o'ralgan fayl hajmi ham 188 MB dan 47 MB gacha qisqartirildi (model o'qitilgandan keyin siqish uchun kvantlash usuli qo'llaniladi).
Til modeli boshqa ma'lumotlar strukturasi formatiga tarjima qilingan, bu fayllarni yuklanganda xotiraga joylashtirish imkonini beradi. Eski formatni qo'llab-quvvatlash to'xtatildi.
Til modeli bilan faylni yuklash rejimi o'zgartirildi, bu model yaratilgandan so'ng birinchi so'rovni qayta ishlashda xotira sarfini va kechikishlarni kamaytirdi. Ishlash vaqtida DeepSpeech endi xotirani 22 baravar kam sarflaydi va 500 marta tezroq ishga tushadi.
Til modelida nodir so'zlar filtrlangan. So'zlarning umumiy soni modelni o'rgatish uchun ishlatiladigan matnda topilgan eng mashhur so'zlarning 500 mingtasiga qisqartirildi. Tozalash til modeli hajmini 1800MB dan 900MB gacha kamaytirish imkonini berdi, bunda tanib olish xatosi tezligiga deyarli taʼsir qilmadi.
Turli xil qo'llab-quvvatlash qo'shildi texnik xodim treningda foydalaniladigan audio ma'lumotlarning qo'shimcha o'zgarishlarini (ko'paytirish) yaratish (masalan, variantlar to'plamiga buzilish yoki shovqin qo'shish).
.NET platformasi asosidagi ilovalar bilan integratsiyalashuvi uchun bog'langan kutubxona qo'shildi.
Hujjatlar qayta ishlangan va endi alohida veb-saytda to'plangan. deepspeech.readthedocs.io.

Manba: opennet.ru

Mozilla DeepSpeech 0.6 nutqni aniqlash mexanizmini taqdim etdi

a Izoh qo'shish Bu savolga javob bekor