🥇Mozilla DeepSpeech 0.6 nitqin tanınması mühərrikini təqdim edir

Tərəfindən təqdim edildi Mozilla tərəfindən hazırlanmış nitqin tanınması mühərrikinin buraxılışı DeepSpeech 0.6eyni adlı nitqin tanınması arxitekturasını həyata keçirən , təklif etdi Baidu tədqiqatçıları tərəfindən. Tətbiq TensorFlow maşın öyrənmə platformasından istifadə edərək Python-da yazılmışdır və yayılır pulsuz MPL 2.0 lisenziyası altında. İş dəstəklənir Linux, Android, macOS и WindowsPerformans, mühərriki LePotato, Raspberry Pi 3 və Raspberry Pi 4 lövhələrində istifadə etmək üçün kifayətdir.

Dəstə də daxildir təklif etdi təlim keçmiş modellər, nümunələr əmr satırından səs faylları və tanınma vasitələri. Nitqin tanınması funksiyasını proqramlarınıza inteqrasiya etmək üçün Python, NodeJS, C++ və .NET üçün istifadəyə hazır modullar təklif olunur (üçüncü tərəf tərtibatçıları bu proqramlar üçün ayrıca modullar hazırlamışlar. Pas и Go). Hazır model yalnız ingilis dili üçün, lakin digər dillər üçün verilir əlavə olunur təlimatlar istifadə edərək sistemi özünüz öyrədə bilərsiniz səs məlumatları, Ümumi Səs layihəsi tərəfindən toplanmışdır.

DeepSpeech ənənəvi sistemlərdən çox sadədir və eyni zamanda kənar səs-küyün mövcudluğunda yüksək keyfiyyətli tanınma təmin edir. O, səs-küy, əks-səda və nitq xüsusiyyətləri kimi müxtəlif anomaliyaları modelləşdirmək üçün ayrıca komponentlərin işlənib hazırlanması ehtiyacını aradan qaldıran yüksək optimallaşdırılmış neyron şəbəkəsi əsaslı maşın öyrənmə sistemindən istifadə etməklə ənənəvi akustik modelləri və fonemlər konsepsiyasını aşaraq keçir.

Bu yanaşmanın mənfi tərəfi ondan ibarətdir ki, neyron şəbəkənin yüksək keyfiyyətli tanınması və öyrədilməsi üçün DeepSpeech mühərriki real şəraitdə müxtəlif səslər və təbii səs-küyün mövcudluğu ilə diktə edilən çoxlu sayda heterojen məlumat tələb edir.
Mozilla-da yaradılmış layihə belə məlumatları toplayır. ümumi səs, 780 saatlıq təsdiqlənmiş məlumat dəstini təmin edir İngilis dili, alman dilində 325, fransız dilində 173 və rus dilində 27 saat.

Ümumi Səs layihəsinin son məqsədi insan nitqinin tipik ifadələrinin müxtəlif tələffüzlərinin 10 min saatlıq qeydlərini toplamaqdır ki, bu da tanınmada məqbul səviyyəyə çatmağa imkan verəcəkdir. Hazırkı formada layihə iştirakçıları artıq ümumilikdə 4.3 min saat diktə ediblər ki, bunun da 3.5 mini sınaqdan keçirilib. DeepSpeech üçün son ingilis dili modelini öyrədərkən, LibriSpeech, Fisher və Switchboard layihələrindən alınan məlumatları əhatə edən Ümumi Səsdən əlavə, 3816 saat nitqdən, həmçinin təxminən 1700 saat transkripsiya edilmiş radio şousu yazılarından istifadə edilmişdir.

Yükləmək üçün təklif olunan hazır ingilis dili modelindən istifadə edərkən DeepSpeech-də tanınma xətası dərəcəsi test dəsti ilə qiymətləndirildikdə 7.5% təşkil edir. LibriSpeech. Müqayisə üçün, insanın tanınması üçün səhv nisbəti qiymətləndirilir % 5.83-də.

DeepSpeech iki alt sistemdən ibarətdir - akustik model və dekoder. Akustik model giriş səsində müəyyən simvolların olma ehtimalını hesablamaq üçün dərin maşın öyrənmə metodlarından istifadə edir. Dekoder simvol ehtimalı məlumatlarını mətn təsvirinə çevirmək üçün şüa axtarış alqoritmindən istifadə edir.

Əsas yeniliklər DeepSpeech 0.6 (0.6 filialı əvvəlki buraxılışlarla uyğun gəlmir və kod və model yeniləmələrini tələb edir):

Daha yüksək həssaslığı təmin edən və işlənmiş audio məlumatların ölçüsündən asılı olmayan yeni axın dekoderi təklif edilir. Nəticədə, DeepSpeech-in yeni versiyası tanınma gecikməsini 260 ms-ə qədər azaltmağa müvəffəq oldu ki, bu da əvvəlkindən 73% daha sürətlidir və DeepSpeech-dən nitqin tanınması həllərində anında istifadə etməyə imkan verir.
API-də dəyişikliklər edilib və funksiya adlarının unifikasiyası istiqamətində iş aparılıb. Sinxronizasiya ilə bağlı əlavə metadata əldə etmək üçün funksiyalar əlavə edilmişdir ki, bu da yalnız mətn təqdimatını çıxış kimi qəbul etməyə deyil, həm də fərdi simvolların və cümlələrin audio axınındakı mövqeyə bağlanmasını izləməyə imkan verir.
Kitabxanadan istifadə üçün dəstək təlim modulları üçün alətlər dəstinə əlavə edilmişdir CuDNN təkrarlanan neyron şəbəkələri (RNN) ilə işi optimallaşdırmaq, bu, model təliminin performansında əhəmiyyətli (təxminən iki dəfə) artım əldə etməyə imkan verdi, lakin əvvəllər hazırlanmış modellərlə uyğunluğu pozan kod dəyişikliklərini tələb etdi.
Minimum TensorFlow versiyası tələbləri 1.13.1-dən 1.14.0-a qaldırıldı. DeepSpeech paketinin ölçüsünü 98 MB-dan 3.7 MB-a qədər azaldan TensorFlow Lite-in yüngül nəşri üçün əlavə dəstək. Quraşdırılmış və mobil cihazlarda istifadə üçün, model ilə paketlənmiş faylın ölçüsü də 188 MB-dan 47 MB-a endirildi (kvantlaşdırma üsulu model öyrədildikdən sonra sıxılma üçün istifadə olunur).
Dil modeli faylları yükləndikdə yaddaşa uyğunlaşdırmağa imkan verən fərqli məlumat strukturu formatına tərcümə edilmişdir. Köhnə formata dəstək dayandırılıb.
Dil modeli ilə faylın yüklənməsi rejimi dəyişdirilib ki, bu da yaddaş istehlakını və modeli yaratdıqdan sonra ilk sorğunun işlənməsi zamanı gecikmələri azaldıb. Əməliyyat zamanı DeepSpeech indi 22 dəfə az yaddaş sərf edir və 500 dəfə daha sürətli işə başlayır.
Dil modelində nadir sözlər süzülüb. Sözlərin ümumi sayı modeli öyrətmək üçün istifadə edilən mətndə tapılan ən populyar sözlərdən 500 minə endirildi. Təmizləmə dil modelinin ölçüsünü 1800MB-dan 900MB-a endirməyə imkan verdi, faktiki olaraq tanınma xətası dərəcəsinə heç bir təsir göstərmədi.
Müxtəlif dəstək əlavə edildi texnoloq təlimdə istifadə olunan audio məlumatların əlavə variasiyalarının yaradılması (artırılması) (məsələn, bir sıra seçimlərə təhrif və ya səs-küyün əlavə edilməsi).
.NET platformasına əsaslanan proqramlarla inteqrasiya üçün bağlamaları olan kitabxana əlavə edildi.
Sənədlər yenidən işlənib və indi ayrıca vebsaytda toplanıb. deepspeech.readthedocs.io.

Mənbə: opennet.ru

Mozilla DeepSpeech 0.6 nitqin tanınması mühərrikini təqdim etdi