Mozilla муҳаррики шинохти нутқ DeepSpeech 0.6 -ро муаррифӣ кард

муаррифӣ карда шуд баровардани муҳаррики шинохтани нутқ, ки аз ҷониби Mozilla таҳия шудааст DeepSpeech 0.6, ки меъмории шинохти нутқи ҳамон номро амалӣ мекунад, пешниҳод кардааст аз ҷониби муҳаққиқони Байду. Татбиқ дар Python бо истифода аз платформаи омӯзиши мошини TensorFlow навишта шудааст ва паҳн мекунад таҳти иҷозатномаи MPL 2.0 ройгон. Корҳоро дар Linux, Android, macOS ва Windows дастгирӣ мекунад. Иҷрои кор барои истифодаи муҳаррик дар тахтаҳои LePotato, Raspberry Pi 3 ва Raspberry Pi 4 кифоя аст.

Инчунин ба маҷмӯа дохил карда шудааст пешниҳод намуд моделҳои омӯзонидашуда, мисолҳо файлҳои садо ва асбобҳои шинохтан аз сатри фармон. Барои ҳамгироӣ кардани функсияи шинохти нутқ ба барномаҳои шумо, модулҳои барои истифода омода барои Python, NodeJS, C++ ва .NET пешниҳод карда мешаванд (таҳиягарони тарафи сеюм модулҳоро барои зангин и Go). Модели тайёр танҳо барои забони англисӣ, аммо барои забонҳои дигар аз ҷониби замима карда шудааст дастурҳо шумо метавонед системаро худатон истифода баред маълумоти овозӣ, аз ҷониби лоиҳаи Common Voice ҷамъоварӣ шудааст.

DeepSpeech нисбат ба системаҳои анъанавӣ хеле соддатар аст ва ҳамзамон дар ҳузури садои беруна эътирофи сифати баландтарро таъмин мекунад. Он моделҳои анъанавии акустикӣ ва консепсияи фонемаҳоро сарфи назар мекунад, ба ҷои он, ки системаи омӯзиши мошинсозии ба шабакаи нейронӣ асосёфтаи хеле оптимизатсияшуда, ки зарурати таҳияи ҷузъҳои ҷудогонаро барои моделсозии аномалияҳои гуногун, аз қабили садо, садо ва хусусиятҳои нутқ аз байн мебарад.

Камбуди ин равиш дар он аст, ки барои ба даст овардани шинохти босифат ва омӯзиши шабакаи нейронӣ, муҳаррики DeepSpeech миқдори зиёди маълумоти гетерогениро талаб мекунад, ки дар шароити воқеӣ бо овозҳои гуногун ва дар ҳузури садои табиӣ дикта карда мешаванд.
Лоиҳае, ки дар Mozilla сохта шудааст, чунин маълумотро ҷамъ меорад. Овози умумӣ, таъмин намудани маҷмӯи маълумоти тасдиқшуда бо 780 соат Англисӣ, 325 ба забони немисй, 173 ба забони французй ва 27 соат ба забони руей.

Ҳадафи ниҳоии лоиҳаи Common Voice ҷамъ овардани 10 ҳазор соат сабти талаффузҳои гуногуни ибораҳои маъмулии нутқи инсонӣ мебошад, ки имкон медиҳад сатҳи қобили қабули хатогиҳоро дар шинохт ба даст орем. Дар шакли ҳозирааш, иштирокчиёни лоиҳа аллакай ҳамагӣ 4.3 ҳазор соат дикта кардаанд, ки аз он 3.5 ҳазор соат санҷида шудаанд. Ҳангоми омӯзиши модели ниҳоии забони англисӣ барои DeepSpeech, ба ғайр аз Common Voice, ки маълумотро аз лоиҳаҳои LibriSpeech, Fisher ва Switchboard фаро мегирад, инчунин тақрибан 3816 соат сабтҳои радиоии транскриптшуда истифода мешуданд.

Ҳангоми истифодаи модели омодаи забони англисӣ, ки барои зеркашӣ пешниҳод шудааст, сатҳи хатогиҳои эътироф дар DeepSpeech ҳангоми баҳогузорӣ бо маҷмӯи санҷиш 7.5% -ро ташкил медиҳад. LibriSpeech. Барои муқоиса, сатҳи хатогиҳо барои шинохти инсон арзёбӣ карда мешавад 5.83%.

DeepSpeech аз ду зерсистема иборат аст - модели акустикӣ ва декодер. Модели акустикӣ усулҳои омӯзиши амиқи мошинро барои ҳисоб кардани эҳтимолияти мавҷудияти аломатҳои муайян дар садои вуруд истифода мебарад. Декодер алгоритми ҷустуҷӯи рентгениро барои табдил додани маълумоти эҳтимолияти аломатҳо ба тасвири матн истифода мебарад.

асосӣ навовариҳо DeepSpeech 0.6 (филиали 0.6 бо версияҳои қаблӣ мувофиқ нест ва код ва навсозии моделро талаб мекунад):

  • Декодери нави ҷараён пешниҳод карда мешавад, ки вокуниши баландтарро таъмин мекунад ва аз андозаи додаҳои аудиоии коркардшуда новобаста аст. Дар натиҷа, версияи нави DeepSpeech тавонист таъхири шинохтро то 260 мс кам кунад, ки ин нисбат ба пештара 73% тезтар аст ва имкон медиҳад, ки DeepSpeech дар ҳалли шинохти нутқ дар парвоз истифода шавад.
  • Тағирот ба API ворид карда шуд ва кор барои муттаҳид кардани номҳои функсия анҷом дода шуд. Функсияҳо барои ба даст овардани метамаълумоти иловагӣ дар бораи синхронизатсия илова карда шудаанд, ки ба шумо имкон медиҳанд, ки на танҳо тасвири матнро ҳамчун натиҷа қабул кунед, балки инчунин пайгирии пайвастшавии аломатҳо ва ҷумлаҳои инфиродӣ ба мавқеъ дар ҷараёни аудио.
  • Дастгирии истифодаи китобхона ба маҷмӯаи модулҳои таълимӣ илова карда шудааст CuDNN оптимизатсияи кор бо шабакаҳои нейронҳои такрорӣ (RNN), ки имкон дод, ки афзоиши назаррас (тақрибан ду баробар) дар кори таълими модел ба даст ояд, аммо тағиротро ба код, ки мутобиқатро бо моделҳои қаблан омодашуда вайрон мекард, талаб мекард.
  • Талаботи ҳадди ақали версияи TensorFlow аз 1.13.1 то 1.14.0 боло бурда шуд. Дастгирии иловашуда барои нашри сабуки TensorFlow Lite, ки андозаи бастаи DeepSpeech-ро аз 98 МБ то 3.7 МБ коҳиш медиҳад. Барои истифода дар дастгоҳҳои дарунсохт ва мобилӣ, андозаи файли бастабандишуда бо модел низ аз 188 МБ ба 47 МБ кам карда шуд (усули квантизатсия пас аз омӯзиши модел барои фишурдасозӣ истифода мешавад).
  • Модели забон ба формати дигари сохтори додаҳо тарҷума шудааст, ки имкон медиҳад файлҳо ҳангоми боркунӣ ба хотира харита карда шаванд. Дастгирии формати кӯҳна қатъ карда шуд.
  • Усули боркунии файл бо модели забонӣ тағйир дода шуд, ки истеъмоли хотираро коҳиш дод ва таъхирҳоро ҳангоми коркарди дархости аввал пас аз сохтани модел коҳиш дод. Ҳангоми кор, DeepSpeech ҳоло хотираро 22 маротиба камтар истеъмол мекунад ва 500 маротиба тезтар оғоз меёбад.

    Mozilla муҳаррики шинохти нутқ DeepSpeech 0.6 -ро муаррифӣ кард

  • Калимаҳои нодир дар модели забон филтр карда шуданд. Шумораи умумии калимаҳо ба 500 ҳазор калимаҳои маъмултарине, ки дар матн барои омӯзиши модел истифода мешаванд, кам карда шуд. Тозакунӣ имкон дод, ки андозаи модели забонро аз 1800 МБ то 900 МБ кам карда, ба сатҳи хатогиҳои шинохтан амалан таъсир нарасонад.
  • Дастгирии иловагӣ барои гуногун техник эҷоди вариантҳои иловагии (афзоиши) маълумоти аудиоие, ки дар омӯзиш истифода мешаванд (масалан, илова кардани таҳриф ё садо ба маҷмӯи интихобҳо).
  • Китобхона бо пайвандҳо барои ҳамгироӣ бо барномаҳо дар платформаи .NET илова карда шуд.
  • Ҳуҷҷатҳо аз нав кор карда шуданд ва ҳоло дар вебсайти алоҳида ҷамъоварӣ карда мешаванд. deepspeech.readthedocs.io.

Манбаъ: opennet.ru

Илова Эзоҳ