🥇Mozilla представя DeepSpeech 0.6 машина за разпознаване на реч

Изпратено от пускане на машината за разпознаване на реч, разработена от Mozilla DeepSpeech 0.6, който реализира едноименната архитектура за разпознаване на реч, предложено изследователи от Baidu. Реализацията е написана на Python с помощта на рамката за машинно обучение TensorFlow и разпространява се от под безплатния лиценз MPL 2.0. Работата се поддържа в Linux, Android, macOS и WindowsПроизводителността е достатъчна за използване на двигателя на платки LePotato, Raspberry Pi 3 и Raspberry Pi 4.

Комплектът също предлагани обучени модели, примери звукови файлове и инструменти за разпознаване от командния ред. За да вградите функцията за разпознаване на реч във вашите програми, се предлагат готови за използване модули за Python, NodeJS, C ++ и .NET (разработчиците на трети страни са подготвили модули за Ръжда и Go). Готовият модел се доставя само за английски, но и за други езици по заявка. приложен Directions можете сами да обучите системата, като използвате гласови даннисъбрани от проекта Common Voice.

DeepSpeech е много по-проста от традиционните системи и в същото време осигурява по-високо качество на разпознаване при наличие на външен шум. Разработката не използва традиционни акустични модели и концепцията за фонеми, вместо това използва добре оптимизирана система за машинно обучение, базирана на невронна мрежа, което елиминира необходимостта от разработване на отделни компоненти за моделиране на различни отклонения, като шум, ехо и речеви характеристики .

Недостатъкът на този подход е, че за да получи висококачествено разпознаване и обучение на невронната мрежа, машината DeepSpeech изисква голямо количество разнородни данни, диктувани в реални условия от различни гласове и в присъствието на естествен шум.
Събирането на такива данни се извършва от проект, създаден в Mozilla Общ глас, предоставяйки валидиран набор от данни със 780 часа работа английски, 325 по немски, 173 по френски и 27 часа по руски език.

Крайната цел на проекта Common Voice е да натрупа 10 4.3 часа записи на различни произношения на типични човешки речеви фрази, които ще постигнат приемливо ниво на грешки при разпознаване. В сегашния си вид участниците в проекта вече са издиктували общо 3.5 хиляди часа, от които 3816 хиляди са тествани. При обучението на крайния модел на английски език за DeepSpeech бяха използвани 1700 часа реч, в допълнение към Common Voice, покриващ данни от проектите LibriSpeech, Fisher и Switchboard, и също включващ около XNUMX часа транскрибирани записи на радиопредавания.

При използване на готовия модел на английски език, предложен за изтегляне, нивото на грешки при разпознаване в DeepSpeech е 7.5% при оценка от тестовия набор LibriSpeech. За сравнение, процентът грешки при разпознаването от хора се оценява при 5.83%.

DeepSpeech се състои от две подсистеми – акустичен модел и декодер. Акустичният модел използва дълбоки методи за машинно обучение, за да изчисли вероятността определени символи да присъстват във входния звук. Декодерът използва алгоритъм за търсене на лъч, за да преобразува данните за вероятността на символа в текстово представяне.

Основната иновации DeepSpeech 0.6 (разклонението 0.6 не е обратно съвместимо и изисква актуализиране на код и модели):

Предлага се нов стрийминг декодер, който осигурява по-висока отзивчивост и не зависи от размера на обработените аудио данни. В резултат на това новата версия на DeepSpeech успя да намали забавянето на разпознаването до 260 ms, което е 73% по-бързо от преди, и ви позволява да използвате DeepSpeech в решения за разпознаване на реч в движение.
Направени са промени в API и е извършена работа за уеднаквяване на имената на функциите. Добавени са функции за получаване на допълнителни метаданни за синхронизиране, което позволява не само да се получи текстово представяне като изход, но и да се проследи обвързването на отделни знаци и изречения към позиция в аудио потока.
Към инструментариума за модули за обучение е добавена поддръжка за използване на библиотеката CuDNN за оптимизиране на работата с повтарящи се невронни мрежи (RNN), което направи възможно постигането на значително (около два пъти) увеличение на производителността на обучението на модела, но изисква промени в кода, които нарушават съвместимостта с предварително подготвени модели.
Минималните изисквания за версията TensorFlow са повишени от 1.13.1 на 1.14.0. Добавена е поддръжка за олекотеното издание TensorFlow Lite, което намалява размера на пакета DeepSpeech от 98 MB на 3.7 MB. За използване на вградени и мобилни устройства размерът на пакетирания файл с модела също беше намален от 188 MB на 47 MB (методът на квантуване беше използван за компресиране, след като моделът беше обучен).
Езиковият модел е преведен в различен формат на структури от данни, който ви позволява да картографирате файлове в паметта при зареждане. Поддръжката на стария формат е преустановена.
Променен е режимът на зареждане на файл с езиков модел, което намали потреблението на памет и забавянето на обработката на първата заявка след създаването на модела. DeepSpeech сега консумира 22 пъти по-малко памет, докато работи, и се стартира 500 пъти по-бързо.
Редки думи бяха филтрирани в езиковия модел. Общият брой думи е намален до 500 1800 от най-популярните думи, намерени в текста, използван за обучение на модела. Почистването направи възможно намаляването на размера на езиковия модел от 900MB на XNUMXMB, без почти никакъв ефект върху нивото на грешки при разпознаване.
Добавена е поддръжка за различни техник създаване на допълнителни варианти (увеличаване) на звуковите данни, използвани в обучението (например добавяне към набора от опции, които включват изкривяване или шум).
Добавена е библиотека с обвързвания за интеграция с приложения, базирани на платформата .NET.
Преработена документация, която вече се събира на отделен сайт deepspeech.readthedocs.io.

Източник: opennet.ru

Mozilla разкрива DeepSpeech 0.6 машина за разпознаване на реч