Мозилла је представила мотор за препознавање говора ДеепСпеецх 0.6

Представио издање мотора за препознавање говора који је развила Мозилла ДеепСпеецх 0.6, који имплементира истоимену архитектуру препознавања говора, предложено истраживачи из Баидуа. Имплементација је написана у Питхон-у користећи ТенсорФлов платформу за машинско учење и дистрибуира под бесплатном лиценцом МПЛ 2.0. Подржава рад на Линук-у, Андроид-у, мацОС-у и Виндовс-у. Перформансе су довољне за коришћење мотора на ЛеПотато, Распберри Пи 3 и Распберри Пи 4 плочама.

Такође укључено у сет нуде се обучени модели, примери звучне датотеке и алати за препознавање из командне линије. Да бисте интегрисали функцију препознавања говора у ваше програме, нуде се модули спремни за употребу за Питхон, НодеЈС, Ц++ и .НЕТ (програмери треће стране имају посебно припремљене модуле за Рђа и Go). Готов модел се испоручује само за енглески, али и за друге језике од стране у прилогу инструкције можете сами да обучите систем користећи гласовни подаци, прикупљен у оквиру пројекта Цоммон Воице.

ДеепСпеецх је много једноставнији од традиционалних система и истовремено обезбеђује препознавање већег квалитета у присуству страног шума. Он заобилази традиционалне акустичке моделе и концепт фонема, уместо тога користи високо оптимизован систем машинског учења заснованог на неуронским мрежама који елиминише потребу за развојем засебних компоненти за моделирање различитих аномалија као што су шум, ехо и карактеристике говора.

Недостатак овог приступа је што је за добијање квалитетног препознавања и обуке неуронске мреже, ДеепСпеецх енгине-у потребна велика количина хетерогених података, диктираних у реалним условима различитим гласовима и у присуству природног шума.
Пројекат креиран у Мозили прикупља такве податке. Цоммон Воице, пружајући верификовани скуп података са 780 сати енглисх лангуаге, 325 на немачком, 173 на француском и 27 сати на руском.

Крајњи циљ пројекта Цоммон Воице је да се акумулира 10 хиљада сати снимака различитих изговора типичних фраза људског говора, што ће омогућити постизање прихватљивог нивоа грешака у препознавању. У садашњем облику, учесници пројекта су већ издиктирали укупно 4.3 хиљаде сати, од којих је тестирано 3.5 хиљада. Приликом обуке коначног модела енглеског језика за ДеепСпеецх, коришћено је 3816 сати говора, поред Цоммон Воице-а који покрива податке из пројеката ЛибриСпеецх, Фисхер и Свитцхбоард, а такође укључује око 1700 сати транскрибованих снимака радио емисија.

Када користите готов модел на енглеском језику који се нуди за преузимање, стопа грешке у препознавању у ДеепСпеецх-у је 7.5% када се процењује помоћу скупа тестова ЛибриСпеецх. Поређења ради, стопа грешке за људско препознавање процењено у 5.83%.

ДеепСпеецх се састоји од два подсистема – акустичког модела и декодера. Акустични модел користи методе дубоког машинског учења да би израчунао вероватноћу да ће одређени карактери бити присутни у улазном звуку. Декодер користи алгоритам за претрагу зрака да конвертује податке о вероватноћи карактера у текстуални приказ.

Главни иновације ДеепСпеецх 0.6 (0.6 грана није компатибилна са претходним издањима и захтева ажурирање кода и модела):

  • Предложен је нови декодер за стриминг који обезбеђује већи одзив и независан је од величине обрађених аудио података. Као резултат, нова верзија ДеепСпеецх-а је успела да смањи кашњење за препознавање на 260 мс, што је 73% брже него раније, и омогућава да се ДеепСпеецх користи у решењима за препознавање говора у ходу.
  • Урађене су промене у АПИ-ју и урађено је на обједињавању имена функција. Додате су функције за добијање додатних метаподатака о синхронизацији, што вам омогућава не само да добијете текстуални приказ као излаз, већ и да пратите везивање појединачних знакова и реченица за позицију у аудио стриму.
  • Подршка за коришћење библиотеке је додата у комплет алата за модуле обуке ЦуДНН да се оптимизује рад са рекурентним неуронским мрежама (РНН), што је омогућило постизање значајног (отприлике двоструко) повећања перформанси обуке модела, али је захтевало измене кода које су нарушиле компатибилност са претходно припремљеним моделима.
  • Минимални захтеви за верзију ТенсорФлов-а су повећани са 1.13.1 на 1.14.0. Додата подршка за лагано издање ТенсорФлов Лите, што смањује величину ДеепСпеецх пакета са 98 МБ на 3.7 МБ. За употребу на уграђеним и мобилним уређајима, величина упаковане датотеке са моделом је такође смањена са 188 МБ на 47 МБ (метода квантизације се користи за компресију након што је модел обучен).
  • Језички модел је преведен у другачији формат структуре података који омогућава мапирање датотека у меморију када се учитају. Подршка за стари формат је укинута.
  • Промењен је начин учитавања датотеке са језичким моделом, чиме је смањена потрошња меморије и смањена кашњења при обради првог захтева након креирања модела. Током рада, ДеепСпеецх сада троши 22 пута мање меморије и покреће се 500 пута брже.

    Мозилла је представила мотор за препознавање говора ДеепСпеецх 0.6

  • Ретке речи су филтриране у језичком моделу. Укупан број речи смањен је на 500 хиљада најпопуларнијих речи које се налазе у тексту који се користи за обуку модела. Чишћење је омогућило смањење величине језичког модела са 1800МБ на 900МБ, практично без утицаја на стопу грешке у препознавању.
  • Додата подршка за разне техничар стварање додатних варијација (повећавање) аудио података који се користе у обуци (на пример, додавање изобличења или шума скупу опција).
  • Додата библиотека са везама за интеграцију са апликацијама базираним на .НЕТ платформи.
  • Документација је прерађена и сада је прикупљена на посебном сајту. деепспеецх.реадтхедоцс.ио.

Извор: опеннет.ру

Додај коментар