Mozilla onthul DeepSpeech 0.6 spraakherkenningsenjin

Bekendgestel vrystelling van spraakherkenningsenjin wat deur Mozilla ontwikkel is DeepSpeech 0.6, wat die spraakherkenningsargitektuur met dieselfde naam implementeer, voorgestelde deur navorsers van Baidu. Die implementering is in Python geskryf met behulp van die TensorFlow-masjienleerplatform en versprei deur onder die gratis MPL 2.0-lisensie. Ondersteun werk op Linux, Android, macOS en Windows. Die werkverrigting is voldoende om die enjin op LePotato-, Raspberry Pi 3- en Raspberry Pi 4-borde te gebruik.

Ook by die stel ingesluit aangebied opgeleide modelle, voorbeelde klanklêers en herkenningsinstrumente vanaf die opdragreël. Om die spraakherkenningsfunksie in jou programme te integreer, word gereed-vir-gebruik-modules vir Python, NodeJS, C++ en .NET aangebied (derdeparty-ontwikkelaars het modules afsonderlik voorberei vir Rust и Go). Die voltooide model word slegs vir Engels verskaf, maar vir ander tale deur aangeheg instruksies jy kan die stelsel self oplei met behulp van stem data, ingesamel deur die Common Voice-projek.

DeepSpeech is baie eenvoudiger as tradisionele stelsels en bied terselfdertyd hoër kwaliteit herkenning in die teenwoordigheid van vreemde geraas. Dit omseil tradisionele akoestiese modelle en die konsep van foneme, en gebruik eerder 'n hoogs geoptimaliseerde neurale netwerk-gebaseerde masjienleerstelsel wat die behoefte uitskakel om afsonderlike komponente te ontwikkel om verskeie afwykings soos geraas, eggo en spraakkenmerke te modelleer.

Die nadeel van hierdie benadering is dat die DeepSpeech-enjin 'n groot hoeveelheid heterogene data benodig, wat in werklike toestande deur verskillende stemme en in die teenwoordigheid van natuurlike geraas gedikteer word om hoëgehalte-herkenning en opleiding van 'n neurale netwerk te verkry.
'n Projek wat in Mozilla geskep is, versamel sulke data. algemene stem, wat 'n geverifieerde datastel met 780 uur van Engelse taal, 325 in Duits, 173 in Frans en 27 uur in Russies.

Die uiteindelike doel van die Common Voice-projek is om 10 duisend ure se opnames van verskillende uitsprake van tipiese frases van menslike spraak op te bou, wat dit moontlik maak om 'n aanvaarbare vlak van foute in herkenning te bereik. In sy huidige vorm het die projekdeelnemers reeds 'n totaal van 4.3 duisend uur gedikteer, waarvan 3.5 duisend getoets is. By die opleiding van die finale Engelse taalmodel vir DeepSpeech, is 3816 uur se spraak gebruik, benewens Common Voice wat data van die LibriSpeech-, Fisher- en Skakelbord-projekte dek, en ook ongeveer 1700 uur se getranskribeerde radioprogram-opnames ingesluit.

Wanneer die klaargemaakte Engelse taalmodel wat vir aflaai aangebied word, gebruik word, is die herkenningsfoutkoers in DeepSpeech 7.5% wanneer dit met 'n toetsstel geassesseer word LibriSpeech. Ter vergelyking, die foutkoers vir menslike herkenning geskat teen 5.83%.

DeepSpeech bestaan ​​uit twee subsisteme - 'n akoestiese model en 'n dekodeerder. Die akoestiese model gebruik diep masjienleermetodes om die waarskynlikheid te bereken dat sekere karakters teenwoordig is in die insetklank. Die dekodeerder gebruik 'n straalsoekalgoritme om karakterwaarskynlikheidsdata in 'n teksvoorstelling om te skakel.

Die belangrikste innovasies DeepSpeech 0.6 (0.6-tak is nie versoenbaar met vorige vrystellings nie en vereis kode- en modelopdaterings):

  • ’n Nuwe stroomdekodeerder word voorgestel wat hoër responsiwiteit bied en onafhanklik is van die grootte van die verwerkte oudiodata. Gevolglik het die nuwe weergawe van DeepSpeech daarin geslaag om die latensie vir herkenning tot 260 ms te verminder, wat 73% vinniger is as voorheen, en laat DeepSpeech toe om in spraakherkenningsoplossings gebruik te word.
  • Veranderinge is aan die API aangebring en werk is gedoen om funksiename te verenig. Funksies is bygevoeg om bykomende metadata oor sinchronisasie te verkry, sodat jy nie net 'n teksvoorstelling as 'n uitvoer kan ontvang nie, maar ook om die binding van individuele karakters en sinne na 'n posisie in die oudiostroom na te spoor.
  • Ondersteuning vir die gebruik van die biblioteek is by die gereedskapstel vir opleidingsmodules gevoeg CuDNN om werk met herhalende neurale netwerke (RNN) te optimaliseer, wat dit moontlik gemaak het om 'n beduidende (ongeveer tweevoudige) toename in modelopleidingsprestasie te behaal, maar veranderinge aan die kode vereis het wat versoenbaarheid met voorheen voorbereide modelle geskend het.
  • Die minimum TensorFlow-weergawe-vereistes is verhoog van 1.13.1 na 1.14.0. Bygevoeg ondersteuning vir die liggewig-uitgawe van TensorFlow Lite, wat die grootte van die DeepSpeech-pakket van 98 MB tot 3.7 MB verminder. Vir gebruik op ingebedde en mobiele toestelle, is die grootte van die gepakte lêer met die model ook verminder van 188 MB tot 47 MB ​​(die kwantiseringsmetode word gebruik vir kompressie nadat die model opgelei is).
  • Die taalmodel is vertaal na 'n ander datastruktuurformaat wat toelaat dat lêers in die geheue gekarteer word wanneer dit gelaai word. Ondersteuning vir die ou formaat is gestaak.
  • Die modus van die laai van 'n lêer met 'n taalmodel is verander, wat geheueverbruik verminder het en vertragings verminder het wanneer die eerste versoek verwerk word nadat die model geskep is. Tydens werking verbruik DeepSpeech nou 22 keer minder geheue en begin 500 keer vinniger.

    Mozilla onthul DeepSpeech 0.6 spraakherkenningsenjin

  • Skaars woorde is in die taalmodel gefiltreer. Die totale aantal woorde is verminder tot 500 duisend van die gewildste woorde wat gevind is in die teks wat gebruik is om die model op te lei. Die skoonmaak het dit moontlik gemaak om die grootte van die taalmodel van 1800MB tot 900MB te verminder, met feitlik geen effek op die herkenningsfoutkoers nie.
  • Bygevoeg ondersteuning vir verskeie tegnikus skep bykomende variasies (vergroting) van die oudiodata wat in opleiding gebruik word (byvoorbeeld om vervorming of geraas by 'n stel opsies te voeg).
  • Bygevoeg 'n biblioteek met bindings vir integrasie met toepassings gebaseer op die .NET platform.
  • Die dokumentasie is herwerk en word nou op 'n aparte webwerf versamel. deepspeech.readthedocs.io.

Bron: opennet.ru

Voeg 'n opmerking