Mozilla onthult de spraakherkenningsengine DeepSpeech 0.6

Geïntroduceerd release van de door Mozilla ontwikkelde spraakherkenningsengine DeepSpeech 0.6, dat de gelijknamige spraakherkenningsarchitectuur implementeert, voorgesteld onderzoekers van Baidu. De implementatie is geschreven in Python met behulp van het TensorFlow machine learning framework en gedistribueerd door onder de gratis licentie MPL 2.0. Ondersteunt Linux, Android, macOS en Windows. De prestaties zijn voldoende om de engine op LePotato-, Raspberry Pi 3- en Raspberry Pi 4-kaarten te gebruiken.

Het setje ook aangeboden getrainde modellen, voorbeelden geluidsbestanden en hulpmiddelen voor herkenning vanaf de opdrachtregel. Om de spraakherkenningsfunctie in uw programma's in te bedden, worden kant-en-klare modules voor Python, NodeJS, C ++ en .NET aangeboden (externe ontwikkelaars hebben modules voorbereid voor Roest и Go). Het afgewerkte model wordt alleen voor het Engels geleverd, maar voor andere talen op aanvraag. bijgevoegd instructies u kunt het systeem zelf trainen met behulp van spraakgegevensverzameld door het Common Voice-project.

DeepSpeech is veel eenvoudiger dan traditionele systemen en biedt tegelijkertijd een hogere herkenningskwaliteit in de aanwezigheid van externe ruis. De ontwikkeling maakt geen gebruik van traditionele akoestische modellen en het concept van fonemen, maar maakt gebruik van een goed geoptimaliseerd machine learning-systeem op basis van een neuraal netwerk, waardoor het niet nodig is om afzonderlijke componenten te ontwikkelen voor het modelleren van verschillende afwijkingen, zoals ruis, echo en spraakkenmerken .

De keerzijde van deze aanpak is dat de DeepSpeech-engine een grote hoeveelheid heterogene gegevens vereist die in reële omstandigheden worden gedicteerd door verschillende stemmen en in de aanwezigheid van natuurlijke ruis, om hoogwaardige herkenning en training van het neurale netwerk te verkrijgen.
Het verzamelen van dergelijke gegevens wordt uitgevoerd door een project dat is gemaakt in Mozilla Gemeenschappelijke stem, wat een gevalideerde dataset oplevert met 780 uur aan Engelse taal, 325 in het Duits, 173 in het Frans en 27 uur in het Russisch.

Het uiteindelijke doel van het Common Voice-project is om 10 uur aan opnames van verschillende uitspraken van typisch menselijke spraakuitdrukkingen te verzamelen, waardoor een acceptabel niveau van herkenningsfouten wordt bereikt. In de huidige vorm hebben de projectdeelnemers in totaal al 4.3 duizend uren gedicteerd, waarvan er 3.5 duizend zijn getest. Bij het trainen van het uiteindelijke model van de Engelse taal voor DeepSpeech werd 3816 uur aan spraak gebruikt, naast Common Voice voor gegevens van de LibriSpeech-, Fisher- en Switchboard-projecten, en inclusief ongeveer 1700 uur getranscribeerde opnames van radioprogramma's.

Bij gebruik van het kant-en-klare Engelse taalmodel dat als download wordt aangeboden, is het herkenningsfoutenpercentage in DeepSpeech 7.5% bij beoordeling door de testset LibriSpraak. Ter vergelijking: het foutenpercentage bij menselijke herkenning geschatte op 5.83%.

DeepSpeech bestaat uit twee subsystemen: een akoestisch model en een decoder. Het akoestische model maakt gebruik van deep machine learning-methoden om de waarschijnlijkheid te berekenen dat bepaalde symbolen aanwezig zijn in het invoergeluid. De decoder gebruikt een bundelzoekalgoritme om de symboolwaarschijnlijkheidsgegevens om te zetten in een tekstuele weergave.

De belangrijkste innovaties DeepSpeech 0.6 (tak 0.6 is niet achterwaarts compatibel en vereist dat code en modellen worden bijgewerkt):

  • Er wordt een nieuwe streamingdecoder voorgesteld die sneller reageert en niet afhankelijk is van de grootte van de verwerkte audiogegevens. Als gevolg hiervan kon de nieuwe versie van DeepSpeech de herkenningsvertraging terugbrengen tot 260 ms, wat 73% sneller is dan voorheen, en stelt u in staat om DeepSpeech te gebruiken in on-the-fly spraakherkenningsoplossingen.
  • Er zijn wijzigingen aangebracht in de API en er is gewerkt aan het verenigen van functienamen. Er zijn functies toegevoegd om aanvullende metadata over synchronisatie te verkrijgen, waardoor niet alleen een tekstrepresentatie als uitvoer kan worden ontvangen, maar ook de binding van individuele tekens en zinnen aan een positie in de audiostream kan worden gevolgd.
  • Ondersteuning voor het gebruik van de bibliotheek is toegevoegd aan de toolkit voor leermodules CuDNN om het werk met terugkerende neurale netwerken (RNN) te optimaliseren, wat het mogelijk maakte om een ​​aanzienlijke (ongeveer twee keer) toename van de modeltrainingsprestaties te bereiken, maar vereiste wijzigingen in de code die de compatibiliteit met eerder voorbereide modellen schond.
  • De minimumeisen voor de TensorFlow-versie zijn verhoogd van 1.13.1 naar 1.14.0. Ondersteuning toegevoegd voor de lichtgewicht TensorFlow Lite-editie, die de DeepSpeech-pakketgrootte verkleinde van 98 MB naar 3.7 MB. Voor gebruik op ingebedde en mobiele apparaten werd ook de grootte van het ingepakte bestand met het model verkleind van 188 MB naar 47 MB ​​​​(de kwantiseringsmethode werd gebruikt voor compressie nadat het model was getraind).
  • Het taalmodel is vertaald naar een ander formaat van gegevensstructuren waarmee u bestanden tijdens het laden in het geheugen kunt toewijzen. Ondersteuning voor het oude formaat is stopgezet.
  • De modus voor het laden van een bestand met een taalmodel is gewijzigd, waardoor het geheugenverbruik is verminderd en er minder vertraging is opgetreden bij het verwerken van de eerste aanvraag nadat het model is gemaakt. DeepSpeech verbruikt nu 22x minder geheugen tijdens het draaien en start 500x sneller op.

    Mozilla onthult de spraakherkenningsengine DeepSpeech 0.6

  • Zeldzame woorden werden gefilterd in het taalmodel. Het totale aantal woorden is teruggebracht tot 500 van de meest populaire woorden in de tekst die is gebruikt om het model te trainen. De opschoning maakte het mogelijk om de grootte van het taalmodel te verkleinen van 1800 MB naar 900 MB, met bijna geen effect op het niveau van herkenningsfouten.
  • Ondersteuning toegevoegd voor verschillende technicus het creëren van aanvullende variaties (augmentatie) van de geluidsgegevens die bij training worden gebruikt (bijvoorbeeld toevoegen aan de reeks opties die vervorming of ruis bevatten).
  • Een bibliotheek met bindingen toegevoegd voor integratie met applicaties op basis van het .NET-platform.
  • Opnieuw ontworpen documentatie, die nu op een aparte site wordt verzameld deepspeech.readthedocs.io.

Bron: opennet.ru

Voeg een reactie