Mozilla introducerade taligenkänningsmotorn DeepSpeech 0.6

Introducerad släpp av taligenkänningsmotor utvecklad av Mozilla DeepSpeech 0.6, som implementerar taligenkänningsarkitekturen med samma namn, föreslagen av forskare från Baidu. Implementeringen är skriven i Python med hjälp av TensorFlows maskininlärningsplattform och levererad av under den kostnadsfria MPL 2.0-licensen. Stöder arbete på Linux, Android, macOS och Windows. Prestandan är tillräcklig för att använda motorn på LePotato, Raspberry Pi 3 och Raspberry Pi 4-brädor.

Ingår också i setet erbjuds utbildade modeller, exempel ljudfiler och igenkänningsverktyg från kommandoraden. För att integrera taligenkänningsfunktionen i dina program erbjuds färdiga att använda moduler för Python, NodeJS, C++ och .NET (utvecklare från tredje part har separat förberett moduler för Rust и Go). Den färdiga modellen levereras endast för engelska, men för andra språk av bifogad Avstånd du kan träna systemet själv med hjälp av röstdata, insamlat av Common Voice-projektet.

DeepSpeech är mycket enklare än traditionella system och ger samtidigt högre kvalitetsigenkänning i närvaro av främmande brus. Den kringgår traditionella akustiska modeller och konceptet med fonem, istället för att använda ett mycket optimerat neuralt nätverksbaserat maskininlärningssystem som eliminerar behovet av att utveckla separata komponenter för att modellera olika anomalier som brus, eko och talfunktioner.

Nackdelen med detta tillvägagångssätt är att för att erhålla högkvalitativ igenkänning och träning av ett neuralt nätverk, kräver DeepSpeech-motorn en stor mängd heterogen data, dikterad under verkliga förhållanden av olika röster och i närvaro av naturligt brus.
Ett projekt skapat i Mozilla samlar in sådan data. Vanlig röst, vilket ger en verifierad datauppsättning med 780 timmars engelska, 325 på tyska, 173 på franska och 27 timmar på ryska.

Det slutliga målet med Common Voice-projektet är att samla 10 tusen timmars inspelningar av olika uttal av typiska fraser av mänskligt tal, vilket gör det möjligt att uppnå en acceptabel nivå av fel i igenkänningen. I sin nuvarande form har projektdeltagarna redan dikterat totalt 4.3 tusen timmar, varav 3.5 tusen har testats. När man tränade den slutliga engelska språkmodellen för DeepSpeech användes 3816 timmars tal, förutom Common Voice som täckte data från LibriSpeech, Fisher och Switchboard-projekten, och även inkluderade cirka 1700 timmars transkriberade radioprograminspelningar.

När du använder den färdiga engelska språkmodellen som erbjuds för nedladdning, är identifieringsfelfrekvensen i DeepSpeech 7.5 % när den utvärderas med en testuppsättning LibriSpeech. Som jämförelse, felfrekvensen för mänsklig igenkänning utvärderas på 5.83 %.

DeepSpeech består av två delsystem - en akustisk modell och en dekoder. Den akustiska modellen använder djupa maskininlärningsmetoder för att beräkna sannolikheten för att vissa tecken finns i ingångsljudet. Avkodaren använder en strålsökningsalgoritm för att konvertera teckensannolikhetsdata till en textrepresentation.

Den huvudsakliga innovationer DeepSpeech 0.6 (0.6 branch är inte kompatibel med tidigare utgåvor och kräver kod- och modelluppdateringar):

  • En ny strömningsavkodare föreslås som ger högre respons och är oberoende av storleken på den bearbetade ljuddatan. Som ett resultat lyckades den nya versionen av DeepSpeech minska latensen för igenkänning till 260 ms, vilket är 73 % snabbare än tidigare, och gör att DeepSpeech kan användas i taligenkänningslösningar i farten.
  • Ändringar har gjorts i API:t och arbete har gjorts för att förena funktionsnamn. Funktioner har lagts till för att erhålla ytterligare metadata om synkronisering, vilket gör att du inte bara kan ta emot en textrepresentation som utdata, utan också att spåra bindningen av enskilda tecken och meningar till en position i ljudströmmen.
  • Stöd för att använda biblioteket har lagts till i verktygslådan för utbildningsmoduler CuDNN att optimera arbetet med återkommande neurala nätverk (RNN), vilket gjorde det möjligt att uppnå en betydande (ungefär fördubblad) ökning av modellträningsprestanda, men krävde ändringar i koden som kränkte kompatibiliteten med tidigare förberedda modeller.
  • Minimikraven för TensorFlow-versionen har höjts från 1.13.1 till 1.14.0. Lade till stöd för den lätta utgåvan av TensorFlow Lite, som minskar storleken på DeepSpeech-paketet från 98 MB till 3.7 MB. För användning på inbäddade och mobila enheter har storleken på den packade filen med modellen också reducerats från 188 MB till 47 MB ​​(kvantiseringsmetoden används för komprimering efter att modellen har tränats).
  • Språkmodellen har översatts till ett annat datastrukturformat som gör att filer kan mappas till minnet när de laddas. Stödet för det gamla formatet har upphört.
  • Läget för att ladda en fil med en språkmodell har ändrats, vilket har minskat minnesförbrukningen och minskat förseningar vid bearbetning av den första begäran efter att modellen skapats. Under drift förbrukar DeepSpeech nu 22 gånger mindre minne och startar 500 gånger snabbare.

    Mozilla introducerade taligenkänningsmotorn DeepSpeech 0.6

  • Sällsynta ord filtrerades i språkmodellen. Det totala antalet ord reducerades till 500 tusen av de mest populära orden som finns i texten som används för att träna modellen. Rengöringen gjorde det möjligt att minska storleken på språkmodellen från 1800MB till 900MB, med praktiskt taget ingen effekt på igenkänningsfelfrekvensen.
  • Lagt till stöd för olika teknikern skapa ytterligare variationer (augmentation) av ljuddata som används i träningen (till exempel lägga till distorsion eller brus till en uppsättning alternativ).
  • Lade till ett bibliotek med bindningar för integration med applikationer baserade på .NET-plattformen.
  • Dokumentationen har omarbetats och finns nu samlad på en separat webbplats. deepspeech.readthedocs.io.

Källa: opennet.ru

Lägg en kommentar