Mozilla introducerede talegenkendelsesmotoren DeepSpeech 0.6

Introduceret frigivelse af talegenkendelsesmotor udviklet af Mozilla DeepSpeech 0.6, som implementerer talegenkendelsesarkitekturen af ​​samme navn, foreslog af forskere fra Baidu. Implementeringen er skrevet i Python ved hjælp af TensorFlow machine learning platform og distribueret af under den gratis MPL 2.0-licens. Understøtter arbejde på Linux, Android, macOS og Windows. Ydeevnen er tilstrækkelig til at bruge motoren på LePotato, Raspberry Pi 3 og Raspberry Pi 4 boards.

Medfølger også i sættet tilbydes trænede modeller, eksempler lydfiler og genkendelsesværktøjer fra kommandolinjen. For at integrere talegenkendelsesfunktionen i dine programmer tilbydes klar-til-brug moduler til Python, NodeJS, C++ og .NET (tredjepartsudviklere har separat forberedt moduler til Rust и Go). Den færdige model leveres kun til engelsk, men til andre sprog af vedhæftet Kørselsvejledning du kan selv træne systemet vha stemmedata, indsamlet af Common Voice-projektet.

DeepSpeech er meget enklere end traditionelle systemer og giver samtidig højere kvalitetsgenkendelse ved tilstedeværelse af uvedkommende støj. Det omgår traditionelle akustiske modeller og begrebet fonemer, i stedet for at bruge et stærkt optimeret neuralt netværksbaseret maskinlæringssystem, der eliminerer behovet for at udvikle separate komponenter til at modellere forskellige anomalier såsom støj, ekko og talefunktioner.

Ulempen ved denne tilgang er, at for at opnå højkvalitetsgenkendelse og træning af et neuralt netværk, kræver DeepSpeech-motoren en stor mængde heterogene data, dikteret under virkelige forhold af forskellige stemmer og i nærvær af naturlig støj.
Et projekt oprettet i Mozilla indsamler sådanne data. Fælles stemme, der giver et verificeret datasæt med 780 timers engelsk, 325 på tysk, 173 på fransk og 27 timer på russisk.

Det ultimative mål med Common Voice-projektet er at akkumulere 10 tusind timers optagelser af forskellige udtaler af typiske sætninger af menneskelig tale, hvilket vil gøre det muligt at opnå et acceptabelt niveau af fejl i genkendelsen. I sin nuværende form har projektdeltagerne allerede dikteret i alt 4.3 tusinde timer, hvoraf 3.5 tusinde er blevet testet. Når man trænede den endelige engelsksprogede model for DeepSpeech, blev der brugt 3816 timers tale, udover Common Voice, der dækkede data fra LibriSpeech, Fisher og Switchboard-projekterne, og også inkluderet omkring 1700 timers transskriberede radioshowoptagelser.

Ved brug af den færdiglavede engelsksprogede model, der tilbydes til download, er genkendelsesfejlprocenten i DeepSpeech 7.5 %, når den vurderes med et testsæt LibriSpeech. Til sammenligning, fejlprocenten for menneskelig genkendelse er vurderet på 5.83%.

DeepSpeech består af to undersystemer - en akustisk model og en dekoder. Den akustiske model bruger dybe maskinlæringsmetoder til at beregne sandsynligheden for, at visse tegn er til stede i inputlyden. Dekoderen bruger en strålesøgningsalgoritme til at konvertere tegnsandsynlighedsdata til en tekstrepræsentation.

The main innovationer DeepSpeech 0.6 (0.6 branch er ikke kompatibel med tidligere udgivelser og kræver kode- og modelopdateringer):

  • Der foreslås en ny streaming-dekoder, der giver højere reaktionsevne og er uafhængig af størrelsen af ​​de behandlede lyddata. Som følge heraf lykkedes det for den nye version af DeepSpeech at reducere latensen for genkendelse til 260 ms, hvilket er 73 % hurtigere end før, og gør det muligt for DeepSpeech at blive brugt i talegenkendelsesløsninger på farten.
  • Der er foretaget ændringer i API'et, og der er arbejdet på at ensrette funktionsnavne. Funktioner er blevet tilføjet for at få yderligere metadata om synkronisering, så du ikke kun kan modtage en tekstrepræsentation som output, men også at spore bindingen af ​​individuelle tegn og sætninger til en position i lydstrømmen.
  • Understøttelse af brug af biblioteket er blevet tilføjet til værktøjskassen til træningsmoduler CuDNN at optimere arbejdet med recurrent neurale netværk (RNN), hvilket gjorde det muligt at opnå en betydelig (ca. to gange) stigning i modeltræningsydelsen, men krævede ændringer i koden, der krænkede kompatibiliteten med tidligere forberedte modeller.
  • Minimumskravene til TensorFlow-versionen er blevet hævet fra 1.13.1 til 1.14.0. Tilføjet understøttelse af den lette udgave af TensorFlow Lite, som reducerer størrelsen af ​​DeepSpeech-pakken fra 98 MB til 3.7 MB. Til brug på indlejrede og mobile enheder er størrelsen af ​​den pakkede fil med modellen også blevet reduceret fra 188 MB til 47 MB ​​(kvantiseringsmetoden bruges til komprimering, efter at modellen er trænet).
  • Sprogmodellen er blevet oversat til et andet datastrukturformat, der gør det muligt at kortlægge filer i hukommelsen, når de indlæses. Support til det gamle format er udgået.
  • Indlæsningstilstanden for en fil med en sprogmodel er blevet ændret, hvilket har reduceret hukommelsesforbrug og reduceret forsinkelser ved behandling af den første anmodning efter oprettelse af modellen. Under drift bruger DeepSpeech nu 22 gange mindre hukommelse og starter 500 gange hurtigere.

    Mozilla introducerede talegenkendelsesmotoren DeepSpeech 0.6

  • Sjældne ord blev filtreret i sprogmodellen. Det samlede antal ord blev reduceret til 500 tusind af de mest populære ord, der findes i teksten, der blev brugt til at træne modellen. Rensningen gjorde det muligt at reducere størrelsen af ​​sprogmodellen fra 1800MB til 900MB, stort set uden indflydelse på genkendelsesfejlprocenten.
  • Tilføjet support til diverse tekniker skabe yderligere variationer (augmentation) af de lyddata, der bruges i træningen (f.eks. tilføje forvrængning eller støj til et sæt muligheder).
  • Tilføjet et bibliotek med bindinger til integration med applikationer baseret på .NET platformen.
  • Dokumentationen er blevet omarbejdet og er nu samlet på en separat hjemmeside. deepspeech.readthedocs.io.

Kilde: opennet.ru

Tilføj en kommentar