Mozilla huet de Sproocherkennungsmotor DeepSpeech 0.6 agefouert

Agefouert Verëffentlechung vu Riederkennungsmotor entwéckelt vu Mozilla DeepSpeech 0.6, déi d'Riederkennungsarchitektur mam selwechten Numm implementéiert, proposéiert vu Fuerscher vu Baidu. D'Implementatioun ass am Python geschriwwen mat der TensorFlow Maschinnléierplattform an verdeelt duerch ënner der fräier MPL 2.0 Lizenz. Ënnerstëtzt Aarbecht op Linux, Android, macOS a Windows. D'Performance ass genuch fir de Motor op LePotato, Raspberry Pi 3 a Raspberry Pi 4 Boards ze benotzen.

Och am Set abegraff offréiert ausgebilte Modeller, Beispiller Toundateien an Unerkennungsinstrumenter vun der Kommandozeil. Fir d'Riederkennungsfunktioun an Äre Programmer z'integréieren, gi prett-ze-benotzen Moduler fir Python, NodeJS, C++ an .NET ugebueden (Drëtt-Partei Entwéckler hunn separat Moduler virbereet fir Rust и Go). De fäerdege Modell gëtt nëmme fir Englesch geliwwert, awer fir aner Sproochen befestegt Instruktiounen Dir kënnt de System selwer trainéieren benotzt Stëmm Daten, gesammelt vum Common Voice Projet.

DeepSpeech ass vill méi einfach wéi traditionell Systemer a bitt gläichzäiteg méi héich Qualitéitserkennung an der Präsenz vun externen Kaméidi. Et ëmgoen traditionell akustesch Modeller an d'Konzept vun Phonemes, amplaz mat engem héich optimiséiert neural Reseau-baséiert Maschinn Léieren System, datt d'Noutwennegkeet eliminéiert separat Komponente ze entwéckelen verschidde Anomalien wéi Kaméidi, Echo, a Ried Fonctiounen.

De Nodeel vun dëser Approche ass datt fir qualitativ héichwäerteg Unerkennung an Ausbildung vun engem neuralen Netzwierk ze kréien, erfuerdert den DeepSpeech-Motor eng grouss Quantitéit vun heterogenen Donnéeën, diktéiert an reelle Bedéngungen duerch verschidde Stëmmen an an der Präsenz vun natierleche Kaméidi.
E Projet, deen a Mozilla erstallt gouf, sammelt esou Donnéeën. Gemeinsam Stëmm, liwwert e verifizéiert Datesaz mat 780 Stonnen vun Englesch, 325 op Däitsch, 173 op Franséisch a 27 Stonnen op Russesch.

D'ultimativ Zil vum Common Voice-Projet ass 10 Tausend Stonnen Opzeechnunge vu verschiddene Aussoe vun typesche Sätze vu mënschlecher Ried ze sammelen, wat et erlaabt en akzeptablen Niveau vu Feeler an der Unerkennung z'erreechen. A senger aktueller Form hunn d'Participanten vum Projet schonn insgesamt 4.3 Tausend Stonnen diktéiert, vun deenen 3.5 Tausend getest goufen. Wann Dir de finalen englesche Sproochemodell fir DeepSpeech trainéiert, goufen 3816 Stonne Ried benotzt, zousätzlech zu Common Voice déi Daten aus de LibriSpeech, Fisher a Switchboard Projeten ofdeckt, an och ongeféier 1700 Stonnen vun transkribéierten Radiosendungsopnamen abegraff.

Wann Dir de fäerdege englesche Sproochemodell benotzt, deen als Download ugebuede gëtt, ass d'Unerkennungsfehlerquote an DeepSpeech 7.5% wann se mat engem Testset bewäert ginn LibriSpeech. Zum Verglach, de Feeler Taux fir mënschlech Unerkennung geschat an 5.83%.

DeepSpeech besteet aus zwee Ënnersystemer - en akustesche Modell an en Decoder. Den akustesche Modell benotzt déif Maschinn Léiermethoden fir d'Wahrscheinlechkeet ze berechnen datt verschidde Charaktere präsent sinn am Input Sound. Den Decoder benotzt e Ray Sich Algorithmus fir Charakter Probabilitéitsdaten an eng Textrepresentatioun ze konvertéieren.

Haaptstrooss Innovatiounen DeepSpeech 0.6 (0.6 Branche ass net kompatibel mat fréiere Verëffentlechungen a erfuerdert Code a Modellupdates):

  • En neie Streaming Decoder gëtt proposéiert deen méi héich Reaktiounsfäegkeet ubitt an onofhängeg vun der Gréisst vun de veraarbechten Audiodaten ass. Als Resultat huet déi nei Versioun vun DeepSpeech et fäerdeg bruecht d'Latenz fir d'Unerkennung op 260 ms ze reduzéieren, wat 73% méi séier ass wéi virdrun, an erlaabt datt DeepSpeech a Sproocherkennungsléisungen op der Flucht benotzt gëtt.
  • Ännerunge goufen un der API gemaach an Aarbecht gouf gemaach fir d'Funktiounsnimm ze vereenegen. Fonctiounen goufen bäigefüügt fir zousätzlech Metadaten iwwer Synchroniséierung ze kréien, wat Iech erlaabt net nëmmen eng Textrepresentatioun als Ausgang ze kréien, awer och d'Verbindung vun eenzelne Personnagen a Sätz op eng Positioun am Audiostream ze verfolgen.
  • Ënnerstëtzung fir d'Bibliothéik ze benotzen ass am Toolkit fir Trainingsmoduler bäigefüügt CuDNN fir d'Aarbecht mat wiederhuelende neuralen Netzwierker (RNN) ze optimiséieren, wat et méiglech gemaach huet eng bedeitend (ongeféier zweemol) Erhéijung vun der Model Training Performance z'erreechen, awer erfuerderlech Ännerunge vum Code, déi d'Kompatibilitéit mat virdru preparéierten Modeller verletzt hunn.
  • De Minimum TensorFlow Versioun Ufuerderunge goufen vun 1.13.1 op 1.14.0 erhéicht. Zousätzlech Ënnerstëtzung fir déi liicht Editioun vun TensorFlow Lite, déi d'Gréisst vum DeepSpeech Package vun 98 MB op 3.7 MB reduzéiert. Fir d'Benotzung op embedded a mobilen Apparater ass d'Gréisst vun der gepackter Datei mam Modell och vun 188 MB op 47 MB ​​(d'Quantiséierungsmethod gëtt fir Kompressioun benotzt nodeems de Modell trainéiert ass).
  • De Sproochemodell gouf an en anert Datestrukturformat iwwersat, deen et erlaabt Dateien an d'Erënnerung ze mapen wann se gelueden sinn. Ënnerstëtzung fir dat alt Format gouf gestoppt.
  • De Modus fir e Fichier mat engem Sproochmodell ze lueden ass geännert ginn, wat d'Erënnerungsverbrauch reduzéiert huet an d'Verspéidungen reduzéiert huet wann d'éischt Ufro no der Schafung vum Modell veraarbecht gëtt. Wärend der Operatioun verbraucht DeepSpeech elo 22 Mol manner Erënnerung a fänkt 500 Mol méi séier un.

    Mozilla huet de Sproocherkennungsmotor DeepSpeech 0.6 agefouert

  • Selten Wierder goufen am Sproochmodell gefiltert. D'Gesamtzuel vun de Wierder gouf op 500 Tausend vun de populäersten Wierder reduzéiert, déi am Text fonnt goufen fir de Modell ze trainéieren. D'Botzen huet et méiglech gemaach d'Gréisst vum Sproochemodell vun 1800MB op 900MB ze reduzéieren, mat praktesch keen Effekt op d'Erkennungsfehlerquote.
  • Zousätzlech Ënnerstëtzung fir verschidde Techniker Erstellt zousätzlech Variatiounen (Vergréisserung) vun den Audiodaten, déi am Training benotzt ginn (zum Beispill Verzerrung oder Kaméidi op eng Rei vun Optiounen).
  • Eng Bibliothéik mat Bindungen bäigefüügt fir Integratioun mat Uwendungen baséiert op der .NET Plattform.
  • D'Dokumentatioun gouf ëmgeschafft a gëtt elo op enger separater Websäit gesammelt. deepspeech.readthedocs.io.

Source: opennet.ru

Setzt e Commentaire