Mozilla je predstavila mehanizam za prepoznavanje govora DeepSpeech 0.6

Predstavljeno izdanje mehanizma za prepoznavanje govora koji je razvila Mozilla DeepSpeech 0.6, koji implementira istoimenu arhitekturu prepoznavanja govora, zaprosio od strane istraživača iz Baidua. Implementacija je napisana u Pythonu pomoću platforme za strojno učenje TensorFlow i distribuira pod besplatnom licencom MPL 2.0. Podržava rad na Linux, Android, macOS i Windows. Performanse su dovoljne za korištenje motora na LePotato, Raspberry Pi 3 i Raspberry Pi 4 pločama.

Također uključeno u set ponudio obučeni modeli, primjeri zvučne datoteke i alate za prepoznavanje iz naredbenog retka. Za integraciju funkcije prepoznavanja govora u vaše programe nude se moduli spremni za korištenje za Python, NodeJS, C++ i .NET (razvojni programeri trećih strana imaju zasebno pripremljene module za Hrđa и Go). Gotovi model se isporučuje samo za engleski, ali za ostale jezike u prilogu instrukcije možete sami trenirati sustav pomoću glasovni podaci, prikupljenih projektom Common Voice.

DeepSpeech je mnogo jednostavniji od tradicionalnih sustava, a istovremeno pruža kvalitetnije prepoznavanje u prisutnosti vanjske buke. Zaobilazi tradicionalne akustičke modele i koncept fonema, umjesto toga koristi visoko optimizirani sustav strojnog učenja temeljen na neuralnim mrežama koji eliminira potrebu za razvojem zasebnih komponenti za modeliranje raznih anomalija kao što su šum, jeka i značajke govora.

Loša strana ovog pristupa je da za postizanje visokokvalitetnog prepoznavanja i obuke neuronske mreže, DeepSpeech engine zahtijeva veliku količinu heterogenih podataka, diktiranih u stvarnim uvjetima različitim glasovima iu prisutnosti prirodnog šuma.
Projekt izrađen u Mozilli prikuplja takve podatke. Zajednički glas, pružajući verificirani skup podataka sa 780 sati Engleski jezik, 325 na njemačkom, 173 na francuskom i 27 sati na ruskom jeziku.

Krajnji cilj projekta Common Voice je akumulirati 10 tisuća sati snimaka različitih izgovora tipičnih fraza ljudskog govora, što će omogućiti postizanje prihvatljive razine pogrešaka u prepoznavanju. U sadašnjem obliku sudionici projekta već su izdiktirali ukupno 4.3 tisuće sati, od čega je 3.5 tisuća testirano. Prilikom obuke konačnog modela engleskog jezika za DeepSpeech, korišteno je 3816 sati govora, uz Common Voice koji pokriva podatke iz projekata LibriSpeech, Fisher i Switchboard, a također uključuje oko 1700 sati transkribiranih snimaka radijskih emisija.

Pri korištenju gotovog modela engleskog jezika koji se nudi za preuzimanje, stopa pogreške prepoznavanja u DeepSpeechu iznosi 7.5% kada se procjenjuje skupom testova LibriSpeech. Za usporedbu, stopa pogreške za ljudsko prepoznavanje procijenjeno na 5.83%.

DeepSpeech se sastoji od dva podsustava - akustičnog modela i dekodera. Akustični model koristi duboke metode strojnog učenja za izračunavanje vjerojatnosti prisutnosti određenih znakova u ulaznom zvuku. Dekoder koristi algoritam traženja zraka za pretvaranje podataka o vjerojatnosti znakova u tekstualni prikaz.

Glavni inovacije DeepSpeech 0.6 (grana 0.6 nije kompatibilna s prethodnim izdanjima i zahtijeva ažuriranje koda i modela):

  • Predlaže se novi streaming dekoder koji pruža veću brzinu odziva i neovisan je o veličini obrađenih audio podataka. Kao rezultat toga, nova verzija DeepSpeecha uspjela je smanjiti latenciju za prepoznavanje na 260 ms, što je 73% brže nego prije, te omogućuje korištenje DeepSpeecha u rješenjima za prepoznavanje govora u hodu.
  • Promjene su napravljene u API-ju i radilo se na objedinjavanju naziva funkcija. Dodane su funkcije za dobivanje dodatnih metapodataka o sinkronizaciji, omogućujući vam ne samo da primate prikaz teksta kao izlaz, već i da pratite vezivanje pojedinačnih znakova i rečenica za poziciju u audio streamu.
  • Podrška za korištenje knjižnice dodana je alatu za module obuke CuDNN optimizirati rad s rekurentnim neuronskim mrežama (RNN), što je omogućilo postizanje značajnog (otprilike dvostrukog) povećanja performansi obuke modela, ali je zahtijevalo izmjene koda koje su kršile kompatibilnost s prethodno pripremljenim modelima.
  • Minimalni zahtjevi za verziju TensorFlowa podignuti su s 1.13.1 na 1.14.0. Dodana je podrška za lagano izdanje TensorFlow Lite, koje smanjuje veličinu paketa DeepSpeech s 98 MB na 3.7 MB. Za korištenje na ugrađenim i mobilnim uređajima, veličina zapakirane datoteke s modelom također je smanjena sa 188 MB na 47 MB ​​​​(metoda kvantizacije koristi se za kompresiju nakon što se model uvježba).
  • Jezični model preveden je u drugačiji format strukture podataka koji omogućuje mapiranje datoteka u memoriju kada se učitaju. Podrška za stari format je ukinuta.
  • Promijenjen je način učitavanja datoteke s jezičnim modelom, čime je smanjena potrošnja memorije i smanjena kašnjenja prilikom obrade prvog zahtjeva nakon izrade modela. Tijekom rada DeepSpeech sada troši 22 puta manje memorije i pokreće se 500 puta brže.

    Mozilla je predstavila mehanizam za prepoznavanje govora DeepSpeech 0.6

  • Rijetke su riječi filtrirane u jezičnom modelu. Ukupan broj riječi smanjen je na 500 tisuća najpopularnijih riječi pronađenih u tekstu korištenom za obuku modela. Čišćenje je omogućilo smanjenje veličine jezičnog modela s 1800 MB na 900 MB, bez gotovo ikakvog utjecaja na stopu pogrešaka prepoznavanja.
  • Dodana podrška za razne tehničar stvaranje dodatnih varijacija (povećanje) audio podataka koji se koriste u obuci (na primjer, dodavanje izobličenja ili šuma skupu opcija).
  • Dodana biblioteka s vezama za integraciju s aplikacijama temeljenim na .NET platformi.
  • Dokumentacija je prerađena i sada je prikupljena na zasebnoj web stranici. deepspeech.readthedocs.io.

Izvor: opennet.ru

Dodajte komentar