Mozilla julkisti DeepSpeech 0.6 -puheentunnistusmoottorin

Lähettäjä Mozillan kehittämän puheentunnistusmoottorin julkaisu DeepSpeech 0.6, joka toteuttaa samannimisen puheentunnistusarkkitehtuurin, ehdotettu tutkijat Baidusta. Toteutus on kirjoitettu Pythonissa käyttäen TensorFlow-koneoppimiskehystä ja jakelija ilmaisella lisenssillä MPL 2.0. Tukee Linuxia, Androidia, macOS:ää ja Windowsia. Suorituskyky riittää moottorin käyttöön LePotato-, Raspberry Pi 3- ja Raspberry Pi 4 -levyillä.

Setti myös tarjottu koulutetut mallit, esimerkkejä äänitiedostot ja työkalut komentoriviltä tunnistamiseen. Puheentunnistustoiminnon upottamiseksi ohjelmiisi tarjotaan käyttövalmiita Python-, NodeJS-, C ++- ja .NET-moduuleja (kolmannen osapuolen kehittäjät ovat valmistaneet moduuleja Ruoste и Go). Valmis malli toimitetaan vain englanniksi, mutta pyynnöstä myös muille kielille. liitteenä ohjeet voit kouluttaa järjestelmän itse käyttämällä äänidataaCommon Voice -projektin keräämä.

DeepSpeech on paljon yksinkertaisempi kuin perinteiset järjestelmät ja tarjoaa samalla paremman tunnistuslaadun, kun läsnä on ylimääräistä kohinaa. Kehittämisessä ei käytetä perinteisiä akustisia malleja ja foneemien käsitettä, vaan käytetään hyvin optimoitua hermoverkkoon perustuvaa koneoppimisjärjestelmää, mikä eliminoi tarpeen kehittää erillisiä komponentteja erilaisten poikkeamien, kuten kohina-, kaiku- ja puheominaisuuksien mallintamiseen. .

Tämän lähestymistavan haittapuolena on, että laadukkaan hermoverkon tunnistuksen ja koulutuksen saavuttamiseksi DeepSpeech-moottori vaatii suuren määrän heterogeenista dataa, joka sanelee todellisissa olosuhteissa eri äänien ja luonnollisen kohinan läsnäollessa.
Tällaisten tietojen keräämisen suorittaa Mozillassa luotu projekti Yhteinen ääni, joka tarjoaa validoidun tietojoukon 780 tunnin päällä Englannin kieli, 325 saksaksi, 173 ranskaksi ja 27 tuntia venäjäksi.

Common Voice -projektin perimmäisenä tavoitteena on kerätä 10 4.3 tuntia nauhoituksia tyypillisten ihmisen puhelauseiden eri ääntämismuodoista, joilla saavutetaan hyväksyttävä taso tunnistusvirheitä. Nykyisessä muodossaan projektiin osallistujat ovat jo sanelleet yhteensä 3.5 tuhatta tuntia, joista 3816 tuhatta on testattu. Harjoitettaessa englannin kielen lopullista mallia DeepSpeechille käytettiin 1700 tuntia puhetta, Common Voicen lisäksi, joka kattaa LibriSpeech-, Fisher- ja Switchboard-projektien datan sekä sisältää noin XNUMX tuntia transkriboituja radio-ohjelmien tallenteita.

Käytettäessä ladattavaksi tarjottua valmista englanninkielistä mallia DeepSpeechin tunnistusvirheiden taso on testijoukon arvioituna 7.5 %. LibriSpeech. Vertailun vuoksi virheprosentti ihmisen tunnistamisessa arvioidaan 5.83%.

DeepSpeech koostuu kahdesta osajärjestelmästä - akustisesta mallista ja dekooderista. Akustinen malli käyttää syvää koneoppimismenetelmiä laskeakseen todennäköisyyden tiettyjen symbolien esiintymiselle tuloäänessä. Dekooderi käyttää keilahakualgoritmia symbolien todennäköisyystietojen muuntamiseksi tekstiesitykseen.

Pääasiallinen innovaatioita DeepSpeech 0.6 (0.6 haara ei ole taaksepäin yhteensopiva ja vaatii koodin ja mallien päivittämisen):

  • Ehdotetaan uutta suoratoistodekooderia, joka tarjoaa paremman vasteen ja joka ei riipu käsitellyn äänidatan koosta. Tämän seurauksena DeepSpeechin uusi versio pystyi vähentämään tunnistusviiveen 260 ms:iin, mikä on 73 % nopeampi kuin ennen, ja mahdollistaa DeepSpeechin käytön lennossa puheentunnistusratkaisuissa.
  • Sovellusliittymään on tehty muutoksia ja toimintojen nimiä on yhtenäistetty. Toimintoja on lisätty synkronoinnin metatietojen saamiseksi, mikä mahdollistaa tekstiesityksen vastaanottamisen tulosteena, mutta myös yksittäisten merkkien ja lauseiden sitomisen seuraamiseen äänivirran paikkaan.
  • Oppimismoduulien työkalupakettiin on lisätty tuki kirjaston käyttöön CuDNN optimoida työskentely toistuvien hermoverkkojen (RNN) kanssa, mikä mahdollisti merkittävän (noin kaksinkertaisen) lisäyksen mallin koulutussuorituskyvyssä, mutta vaati muutoksia koodiin, jotka rikkoivat yhteensopivuutta aiemmin valmistettujen mallien kanssa.
  • TensorFlow-version vähimmäisvaatimukset on nostettu 1.13.1:stä 1.14.0:aan. Lisätty tuki kevyelle TensorFlow Lite -versiolle, joka pienensi DeepSpeech-paketin koon 98 megatavusta 3.7 megatavuun. Sulautetuissa ja mobiililaitteissa käytettäväksi pakatun tiedoston kokoa pienennettiin myös 188 Mt:sta 47 Mt:iin (kvantisointimenetelmää käytettiin pakkaamiseen mallin koulutuksen jälkeen).
  • Kielimalli on käännetty erilaiseen tietorakenteiden muotoon, joka mahdollistaa tiedostojen yhdistämisen muistiin latauksen aikana. Vanhan muodon tuki on lopetettu.
  • Kielimallin tiedoston lataustapaa on muutettu, mikä vähensi muistin kulutusta ja pienensi viiveitä ensimmäisen mallin luomisen jälkeisen pyynnön käsittelyssä. DeepSpeech kuluttaa nyt 22 kertaa vähemmän muistia ajon aikana ja käynnistyy 500 kertaa nopeammin.

    Mozilla julkisti DeepSpeech 0.6 -puheentunnistusmoottorin

  • Harvinaiset sanat suodatettiin kielimallissa. Sanojen kokonaismäärä on pienennetty 500 1800 mallin koulutuksessa käytetyn tekstin suosituimpaan sanaan. Puhdistus mahdollisti kielimallin koon pienentämisen 900 megatavusta XNUMX megatavuun vaikuttamatta tunnistusvirheiden tasoon.
  • Lisätty tuki erilaisille teknikko lisämuunnelmien (lisäyksen) luominen harjoittelussa käytetystä äänidatasta (esimerkiksi lisäämällä vaihtoehtoihin, jotka sisältävät säröä tai kohinaa).
  • Lisätty kirjasto sidoksilla integrointia varten .NET-alustaan ​​perustuviin sovelluksiin.
  • Uudelleen suunniteltu dokumentaatio, joka on nyt koottu erilliselle sivustolle deepspeech.readthedocs.io.

Lähde: opennet.ru

Lisää kommentti