A Mozilla bemutatta a DeepSpeech 0.6 beszédfelismerő motort

Által benyújtott a Mozilla által fejlesztett beszédfelismerő motor kiadása DeepSpeech 0.6, amely az azonos nevű beszédfelismerő architektúrát valósítja meg, javasolta a Baidu kutatói. A megvalósítás Python nyelven íródott a TensorFlow gépi tanulási platform és forgalmazza az ingyenes MPL 2.0 licenc alatt. Támogatja a munkát Linuxon, Androidon, macOS-en és Windowson. A teljesítmény elegendő ahhoz, hogy a motort LePotato, Raspberry Pi 3 és Raspberry Pi 4 táblákon használjuk.

Szintén a készlet része felajánlott képzett modellek, példák hangfájlokat és felismerő eszközöket a parancssorból. A beszédfelismerő funkció programjaiba való integrálásához használatra kész modulok állnak rendelkezésre Python, NodeJS, C++ és .NET számára (a harmadik féltől származó fejlesztők különálló modulokat készítettek Rozsda и Go). A kész modellt csak angol nyelvre szállítjuk, de más nyelvekre is csatolt utasítás segítségével saját maga betaníthatja a rendszert hangadatok, amelyet a Common Voice projekt gyűjtött össze.

A DeepSpeech sokkal egyszerűbb, mint a hagyományos rendszerek, ugyanakkor jobb minőségű felismerést biztosít idegen zaj jelenlétében. Megkerüli a hagyományos akusztikus modelleket és a fonémák fogalmát, ehelyett egy rendkívül optimalizált neurális hálózat alapú gépi tanulási rendszert használ, amely kiküszöböli a különféle anomáliák, például zaj, visszhang és beszédjellemzők modellezéséhez szükséges különálló komponensek fejlesztését.

Ennek a megközelítésnek az a hátránya, hogy a neurális hálózat kiváló minőségű felismeréséhez és betanításához a DeepSpeech motornak nagy mennyiségű heterogén adatra van szüksége, amelyet valós körülmények között különböző hangok és természetes zaj jelenlétében diktálnak.
A Mozillában létrehozott projekt ilyen adatokat gyűjt. Közös Hang, amely ellenőrzött adatkészletet biztosít 780 órányi adattal Angol nyelv, 325 németül, 173 franciául és 27 óra oroszul.

A Common Voice projekt végső célja 10 ezer órányi felvétel felhalmozása az emberi beszéd tipikus kifejezéseinek különféle kiejtéseiről, ami lehetővé teszi a felismerés során elfogadható hibaszint elérését. Jelenlegi formájában összesen 4.3 ezer órát diktáltak már a projekt résztvevői, ebből 3.5 ezret teszteltek. A DeepSpeech végleges angol nyelvi modelljének betanítása során 3816 óra beszédet használtak a Common Voice mellett, amely lefedte a LibriSpeech, Fisher és Switchboard projektek adatait, és mintegy 1700 órányi átírt rádióműsor felvételt is tartalmazott.

A letöltésre kínált kész angol nyelvű modell használatakor a DeepSpeech felismerési hibaaránya tesztkészlettel értékelve 7.5%. LibriSpeech. Összehasonlításképpen az emberi felismerés hibaaránya becsült 5.83-kor%.

A DeepSpeech két alrendszerből áll - egy akusztikus modellből és egy dekóderből. Az akusztikus modell mély gépi tanulási módszereket használ annak kiszámítására, hogy bizonyos karakterek jelen vannak a bemeneti hangban. A dekóder egy sugárkereső algoritmust használ a karakteres valószínűségi adatok szöveges ábrázolássá alakításához.

A főbb innovációk DeepSpeech 0.6 (0.6 ága nem kompatibilis a korábbi kiadásokkal, és kód- és modellfrissítéseket igényel):

  • Egy új streaming dekódert javasolnak, amely nagyobb válaszkészséget biztosít, és független a feldolgozott hangadatok méretétől. Ennek eredményeként a DeepSpeech új verziójának sikerült 260 ms-ra csökkentenie a felismerés késleltetését, ami 73%-kal gyorsabb a korábbinál, és lehetővé teszi a DeepSpeech beszédfelismerő megoldásokban történő menet közbeni használatát.
  • Változtattak az API-ban, és dolgoztak a függvénynevek egységesítésén. A szinkronizálással kapcsolatos további metaadatok beszerzésére szolgáló funkciókkal nem csak szöveges megjelenítést kaphat kimenetként, hanem nyomon követheti az egyes karakterek és mondatok kötődését a hangfolyam egy pozíciójához.
  • A könyvtár használatának támogatása bekerült a képzési modulok eszköztárába CuDNN az ismétlődő neurális hálózatokkal (RNN) végzett munka optimalizálására, ami lehetővé tette a modell betanítási teljesítményének jelentős (mintegy kétszeres) növekedését, de olyan változtatásokat igényelt a kódon, amelyek sértették a korábban elkészített modellekkel való kompatibilitást.
  • A TensorFlow verzió minimális követelményeit 1.13.1-ről 1.14.0-ra emelték. Hozzáadott támogatás a TensorFlow Lite könnyű kiadásához, amely 98 MB-ról 3.7 MB-ra csökkenti a DeepSpeech csomag méretét. A beágyazott és mobil eszközökön való használathoz a modellel csomagolt fájl mérete szintén 188 MB-ról 47 MB-ra csökkent (a kvantálási módszert a modell betanítása után használják a tömörítéshez).
  • A nyelvi modellt lefordították egy másik adatszerkezet-formátumra, amely lehetővé teszi a fájlok betöltéskor a memóriába való hozzárendelését. A régi formátum támogatása megszűnt.
  • Megváltozott a nyelvi modellel ellátott fájl betöltésének módja, ami csökkentette a memóriafelhasználást és csökkentette a késéseket a modell létrehozása utáni első kérés feldolgozásakor. Működés közben a DeepSpeech 22-szer kevesebb memóriát fogyaszt, és 500-szor gyorsabban indul el.

    A Mozilla bemutatta a DeepSpeech 0.6 beszédfelismerő motort

  • A nyelvi modellben kiszűrtük a ritka szavakat. A szavak teljes számát 500 ezerre csökkentették a modell betanításához használt szövegben található legnépszerűbb szavak közül. A tisztítás lehetővé tette a nyelvi modell méretének 1800 MB-ról 900 MB-ra való csökkentését, a felismerési hibaarányra gyakorlatilag nincs hatással.
  • Hozzáadott támogatás különböző technikus az edzés során használt hangadatok további variációinak (kiegészítésének) létrehozása (például torzítás vagy zaj hozzáadása egy opciókészlethez).
  • Hozzáadott egy könyvtárat kötésekkel a .NET platformon alapuló alkalmazásokkal való integrációhoz.
  • A dokumentációt átdolgozták, és most külön honlapon gyűjtik össze. mélybeszéd.readthedocs.io.

Forrás: opennet.ru

Hozzászólás