Mozilla prezantoi motorin e njohjes së të folurit DeepSpeech 0.6

prezantuar lëshimi i motorit të njohjes së të folurit i zhvilluar nga Mozilla DeepSpeech 0.6, i cili zbaton arkitekturën e njohjes së të folurit me të njëjtin emër, propozuar nga studiues nga Baidu. Zbatimi është shkruar në Python duke përdorur platformën e mësimit të makinerisë TensorFlow dhe shperndare nga nën licencën pa pagesë MPL 2.0. Mbështet punën në Linux, Android, macOS dhe Windows. Performanca është e mjaftueshme për të përdorur motorin në bordet LePotato, Raspberry Pi 3 dhe Raspberry Pi 4.

Gjithashtu përfshihet në komplet ofruar modele të trajnuara, shembuj skedarët e zërit dhe mjetet e njohjes nga linja e komandës. Për të integruar funksionin e njohjes së të folurit në programet tuaja, ofrohen module të gatshme për përdorim për Python, NodeJS, C++ dhe .NET (zhvilluesit e palëve të treta kanë përgatitur veçmas module për Ndryshk и Go). Modeli i përfunduar ofrohet vetëm për anglisht, por për gjuhë të tjera nga bashkangjitur udhëzime ju mund ta trajnoni vetë sistemin duke përdorur të dhënat zanore, mbledhur nga projekti Common Voice.

DeepSpeech është shumë më i thjeshtë se sistemet tradicionale dhe në të njëjtën kohë siguron njohje me cilësi më të lartë në prani të zhurmës së jashtme. Ai anashkalon modelet tradicionale akustike dhe konceptin e fonemave, në vend të kësaj duke përdorur një sistem shumë të optimizuar të mësimit të makinerisë të bazuar në rrjetin nervor që eliminon nevojën për të zhvilluar komponentë të veçantë për të modeluar anomali të ndryshme si zhurma, jehona dhe veçoritë e të folurit.

Ana negative e kësaj qasjeje është se për të marrë njohje dhe trajnim me cilësi të lartë të një rrjeti nervor, motori DeepSpeech kërkon një sasi të madhe të dhënash heterogjene, të diktuara në kushte reale nga zëra të ndryshëm dhe në prani të zhurmës natyrore.
Një projekt i krijuar në Mozilla mbledh të dhëna të tilla. Zëri i përbashkët, duke siguruar një grup të dhënash të verifikuar me 780 orë gjuhe angleze, 325 në gjermanisht, 173 në frëngjisht dhe 27 orë në rusisht.

Qëllimi përfundimtar i projektit Common Voice është të grumbullojë 10 mijë orë regjistrime të shqiptimeve të ndryshme të frazave tipike të fjalës njerëzore, të cilat do të lejojnë arritjen e një niveli të pranueshëm gabimesh në njohje. Në formën e tij aktuale, pjesëmarrësit e projektit kanë diktuar tashmë gjithsej 4.3 mijë orë, nga të cilat 3.5 mijë janë testuar. Gjatë trajnimit të modelit përfundimtar të gjuhës angleze për DeepSpeech, u përdorën 3816 orë fjalim, përveç zërit të përbashkët që mbulonte të dhënat nga projektet LibriSpeech, Fisher dhe Switchboard, dhe gjithashtu përfshinte rreth 1700 orë regjistrime të transkriptuara të emisioneve radiofonike.

Kur përdorni modelin e gatshëm të gjuhës angleze të ofruar për shkarkim, shkalla e gabimit të njohjes në DeepSpeech është 7.5% kur vlerësohet me një grup testimi LibriFjalimi. Për krahasim, shkalla e gabimit për njohjen njerëzore vlerësuar me 5.83%.

DeepSpeech përbëhet nga dy nënsisteme - një model akustik dhe një dekoder. Modeli akustik përdor metoda të mësimit të thellë të makinerive për të llogaritur gjasat që disa karaktere të jenë të pranishëm në tingullin hyrës. Dekoderi përdor një algoritëm kërkimi me rreze për të kthyer të dhënat e probabilitetit të karaktereve në një paraqitje teksti.

Kryesore risitë DeepSpeech 0.6 (dega 0.6 nuk është e përputhshme me versionet e mëparshme dhe kërkon përditësime të kodit dhe modelit):

  • Propozohet një dekoder i ri i transmetimit që siguron reagim më të lartë dhe është i pavarur nga madhësia e të dhënave audio të përpunuara. Si rezultat, versioni i ri i DeepSpeech arriti të zvogëlojë vonesën për njohjen në 260 ms, që është 73% më shpejt se më parë, dhe lejon që DeepSpeech të përdoret në zgjidhjet e njohjes së të folurit në fluturim.
  • Janë bërë ndryshime në API dhe është punuar për të unifikuar emrat e funksioneve. Funksionet janë shtuar për të marrë meta të dhëna shtesë rreth sinkronizimit, duke ju lejuar jo vetëm të merrni një paraqitje teksti si një dalje, por edhe të gjurmoni lidhjen e karaktereve dhe fjalive individuale me një pozicion në transmetimin audio.
  • Mbështetja për përdorimin e bibliotekës është shtuar në paketën e veglave për modulet e trajnimit CuDNN për të optimizuar punën me rrjetet nervore të përsëritura (RNN), gjë që bëri të mundur arritjen e një rritje të konsiderueshme (përafërsisht të dyfishtë) në performancën e trajnimit të modelit, por kërkoi ndryshime në kodin që shkelte përputhshmërinë me modelet e përgatitura më parë.
  • Kërkesat minimale të versionit TensorFlow janë rritur nga 1.13.1 në 1.14.0. Mbështetje e shtuar për edicionin e lehtë të TensorFlow Lite, i cili zvogëlon madhësinë e paketës DeepSpeech nga 98 MB në 3.7 MB. Për përdorim në pajisjet e integruara dhe të lëvizshme, madhësia e skedarit të paketuar me modelin gjithashtu është zvogëluar nga 188 MB në 47 MB ​​(metoda e kuantizimit përdoret për kompresim pasi modeli është trajnuar).
  • Modeli i gjuhës është përkthyer në një format të ndryshëm të strukturës së të dhënave që lejon që skedarët të vendosen në memorie kur ngarkohen. Mbështetja për formatin e vjetër është ndërprerë.
  • Mënyra e ngarkimit të një skedari me një model gjuhësor është ndryshuar, gjë që ka reduktuar konsumin e memories dhe ka zvogëluar vonesat gjatë përpunimit të kërkesës së parë pas krijimit të modelit. Gjatë funksionimit, DeepSpeech tani konsumon 22 herë më pak memorie dhe fillon 500 herë më shpejt.

    Mozilla prezantoi motorin e njohjes së të folurit DeepSpeech 0.6

  • Fjalët e rralla u filtruan në modelin gjuhësor. Numri i përgjithshëm i fjalëve u reduktua në 500 mijë nga fjalët më të njohura të gjetura në tekstin e përdorur për të trajnuar modelin. Pastrimi bëri të mundur zvogëlimin e madhësisë së modelit të gjuhës nga 1800 MB në 900 MB, pa asnjë efekt praktikisht në shkallën e gabimit të njohjes.
  • Mbështetje e shtuar për të ndryshme teknik krijimi i variacioneve shtesë (shtim) të të dhënave audio të përdorura në trajnim (për shembull, shtimi i shtrembërimit ose zhurmës në një grup opsionesh).
  • U shtua një bibliotekë me lidhje për integrimin me aplikacionet e bazuara në platformën .NET.
  • Dokumentacioni është ripunuar dhe tani është mbledhur në një faqe interneti të veçantë. deepspeech.readthedocs.io.

Burimi: opennet.ru

Shto një koment