Mozilla hà introduttu u mutore di ricunniscenza vocale DeepSpeech 0.6

Intruduttu liberazione di u mutore di ricunniscenza vocale sviluppatu da Mozilla DeepSpeech 0.6, chì implementa l'architettura di ricunniscenza vocale di u listessu nome, prupostu da circadori di Baidu. L'implementazione hè scritta in Python utilizendu a piattaforma di apprendimentu automaticu TensorFlow è distribuitu da sottu a licenza gratuita MPL 2.0. Supporta u travagliu in Linux, Android, macOS è Windows. A prestazione hè abbastanza per aduprà u mutore nantu à i pannelli LePotato, Raspberry Pi 3 è Raspberry Pi 4.

Inclusu ancu in u set offertu mudelli furmati, esempi schedarii di sonu è arnesi di ricunniscenza da a linea di cummanda. Per integrà a funzione di ricunniscenza vocale in i vostri prugrammi, sò offerti moduli pronti per l'usu per Python, NodeJS, C++ è .NET (sviluppatori di terze parti anu preparatu moduli separati per Rust и Go). U mudellu finitu hè furnitu solu per l'inglese, ma per altre lingue attaccatu instructions pudete furmà u sistema sè stessu usendu dati di voce, racolta da u prugettu Voce Cumuna.

DeepSpeech hè assai più simplice di i sistemi tradiziunali è à u stessu tempu furnisce un ricunniscenza di qualità più altu in presenza di rumore estraneu. Bypassa i mudelli acustici tradiziunali è u cuncettu di fonemi, invece utilizendu un sistema di apprendimentu automaticu basatu in rete neurale altamente ottimizzata chì elimina a necessità di sviluppà cumpunenti separati per mudificà diverse anomalie cum'è u rumore, l'eco è e funzioni di voce.

U svantaghju di stu approcciu hè chì per ottene una ricunniscenza è una furmazione d'alta qualità di una rete neurale, u mutore DeepSpeech richiede una grande quantità di dati eterogenei, dettati in cundizioni reali da diverse voci è in presenza di rumore naturali.
Un prughjettu creatu in Mozilla raccoglie tali dati. Voce cumuna, furnisce un set di dati verificatu cù 780 ore di Inglese, 325 in alimanu, 173 in francese è 27 ore in russo.

L'ultimu scopu di u prughjettu di a Voce Comuna hè di accumulà 10 mila ore di registrazioni di diverse pronuncia di e frasi tipiche di u discorsu umanu, chì permettenu di ottene un livellu accettabile di errore in ricunniscenza. In a so forma attuale, i participanti di u prugettu anu digià dictatu un totale di 4.3 mila ore, di quale 3.5 mila sò stati pruvati. Quandu furmà u mudellu finale di lingua inglese per DeepSpeech, sò state aduprate 3816 ore di discorsu, in più di a Voce Comuna chì copre i dati da i prughjetti LibriSpeech, Fisher è Switchboard, è ancu includendu circa 1700 ore di registrazioni di radio trascritte.

Quandu s'utilice u mudellu di lingua inglese pronta per u scaricamentu, u tassu d'errore di ricunniscenza in DeepSpeech hè di 7.5% quandu hè evaluatu cù un set di teste. Libri Speech. Per paragunà, a rata di errore per a ricunniscenza umana stimatu à 5.83%.

DeepSpeech hè custituitu da dui sottosistemi - un mudellu acusticu è un decoder. U mudellu acusticu usa metudi d'apprendimentu automaticu profondu per calculà a probabilità di certi caratteri chì sò prisenti in u sonu di input. U decoder usa un algoritmu di ricerca di raghji per cunvertisce e dati di probabilità di caratteri in una rapprisintazioni di testu.

menu innovazioni DeepSpeech 0.6 (ramu 0.6 ùn hè micca cumpatibile cù versioni precedenti è richiede l'aghjurnamenti di codice è mudelli):

  • Un novu decodificatore di streaming hè prupostu chì furnisce una risposta più alta è hè indipendente da a dimensione di e dati audio processati. In u risultatu, a nova versione di DeepSpeech hà sappiutu di riduce a latenza per u ricunniscenza à 260 ms, chì hè 73% più veloce ch'è prima, è permette à DeepSpeech di esse usatu in solu suluzione di ricunniscenza di parlà à a mosca.
  • I cambiamenti sò stati fatti à l'API è u travagliu hè statu fattu per unificà i nomi di funzioni. E funzioni sò state aghjunte per ottene metadati supplementari nantu à a sincronizazione, chì vi permettenu micca solu di riceve una rapprisintazioni di testu cum'è output, ma ancu di seguità l'associazione di caratteri individuali è sentenzi à una pusizione in u flussu audio.
  • U supportu per l'usu di a biblioteca hè statu aghjuntu à u toolkit per i moduli di furmazione CuDNN per ottimisà u travagliu cù e rete neurali recurrenti (RNN), chì hà permessu di ottene un incrementu significativu (circa duie volte) in u rendiment di furmazione di mudelli, ma hà bisognu di cambiamenti à u codice chì violava a cumpatibilità cù mudelli preparati prima.
  • I requisiti minimi di a versione TensorFlow sò stati elevati da 1.13.1 à 1.14.0. Supportu aghjuntu per l'edizione ligera di TensorFlow Lite, chì riduce a dimensione di u pacchettu DeepSpeech da 98 MB à 3.7 MB. Per l'usu in i dispositi incrustati è mobili, a dimensione di u schedariu imballatu cù u mudellu hè stata ancu ridutta da 188 MB à 47 MB ​​(u metudu di quantizazione hè utilizatu per a compressione dopu chì u mudellu hè furmatu).
  • U mudellu di lingua hè statu traduttu à un furmatu di struttura di dati differente chì permette à i schedari à esse mapping in memoria quandu caricate. U supportu per u vechju formatu hè statu discontinuatu.
  • U modu di carricà un schedariu cù un mudellu di lingua hè statu cambiatu, chì hà riduciutu u cunsumu di memoria è i ritardi ridotti in u processu di a prima dumanda dopu à creà u mudellu. Durante u funziunamentu, DeepSpeech cunsuma avà 22 volte menu memoria è principia 500 volte più veloce.

    Mozilla hà introduttu u mutore di ricunniscenza vocale DeepSpeech 0.6

  • E parolle rari sò state filtrate in u mudellu di lingua. U numeru tutale di parolle hè stata ridutta à 500 mila di e parolle più populari truvate in u testu utilizatu per furmà u mudellu. A pulitura hà permessu di riduce a dimensione di u mudellu di lingua da 1800MB à 900MB, senza praticamenti senza effettu nantu à a rata d'errore di ricunniscenza.
  • Supportu aghjuntu per varii tecnicu creendu variazioni supplementari (aumentazione) di e dati audio utilizati in furmazione (per esempiu, aghjunghjendu distorsioni o rumore à un settore di opzioni).
  • Aggiunta una biblioteca cù associazioni per integrazione cù applicazioni basate nantu à a piattaforma .NET.
  • A ducumentazione hè stata riformulata è hè avà recullata in un situ web separatu. deepspeech.readthedocs.io.

Source: opennet.ru

Add a comment