Bol otvorený kód pre systém rozpoznávania reči a prekladu Whisper

Projekt OpenAI, ktorý vyvíja verejné projekty v oblasti umelej inteligencie, zverejnil vývoj súvisiaci so systémom rozpoznávania reči Whisper. Tvrdí sa, že pre reč v angličtine systém poskytuje úroveň spoľahlivosti a presnosti automatického rozpoznávania blízku ľudskému rozpoznávaniu. Bol otvorený kód pre referenčnú implementáciu založenú na frameworku PyTorch a súbor už vyškolených modelov pripravených na použitie. Kód je otvorený pod licenciou MIT.

Na trénovanie modelu sa použilo 680 1 hodín rečových údajov zozbieraných z niekoľkých zbierok pokrývajúcich rôzne jazyky a tematické oblasti. Približne 3/XNUMX rečových údajov zahrnutých do školenia je v iných jazykoch ako angličtina. Navrhovaný systém správne zvláda situácie, ako je výslovnosť s diakritikou, hluk v pozadí a používanie technického žargónu. Okrem prepisu reči do textu dokáže systém tiež preložiť reč z ľubovoľného jazyka do angličtiny a zistiť výskyt reči v audio streame.

Modely sú vytvorené v dvoch reprezentáciách: model pre anglický jazyk a viacjazyčný model, ktorý podporuje aj ruský, ukrajinský a bieloruský jazyk. Každá reprezentácia je zase rozdelená do 5 možností, ktoré sa líšia veľkosťou a počtom parametrov zahrnutých v modeli. Čím väčšia veľkosť, tým väčšia presnosť a kvalita rozpoznávania, ale aj vyššie požiadavky na veľkosť videopamäte GPU a nižší výkon. Napríklad minimálna možnosť zahŕňa 39 miliónov parametrov a vyžaduje 1 GB videopamäte a maximum zahŕňa 1550 miliónov parametrov a vyžaduje 10 GB videopamäte. Minimálna možnosť je 32-krát rýchlejšia ako maximálna.

Bol otvorený kód pre systém rozpoznávania reči a prekladu Whisper

Systém využíva architektúru neurónovej siete Transformer, ktorá zahŕňa kodér a dekodér, ktoré sa navzájom ovplyvňujú. Zvuk je rozdelený na 30-sekundové časti, ktoré sú prevedené na log-Mel spektrogram a odoslané do kódovača. Výstup z kodéra sa posiela do dekodéra, ktorý predpovedá textovú reprezentáciu zmiešanú so špeciálnymi tokenmi, ktoré umožňujú v jednom všeobecnom modeli riešiť problémy, ako je detekcia jazyka, zohľadnenie chronológie výslovnosti fráz, prepis reči v v rôznych jazykoch a preklad do angličtiny.

Zdroj: opennet.ru

Pridať komentár