Systémový kód pro rozpoznávání a překlad šeptem řeči byl otevřen

Projekt OpenAI, který vyvíjí veřejné projekty v oblasti umělé inteligence, zveřejnil vývoj týkající se systému rozpoznávání řeči Whisper. Tvrdí se, že pro řeč v angličtině systém poskytuje úrovně spolehlivosti a přesnosti automatického rozpoznávání blízké lidskému rozpoznání. Byl otevřen kód pro referenční implementaci založenou na frameworku PyTorch a sada již natrénovaných modelů připravených k použití. Kód je otevřen pod licencí MIT.

K trénování modelu bylo použito 680 tisíc hodin řečových dat shromážděných z několika sbírek pokrývajících různé jazyky a obory. Přibližně 1/3 řečových dat zahrnutých do školení je v jiných jazycích než v angličtině. Navrhovaný systém správně zvládá situace, jako je výslovnost s diakritikou, hluk v pozadí a používání technického žargonu. Kromě přepisu řeči do textu může systém také překládat řeč z libovolného jazyka do angličtiny a detekovat výskyt řeči ve zvukovém proudu.

Modely jsou tvořeny ve dvou reprezentacích: model pro anglický jazyk a vícejazyčný model, který podporuje také ruštinu, ukrajinštinu a běloruský jazyk. Každá reprezentace je zase rozdělena do 5 možností, které se liší velikostí a počtem parametrů zahrnutých v modelu. Čím větší velikost, tím větší přesnost a kvalita rozpoznávání, ale také vyšší požadavky na velikost video paměti GPU a nižší výkon. Například minimální možnost zahrnuje 39 milionů parametrů a vyžaduje 1 GB video paměti a maximální zahrnuje 1550 milionů parametrů a vyžaduje 10 GB video paměti. Minimální možnost je 32krát rychlejší než maximální.

Systémový kód pro rozpoznávání a překlad šeptem řeči byl otevřen

Systém využívá architekturu neuronové sítě Transformer, která zahrnuje kodér a dekodér, které se vzájemně ovlivňují. Zvuk je rozdělen na 30sekundové části, které jsou převedeny na log-Mel spektrogram a odeslány do kodéru. Výstup kodéru je odeslán do dekodéru, který předpovídá textovou reprezentaci smíchanou se speciálními tokeny, které umožňují v jednom obecném modelu řešit problémy, jako je detekce jazyka, zohlednění chronologie výslovnosti frází, přepis řeči v různé jazyky a překlady do angličtiny.

Zdroj: opennet.ru

Přidat komentář