Bol otvorený kód pre systém rozpoznávania reči a prekladu Whisper

OpenAI, projekt vyvíjajúci open-source projekty v oblasti umelej inteligencie, publikoval svoju prácu o systéme rozpoznávania reči Whisper. Tvrdí, že systém poskytuje úrovne spoľahlivosti a presnosti blízke ľudskému rozpoznávaniu reči v anglickom jazyku. Bol zverejnený kód pre referenčnú implementáciu, založený na frameworku PyTorch, a sada predtrénovaných modelov pripravených na použitie. Kód je open-source pod licenciou MIT.

Model bol trénovaný s použitím 680 000 hodín rečových dát zozbieraných z niekoľkých kolekcií pokrývajúcich rôzne jazyky a oblasti. Približne jedna tretina rečových dát použitých na trénovanie pochádzala z iných jazykov ako angličtina. Navrhovaný systém správne zvláda situácie, ako je výslovnosť s prízvukom, hluk v pozadí a technický žargón. Okrem prepisu reči do textu dokáže systém tiež prekladať reč z akéhokoľvek jazyka do angličtiny a detekovať prítomnosť reči v zvukovom prúde.

Modely sú generované v dvoch verziách: model v anglickom jazyku a viacjazyčný model, ktorý podporuje aj ruštinu, ukrajinčinu a bieloruštinu. Každá verzia je ďalej rozdelená do piatich variantov, ktoré sa líšia veľkosťou a počtom parametrov pokrytých modelom. Väčšie modely majú za následok vyššiu presnosť a kvalitu rozpoznávania, ale aj vyššie požiadavky na pamäť GPU a nižší výkon. Napríklad minimálny model obsahuje 39 miliónov parametrov a vyžaduje 1 GB videopamäte, zatiaľ čo maximálny model obsahuje 5 1550 miliónov parametrov a vyžaduje 10 GB videopamäte. Minimálny model je 32-krát rýchlejší ako maximálny model.

Bol otvorený kód pre systém rozpoznávania reči a prekladu Whisper

Systém využíva architektúru neurónovej siete „Transformer“, ktorá zahŕňa interagujúci kodér a dekodér. Zvuk sa rozdelí na 30-sekundové segmenty, prevedie sa na logaritmický Melov spektrogram a privedie sa do kodéra. Výstup z kodéra sa odošle do dekodéra, ktorý predpovedá textovú reprezentáciu zmiešanú so špeciálnymi tokenmi, čo umožňuje jedinému modelu riešiť úlohy, ako je detekcia jazyka, chronologická výslovnosť, prepis reči v rôznych jazykoch a preklad do angličtiny.

Zdroj: opennet.ru

Kúpte si spoľahlivý hosting pre stránky s DDoS ochranou, VPS VDS servery 🔥 Kúpte si spoľahlivý webhosting s ochranou DDoS, VPS VDS servery | ProHoster