Suttogó beszédfelismerő és fordítórendszer kódja megnyitva

A mesterséges intelligencia területén nyilvános projekteket fejlesztő OpenAI projekt a Whisper beszédfelismerő rendszerrel kapcsolatos fejlesztéseket publikált. Azt állítják, hogy az angol nyelvű beszéd esetében a rendszer az emberi felismeréshez közeli szintű megbízhatóságot és pontosságot biztosít az automatikus felismerésben. Megnyílt a PyTorch keretrendszeren alapuló referencia implementáció kódja és egy sor már betanított, használatra kész modell. A kód az MIT licenc alatt érhető el.

A modell betanításához 680 ezer órányi beszédadatot használtak fel, amelyeket több, különböző nyelvekre és tématerületekre kiterjedő gyűjteményből gyűjtöttek össze. A képzésben részt vevő beszédadatok körülbelül 1/3-a nem angol nyelvű. A javasolt rendszer megfelelően kezeli az olyan helyzeteket, mint az ékezetes kiejtés, a háttérzaj és a szakzsargon használata. A beszéd szöveggé történő átírása mellett a rendszer bármilyen nyelvről le tudja fordítani a beszédet angolra, és érzékeli a beszéd megjelenését a hangfolyamban.

A modellek két ábrázolásban vannak kialakítva: egy angol nyelvű modellben és egy többnyelvű modellben, amely támogatja az orosz, ukrán és fehérorosz nyelveket is. Az egyes ábrázolások 5 lehetőségre oszlanak, amelyek mérete és a modellben szereplő paraméterek száma különbözik. Minél nagyobb a méret, annál pontosabb és jobb a felismerés, de annál magasabbak a GPU videomemória méretére vonatkozó követelmények és annál alacsonyabb a teljesítmény. Például a minimális opció 39 millió paramétert tartalmaz, és 1 GB videomemóriát igényel, a maximum pedig 1550 millió paramétert tartalmaz, és 10 GB videomemóriát igényel. A minimális opció 32-szer gyorsabb, mint a maximum.

Suttogó beszédfelismerő és fordítórendszer kódja megnyitva

A rendszer a Transformer neurális hálózati architektúrát használja, amely tartalmaz egy kódolót és dekódert, amelyek kölcsönhatásba lépnek egymással. A hangot 30 másodperces darabokra bontják, amelyeket log-Mel spektrogrammá alakítanak, és elküldik a kódolónak. A kódoló kimenete elküldésre kerül a dekódernek, amely speciális tokenekkel kevert szöveges megjelenítést jósol, amely egy általános modellben lehetővé teszi olyan problémák megoldását, mint a nyelvészlelés, a kifejezések kiejtésének kronológiájának figyelembe vétele, a beszéd átírása. különböző nyelveken és angolra fordítással.

Forrás: opennet.ru

Hozzászólás