Кодот за системот за препознавање и превод на говор Whisper е отворен

Проектот OpenAI, кој развива јавни проекти во областа на вештачката интелигенција, објави случувања поврзани со системот за препознавање говор Whisper. Се тврди дека за говор на англиски, системот обезбедува нивоа на сигурност и точност на автоматското препознавање блиску до човечкото препознавање. Кодот за референтната имплементација заснован на рамката PyTorch и сет на веќе обучени модели, подготвени за употреба, се отворени. Кодот е отворен под лиценцата MIT.

За обука на моделот, користени се 680 илјади часа говорни податоци, собрани од неколку збирки кои покриваат различни јазици и предметни области. Околу 1/3 од говорните податоци вклучени во обуката се на други јазици освен англискиот. Предложениот систем правилно се справува со ситуации како што се акцентиран изговор, бучава во позадина и употреба на технички жаргон. Покрај препишувањето на говорот во текст, системот може да преведува и говор од кој било јазик на англиски и да го детектира изгледот на говорот во аудио преносот.

Моделите се формирани во две репрезентации: модел за англиски јазик и повеќејазичен модел, кој исто така поддржува руски, украински и белоруски јазици. За возврат, секоја претстава е поделена на 5 опции, кои се разликуваат по големина и број на параметри опфатени во моделот. Колку е поголема големината, толку е поголема точноста и квалитетот на препознавањето, но и повисоки барања за големината на видео меморијата на графичкиот процесор и помали перформанси. На пример, минималната опција вклучува 39 милиони параметри и бара 1 GB видео меморија, а максималната вклучува 1550 милиони параметри и бара 10 GB видео меморија. Минималната опција е 32 пати побрза од максималната.

Кодот за системот за препознавање и превод на говор Whisper е отворен

Системот ја користи архитектурата на невронската мрежа Transformer, која вклучува енкодер и декодер кои комуницираат едни со други. Аудиото е поделено на делови од 30 секунди, кои се претвораат во лог-Мел спектрограм и се испраќаат до енкодерот. Излезот од енкодерот се испраќа до декодерот, кој предвидува претстава на текст измешана со специјални токени кои овозможуваат, во еден општ модел, да се решат проблеми како што се откривање јазик, сметководство за хронологијата на изговорот на фразите, транскрипција на говорот во различни јазици и превод на англиски.

Извор: opennet.ru

Додадете коментар