Пројекат ОпенАИ, који развија јавне пројекте у области вештачке интелигенције, објавио је развоје у вези са системом за препознавање говора Вхиспер. Тврди се да за говор на енглеском језику систем обезбеђује нивое поузданости и тачности аутоматског препознавања блиске људском. Отворен је код за референтну имплементацију засновану на ПиТорцх фрамеворк-у и скуп већ обучених модела, спремних за употребу. Код је отворен под лиценцом МИТ.
За обуку модела коришћено је 680 хиљада сати говорних података, прикупљених из неколико колекција које покривају различите језике и предметне области. Око 1/3 говорних података укључених у обуку је на језицима који нису енглески. Предложени систем исправно обрађује ситуације као што су изговор са акцентом, позадинска бука и употреба техничког жаргона. Поред транскрибовања говора у текст, систем такође може да преведе говор са било ког језика на енглески и открије појаву говора у аудио стриму.
Модели су формирани у два приказа: модел за енглески језик и вишејезични модел, који такође подржава руски, украјински и белоруски језик. Заузврат, свака репрезентација је подељена на 5 опција, које се разликују по величини и броју параметара обухваћених моделом. Што је већа величина, већа је тачност и квалитет препознавања, али и већи захтеви за величином ГПУ видео меморије и ниже перформансе. На пример, минимална опција укључује 39 милиона параметара и захтева 1 ГБ видео меморије, а максимална укључује 1550 милиона параметара и захтева 10 ГБ видео меморије. Минимална опција је 32 пута бржа од максималне.

Систем користи архитектуру неуронске мреже Трансформер, која укључује енкодер и декодер који међусобно комуницирају. Звук је разбијен на делове од 30 секунди, који се конвертују у лог-Мел спектрограм и шаљу у кодер. Излаз енкодера се шаље декодеру, који предвиђа текстуалну репрезентацију помешану са посебним токенима који омогућавају, у једном општем моделу, да се реше проблеми као што су детекција језика, узимање у обзир хронологије изговора фраза, транскрипција говора у различитим језицима, и превод на енглески.
Извор: опеннет.ру
