Відкрито код системи розпізнавання та перекладу мови Whisper

Проект OpenAI, що займається розвитком загальнодоступних проектів у галузі штучного інтелекту, опублікував напрацювання, пов'язані із системою розпізнавання мови Whisper. Стверджується, що з мови англійською система забезпечує рівні надійності і точності автоматичного розпізнавання близькі до розпізнавання людиною. Відкрито код еталонної реалізації на базі фреймворку PyTorch та набір вже навчених моделей, готових для використання. Код відкрито під ліцензією MIT.

Для навчання моделі використано 680 тисяч годин мовних даних, зібраних із кількох колекцій, що охоплюють різні мови та тематичні галузі. Близько 1/3 задіяних під час навчання мовних даних припадають на мови, відмінні від англійської. Запропонована система коректно опрацьовує такі ситуації, як вимова з акцентом, наявність фонових шумів та застосування технічного жаргону. Крім транскрипції промови в текст, система також може перекладати мову з довільної мови на англійську мову та визначати появу промови у звуковому потоці.

Моделі сформовані у двох уявленнях: модель для англійської мови та багатомовна модель, що підтримує у тому числі російську, українську та білоруську мови. У свою чергу, кожне уявлення ділиться на 5 варіантів, що відрізняються розміром та кількістю охоплених у моделі параметрів. Чим більший розмір, тим більша точність і якість розпізнавання, але й вища вимога до розміру відеопам'яті GPU і нижча продуктивність. Наприклад, мінімальний варіант включає 39 млн. параметрів і вимагає 1 ГБ відеопам'яті, а максимальний включає 1550 млн. параметрів і вимагає 10 ГБ відеопам'яті. Мінімальний варіант швидше за максимальний у 32 рази.

Відкрито код системи розпізнавання та перекладу мови Whisper

У системі використовується архітектура нейронної мережі «Transformer», що включає кодувальник і декодувальник, що взаємодіють один з одним. Звук розбивається на 30-секундні уривки, які перетворюються на log-Mel-спектограму і передаються кодувальнику. Результат роботи кодувальника направляється в декодувальник, який передбачає текстове уявлення, змішане зі спеціальними токенами, що дозволяють в одній загальній моделі вирішувати такі завдання, як визначення мови, врахування хронології вимови фраз, транскрипція мови різними мовами та переклад на англійську мову.

Джерело: opennet.ru

Додати коментар або відгук