Кодът на системата за разпознаване и превод на шепот е отворен

Проектът OpenAI, който разработва обществени проекти в областта на изкуствения интелект, публикува разработки, свързани със системата за разпознаване на реч Whisper. Твърди се, че за речта на английски език системата осигурява нива на надеждност и точност на автоматичното разпознаване, близки до човешкото разпознаване. Отворен е кодът за референтната реализация, базирана на PyTorch framework и набор от вече обучени модели, готови за използване. Кодът е отворен под лиценза на MIT.

За обучение на модела са използвани 680 хиляди часа речеви данни, събрани от няколко колекции, обхващащи различни езици и предметни области. Около 1/3 от говорните данни, включени в обучението, са на езици, различни от английски. Предложената система се справя правилно със ситуации като акцентирано произношение, фонов шум и използване на технически жаргон. В допълнение към транскрибирането на реч в текст, системата може също така да превежда реч от всеки език на английски и да разпознава появата на реч в аудио потока.

Моделите са формирани в две представяния: модел за английски език и многоезичен модел, който също поддържа руски, украински и беларуски езици. От своя страна всяко представяне е разделено на 5 варианта, различаващи се по размер и брой параметри, обхванати в модела. Колкото по-голям е размерът, толкова по-голяма е точността и качеството на разпознаването, но също така толкова по-високи са изискванията към размера на видеопаметта на GPU и толкова по-ниска е производителността. Например минималната опция включва 39 милиона параметъра и изисква 1 GB видео памет, а максималната включва 1550 милиона параметри и изисква 10 GB видео памет. Минималната опция е 32 пъти по-бърза от максималната.

Кодът на системата за разпознаване и превод на шепот е отворен

Системата използва архитектурата на невронната мрежа Transformer, която включва енкодер и декодер, които взаимодействат помежду си. Аудиото се разделя на 30-секундни части, които се преобразуват в log-Mel спектрограма и се изпращат към енкодера. Резултатът от енкодера се изпраща до декодера, който предвижда текстово представяне, смесено със специални токени, които позволяват в един общ модел да се решават проблеми като откриване на език, отчитане на хронологията на произношението на фрази, транскрипция на реч в различни езици и превод на английски.

Източник: opennet.ru

Добавяне на нов коментар