Whisper сөйлеуді тану және аудару жүйесінің коды ашылды

Жасанды интеллект саласындағы қоғамдық жобаларды әзірлейтін OpenAI жобасы Whisper сөйлеуді тану жүйесіне қатысты әзірлемелерді жариялады. Ағылшын тілінде сөйлеу үшін жүйе адам тануға жақын автоматты танудың сенімділік және дәлдік деңгейлерін қамтамасыз етеді деп мәлімделді. PyTorch негізіне негізделген анықтамалық іске асыру коды және пайдалануға дайын бұрыннан дайындалған үлгілер жиынтығы ашылды. Код MIT лицензиясы бойынша ашық.

Модельді оқыту үшін әртүрлі тілдер мен пәндік аймақтарды қамтитын бірнеше жинақтардан жиналған 680 мың сағаттық сөйлеу деректері пайдаланылды. Тренингке қатысатын сөйлеу деректерінің шамамен 1/3 бөлігі ағылшын тілінен басқа тілдерде. Ұсынылған жүйе екпінді айтылу, фондық шу және техникалық жаргонды пайдалану сияқты жағдайларды дұрыс өңдейді. Сөйлеуді мәтінге көшірумен қатар, жүйе сөйлеуді кез келген тілден ағылшын тіліне аударып, дыбыс ағынында сөйлеудің көрінісін анықтай алады.

Модельдер екі нұсқада жасалған: ағылшын тіліне арналған үлгі және орыс, украин және беларусь тілдерін де қолдайтын көптілді үлгі. Өз кезегінде, әрбір ұсыну үлгіде қамтылған өлшемдер мен параметрлер саны бойынша ерекшеленетін 5 нұсқаға бөлінеді. Өлшем неғұрлым үлкен болса, танудың дәлдігі мен сапасы соғұрлым жоғары болады, сонымен қатар GPU бейне жадының өлшеміне қойылатын талаптар соғұрлым жоғары болады және өнімділік соғұрлым төмен болады. Мысалы, ең аз опция 39 миллион параметрді қамтиды және 1 ГБ бейне жады қажет, ал максимум 1550 миллион параметрді қамтиды және 10 ГБ бейне жады қажет. Ең аз опция максимумнан 32 есе жылдамырақ.

Whisper сөйлеуді тану және аудару жүйесінің коды ашылды

Жүйе бір-бірімен әрекеттесетін кодер мен декодерді қамтитын Transformer нейрондық желісінің архитектурасын пайдаланады. Дыбыс 30 секундтық бөліктерге бөлінеді, олар лог-Mel спектрограммасына түрленеді және кодтаушыға жіберіледі. Кодердің шығысы декодерге жіберіледі, ол бір жалпы үлгіде тілді анықтау, сөз тіркестерінің айтылу хронологиясын есепке алу, тілдегі сөйлеуді транскрипциялау сияқты мәселелерді шешуге мүмкіндік беретін арнайы таңбалауыштармен араласқан мәтінді болжайды. әртүрлі тілдер және ағылшын тіліне аударма.

Ақпарат көзі: opennet.ru

пікір қалдыру