Адкрыты код сістэмы распазнання і перакладу прамовы Whisper

Праект OpenAI, які займаецца развіццём агульнадаступных праектаў у вобласці штучнага інтэлекту, апублікаваў напрацоўкі, звязаныя з сістэмай распазнання прамовы Whisper. Сцвярджаецца, што для гаворкі на ангельскай мове сістэма забяспечвае ўзроўні надзейнасці і дакладнасці аўтаматычнага распазнання блізкія да распазнання чалавекам. Адкрыты код эталоннай рэалізацыі на базе фрэймворка PyTorch і набор ужо навучаных мадэляў, гатовых для выкарыстання. Код адчынены пад ліцэнзіяй MIT.

Для навучання мадэлі скарыстаны 680 тысяч гадзін маўленчых дадзеных, сабраных з некалькіх калекцый, якія ахопліваюць розныя мовы і тэматычныя вобласці. Каля 1/3 задзейнічаных пры навучанні маўленчых дадзеных прыпадаюць на мовы, адрозныя ад ангельскай. Прапанаваная сістэма карэктна апрацоўвае такія сітуацыі, як вымаўленне з акцэнтам, наяўнасць фонавых шумоў і прымяненне тэхнічнага жаргону. Акрамя транскрыпцыі прамовы ў тэкст, сістэма таксама можа перакладаць гаворку з адвольнай мовы на ангельскую мову і вызначаць з'яўленне гаворкі ў гукавым струмені.

Мадэлі сфарміраваны ў двух уяўленнях: мадэль для англійскай мовы і шматмоўная мадэль, якая падтрымлівае ў тым ліку рускую, украінскую і беларускую мовы. У сваю чаргу, кожнае ўяўленне дзеліцца на 5 варыянтаў, якія адрозніваюцца памерам і лікам ахопленых у мадэлі параметраў. Чым больш памер, тым больш дакладнасць і якасць распазнанне, але і вышэй патрабаванні да памеру відэапамяці GPU і ніжэй прадукцыйнасць. Напрыклад, мінімальны варыянт уключае 39 млн параметраў і патрабуе 1 ГБ відэапамяці, а максімальны ўключае 1550 млн параметраў і патрабуе 10 ГБ відэапамяці. Мінімальны варыянт хутчэй максімальнага ў 32 разы.

Адкрыты код сістэмы распазнання і перакладу прамовы Whisper

У сістэме выкарыстоўваецца архітэктура нейронавай сеткі "Transformer", якая ўключае ўзаемадзейнічаюць адзін з адным кадавальнік і дэкадавальнік. Гук разбіваецца на 30-секундныя ўрыўкі, якія пераўтворацца ў log-Mel-спектаграму і перадаюцца кадавальніку. Вынік працы кадавальніка накіроўваецца ў дэкадавальнік, які прадказвае тэкставае ўяўленне, змяшанае са адмысловымі токенамі, якія дазваляюць у адной агульнай мадэлі вырашаць такія задачы, як вызначэнне мовы, улік храналогіі вымаўлення фраз, транскрыпцыя прамовы на розных мовах і пераклад на ангельскую мову.

Крыніца: opennet.ru

Дадаць каментар