Кампанія Canonical прадставіла сістэму распазнання прамовы Myna

Жан-Батыст Лальман (Jean Baptiste Lallement), дырэктар па інжынірынгу ў кампаніі Canonical, прадставіў праект Myna, які развівае прыкладанне распазнання прамовы, якое маюць намер выкарыстоўваць для арганізацыі галасавога ўводу і распазнанні каманд на натуральнай мове ў Ubuntu Desktop. Праект распаўсюджваецца пад ліцэнзіяй GPLv3, але ў рэпазітары пакуль прысутнічаюць толькі накіды з апісаннем модульнай архітэктуры праекта і яго інтэграцыі з Ubuntu.

Да выпуску Ubuntu 26.10 дадатак плануюць давесці да прыдатнасці да галасавога ўводу тэксту. Сеанс працы з дадаткам зводзіцца да актывацыі праз клавіятурную камбінацыю, дыктоўкі ўслых і ўстаўкі распазнанага тэксту ў бягучае прыкладанне праз сімуляцыю клавіятурнага ўводу па меры яго вымаўлення. Падчас уключэння мікрафона ў панэлі будзе паказвацца спецыяльны індыкатар.
У якасці базавага тэстоўванага асяроддзя заяўлены GNOME на базе Wayland, але прыкладанне першапачаткова праектуецца з разлікам магчымасці адаптацыі для розных асяроддзяў працоўнага стала.

Для распазнання ў Myna будзе задзейнічана AI-мадэль, выкананая лакальна. Сярод патрабаванняў да дадатку: магчымасць працы без падлучэння да інтэрнэту; уключэнне мікрафона толькі пасля відавочнай актывацыі рэжыму дыктоўкі гарачай клавішай; апрацоўка гуку ў памяці, ачышчанай пасля кожнага выкарыстання; забарона на перадачу запісаў гуку ў вонкавыя сэрвісы.

Кампаненты для распазнання прамовы, узаемадзеянні з карыстачом, кіраванні дыктоўкай і падстаноўкі тэксту развіваюцца ў форме модуляў.
Асяроддзе для выканання AI-мадэляў будзе аформлена ў выглядзе snap-пакета. У якасці магчымых мадэляў для распазнання згадваюцца Whisper, Parakeet, NemoTron і Qwen3-ASR.
Сэрвіс кіравання дыктоўкай адсочвае націск гарачай клавішы, актывуе мікрафон, звяртаецца праз API да AI-мадэлі ў snap-пакеце, перанакіроўвае ў яе гукавы струмень з гукавога сэрвісу і каардынуе струмені дадзеных.

Гукавы сэрвіс звяртаецца да гукавой прылады, як наўпрост, так і праз гукавыя серверы PulseAudio ці PipeWire, душыць шум і выраўноўвае гучнасць. Генераваны мадэллю тэкст перадаецца ў модуль постапрацоўкі для чысткі, нармалізацыі, фарматавання і расстаноўкі знакаў прыпынку. Фінальны тэкст падстаўляецца ў дадатак праз падстаноўку ўводу, напрыклад, праз Wayland-пратакол input-method ці IBus.

Пасля стабілізацыі пачатковай функцыянальнасці не выключаецца рэалізацыя такіх магчымасцяў, як праца ў ролі галасавога асістэнта, выкананне галасавых каманд, галасавое кіраванне працоўным сталом і пераклад дыктуемага тэксту з аўтаматычным распазнаннем мовы.



Крыніца: opennet.ru
Купіць надзейны хостынг для сайтаў з абаронай ад DDoS, VPS VDS серверы 🔥 Купіць надзейны хостынг для сайтаў з абаронай ад DDoS, VPS VDS серверы | ProHoster