Жан-Батист Лалеман, директор по инженерство в Canonical, представи проекта Myna, който разработва приложение за разпознаване на реч, предназначено за организиране на гласов вход и разпознаване на команди на естествен език. Ubuntu Десктоп. Проектът се разпространява под лиценз GPLv3, но хранилището в момента съдържа само скици, описващи модулната архитектура на проекта и неговата интеграция с Ubuntu.
За освобождаване Ubuntu Планира се приложението да бъде съвместимо с гласово въвеждане на 26.10 октомври. Потребителската сесия се състои от активиране на приложението чрез клавишна комбинация, диктуване на глас и поставяне на разпознатия текст в текущото приложение чрез симулирано въвеждане от клавиатура, докато говорите. Специален индикатор ще се появи в панела, когато микрофонът е активиран.
Базовата тестова среда е посочена като GNOME, базирана на Wayland, но приложението е проектирано от самото начало да бъде адаптивно към различни десктоп среди.
Myna ще използва локално работещ AI модел за разпознаване на реч. Изискванията към приложението включват: възможност за работа офлайн; активиране на микрофона само след изрично активиране на режим на диктовка с клавишна комбинация; обработка на аудио в паметта, която се изчиства след всяка употреба; и забрана за прехвърляне на аудио записи към външни услуги.
Компоненти за разпознаване на реч, взаимодействие с потребителя, управление на диктовки и заместване на текст са разработени под формата на модули.
Средата за изпълнение на AI модел ще бъде пакетирана като snapshot. Whisper, Parakeet, NemoTron и Qwen3-ASR са споменати като възможни модели за разпознаване.
Услугата за управление на диктовки следи натисканията на клавишни комбинации, активира микрофона, осъществява достъп до AI модела в пакета Snap чрез API, препраща аудио потока от аудио услугата към нея и координира потоците от данни.
Аудио услугата осъществява достъп до аудио устройството, директно или чрез аудио сървърите PulseAudio или PipeWire, потиска шума и изравнява силата на звука. Текстът, генериран от модела, се предава на модула за последваща обработка за почистване, нормализиране, форматиране и пунктуация. Крайният текст се вмъква в приложението чрез заместване на входа, например чрез протокола за входен метод на Wayland или IBus.
След като първоначалната функционалност бъде стабилизирана, не може да се изключи внедряването на възможности като гласов асистент, изпълнение на гласови команди, гласово управление на работния плот и превод на диктуван текст с автоматично разпознаване на езика.


Източник: opennet.ru
