🥇Canonical представила Myna — локальную систему преобразования речи в текст для Ubuntu سطح المكتب

Canonical представила проект مينا — новую систему преобразования речи в текст для Ubuntu Desktop. Проект нацелен на встроенную диктовку: пользователь нажимает горячую клавишу, говорит, а распознанный текст появляется в активном приложении. В анонсе подчёркивается, что Myna должна ощущаться как естественная часть рабочего стола Ubuntu и при этом работать с учётом приватности пользователя. Список поддерживаемых языков ввода на момент публикации новости не оглашён.

Первая цель проекта — Ubuntu 26.10. На этом этапе Canonical не пытается сделать полноценного голосового ассистента или систему управления рабочим столом голосом. Разработчики намеренно ограничили область первой версии базовой, надёжной диктовкой: нажать сочетание клавиш, произнести текст и получить результат в текущем поле ввода. Первичная проверяемая среда — Ubuntu Desktop на Wayland с GNOME, но архитектуру планируют оставить достаточно открытой для будущей поддержки других окружений.

Myna рассчитана на локальное распознавание речи. После установки необходимых моделей интернет-соединение для работы диктовки не требуется, микрофон должен использоваться только после явной активации пользователем, аудио обрабатывается в памяти и затем отбрасывается, а записи не отправляются во внешние сервисы. В проектной спецификации также указано, что решение должно избегать сохранения аудио по умолчанию и не должно незаметно переключаться на облачный сервис.

Код и документация Myna опубликованы в репозитории Canonical на GitHub جيثب:. Проект описан как лёгкое приложение speech-to-text для Ubuntu Desktop и распространяется под лицензией GPL-3.0. При этом проект находится на ранней стадии: в репозитории пока нет опубликованных релизов, а архитектурная спецификация имеет статус Proposed.

Основные функции и особенности Myna

Push-to-talk диктовка. Пользователь удерживает настраиваемую горячую клавишу, говорит, а система вставляет распознанный текст в выбранное поле ввода. Диктовка завершается после отпускания клавиши.
Локальное распознавание речи. Распознавание выполняется на машине пользователя через локальный inference-стек. Это снижает зависимость от облака и позволяет работать без сети после установки моделей.
Приватная обработка аудио. Микрофон активируется только во время пользовательской сессии диктовки. Аудио не должно записываться на диск по умолчанию, используется ограниченный буфер в памяти, который очищается после завершения сессии.
Визуальный индикатор активности. Во время записи и транскрибации пользователь должен видеть понятный индикатор состояния. В спецификации упоминаются состояния вроде Recording, Transcribing, Finalizing и Error.
Вставка только стабильного текста. В первой реализации промежуточные гипотезы распознавания не должны подставляться прямо в приложение. В целевое поле отправляется только подтверждённый итоговый текст.
Постобработка текста. Сырая расшифровка может проходить нормализацию, расстановку пунктуации, капитализацию, форматирование и преобразование устных форм в письменные, например “twenty two” → “22”.
Выбор языка диктовки. Система должна поддерживать настраиваемый язык диктовки, по умолчанию ориентируясь на язык интерфейса пользователя, если для него доступна подходящая модель.
Профили качества модели. В спецификации предусмотрены разные профили моделей: лёгкий вариант с меньшим потреблением ресурсов, сбалансированный профиль по умолчанию и более качественный, но более тяжёлый вариант.
Безопасная работа с фокусом ввода. Цель для вставки текста выбирается в начале сессии. Если фокус окна меняется во время диктовки, система не должна молча отправлять текст в другое приложение.
Блокировка в защищённых полях. Диктовка должна блокироваться в password-полях, окнах аутентификации и других защищённых местах, если приложение или тулкит позволяют это определить.
Интеграция с Wayland/GNOME. Первая версия ориентирована на Wayland и GNOME. Для начальной вставки текста рассматривается IBus, а в будущем планируется более нативный Wayland-путь через input-method/text-input протоколы.
Настройки пользователя. В планируемом интерфейсе настроек должны быть включение/отключение STT, выбор горячей клавиши, языка диктовки, микрофона, профиля модели, параметров постобработки и индикатора активности.

В первой итерации за рамками проекта остаются пробуждение по ключевой фразе, постоянное фоновое прослушивание, облачное распознавание, голосовой ассистент, голосовые команды, управление рабочим столом, перевод речи, определение говорящего, автоматическое определение языка и история диктовок. Иными словами, Canonical начинает не с “AI-ассистента”, а с более приземлённой функции: локального голосового ввода текста в обычные приложения Ubuntu.

المصدر: linux.org.ru

كشفت شركة كانونيكال عن نظام مينا، وهو نظام محلي لتحويل الكلام إلى نص لـ Ubuntu الحاسوب