Jean-Baptiste Lallement, Direktur Teknik di Canonical, mempresentasikan proyek Myna, yang sedang mengembangkan aplikasi pengenalan suara yang dimaksudkan untuk digunakan dalam mengatur masukan suara dan mengenali perintah dalam bahasa alami. Ubuntu Desktop. Proyek ini didistribusikan di bawah lisensi GPLv3, tetapi repositori saat ini hanya berisi sketsa yang menjelaskan arsitektur modular proyek dan integrasinya dengan Ubuntu.
Untuk dirilis Ubuntu Pada tanggal 26.10 Oktober, aplikasi ini direncanakan akan kompatibel dengan input suara. Sesi pengguna terdiri dari mengaktifkan aplikasi melalui pintasan keyboard, mendiktekan dengan lantang, dan menempelkan teks yang dikenali ke dalam aplikasi saat ini melalui input keyboard simulasi saat Anda berbicara. Indikator khusus akan muncul di panel saat mikrofon diaktifkan.
Lingkungan pengujian dasar dinyatakan berbasis GNOME dengan Wayland, tetapi aplikasi ini dirancang sejak awal agar dapat beradaptasi dengan berbagai lingkungan desktop.
Myna akan menggunakan model AI yang berjalan secara lokal untuk pengenalan suara. Persyaratan untuk aplikasi ini meliputi: kemampuan untuk beroperasi secara offline; mengaktifkan mikrofon hanya setelah secara eksplisit mengaktifkan mode dikte dengan tombol pintas; memproses audio dalam memori, yang akan dihapus setelah setiap penggunaan; dan melarang transfer rekaman audio ke layanan eksternal.
Komponen untuk pengenalan suara, interaksi pengguna, manajemen dikte, dan substitusi teks dikembangkan dalam bentuk modul.
Lingkungan eksekusi model AI akan dikemas sebagai snapshot. Whisper, Parakeet, NemoTron, dan Qwen3-ASR disebutkan sebagai model pengenalan yang mungkin digunakan.
Layanan manajemen dikte memantau penekanan tombol pintas, mengaktifkan mikrofon, mengakses model AI dalam paket snap melalui API, meneruskan aliran audio dari layanan audio ke sana, dan mengoordinasikan aliran data.
Layanan audio mengakses perangkat audio, baik secara langsung maupun melalui server audio PulseAudio atau PipeWire, meredam noise, dan menyamakan volume. Teks yang dihasilkan oleh model diteruskan ke modul pasca-pemrosesan untuk pembersihan, normalisasi, pemformatan, dan penambahan tanda baca. Teks akhir dimasukkan ke dalam aplikasi melalui substitusi input, misalnya, melalui protokol metode input Wayland atau IBus.
Setelah fungsi awal stabil, implementasi kemampuan seperti bertindak sebagai asisten suara, menjalankan perintah suara, kontrol suara pada desktop, dan penerjemahan teks yang didiktekan dengan pengenalan bahasa otomatis tidak dapat dikesampingkan.


Sumber: opennet.ru
