Jean-Baptiste Lallement, Direktur Teknik ing Canonical, nampilake proyek Myna, sing lagi ngembangake aplikasi pangenalan wicara sing dimaksudake kanggo digunakake kanggo ngatur input swara lan ngenali prentah ing basa alami ing Ubuntu Desktop. Proyèk iki disebaraké miturut lisensi GPLv3, nanging repositori saiki mung isiné sketsa sing njlèntrèhaké arsitektur modular proyèk lan integrasiné karo Ubuntu.
Kanggo dirilis Ubuntu Tanggal 26.10 Oktober, aplikasi iki direncanakake bakal kompatibel karo input swara. Sesi panganggo kalebu ngaktifake aplikasi liwat trabasan keyboard, ndhikte banter, lan nempelake teks sing dikenali menyang aplikasi saiki liwat input keyboard simulasi nalika sampeyan ngomong. Indikator khusus bakal katon ing panel nalika mikropon diaktifake.
Lingkungan uji coba dhasar kasebut diarani GNOME adhedhasar Wayland, nanging aplikasi kasebut dirancang wiwit wiwitan supaya bisa diadaptasi karo macem-macem lingkungan desktop.
Myna bakal nggunakake model AI sing mlaku sacara lokal kanggo pangenalan wicara. Syarat kanggo aplikasi kasebut kalebu: kemampuan kanggo beroperasi offline; ngaktifake mikropon mung sawise ngaktifake mode dikte kanthi eksplisit nganggo tombol pintas; ngolah audio ing memori, sing bakal dibusak sawise saben panggunaan; lan nglarang transfer rekaman audio menyang layanan eksternal.
Komponen kanggo pangenalan wicara, interaksi pangguna, manajemen dikte, lan substitusi teks dikembangake awujud modul.
Lingkungan eksekusi model AI bakal dikemas minangka snapshot. Whisper, Parakeet, NemoTron, lan Qwen3-ASR kasebut minangka model pangenalan sing bisa ditindakake.
Layanan manajemen dikte ngawasi penekanan tombol pintas, ngaktifake mikrofon, ngakses model AI ing paket snap liwat API, nerusake aliran audio saka layanan audio menyang layanan kasebut, lan koordinasi aliran data.
Layanan audio ngakses piranti audio, kanthi langsung utawa liwat server audio PulseAudio utawa PipeWire, nyuda gangguan lan nyeimbangake volume. Teks sing digawe dening model kasebut dikirim menyang modul pasca-pemrosesan kanggo reresik, normalisasi, format, lan tanda baca. Teks pungkasan dilebokake menyang aplikasi liwat substitusi input, contone, liwat protokol metode input Wayland utawa IBus.
Sawise fungsi awal wis stabil, implementasine kemampuan kayata tumindak minangka asisten swara, nglakokake printah swara, kontrol swara desktop, lan terjemahan teks sing didikte nganggo pangenalan basa otomatis ora bisa dikesampingake.


Source: opennet.ru
