Jean-Baptiste Lallement, direkteur fan technyk by Canonical, presintearre it Myna-projekt, dat in spraakherkenningsapplikaasje ûntwikkelt dy't bedoeld is foar it organisearjen fan stimynfier en it herkennen fan kommando's yn natuerlike taal yn Ubuntu Desktop. It projekt wurdt ferspraat ûnder de GPLv3-lisinsje, mar de repository befettet op it stuit allinich sketsen dy't de modulêre arsjitektuer fan it projekt en de yntegraasje dêrfan mei beskriuwe. Ubuntu.
Foar frijlitting Ubuntu Op 26.10 oktober sil de app kompatibel wêze mei stimynfier. In brûkerssesje bestiet út it aktivearjen fan 'e app fia in toetseboerdfluchtoets, it lûdop diktearjen en it plakken fan 'e erkende tekst yn 'e hjoeddeiske app fia simulearre toetseboerdynfier wylst jo prate. In spesjale yndikator sil ferskine yn it paniel as de mikrofoan aktivearre is.
De basis testomjouwing wurdt oanjûn as GNOME basearre op Wayland, mar de applikaasje is fan it begjin ôf ûntworpen om oanpasber te wêzen oan ferskate buroblêdomjouwings.
Myna sil in lokaal rinnende AI-model brûke foar spraakherkenning. Easken foar de app omfetsje: de mooglikheid om offline te operearjen; it ynskeakeljen fan de mikrofoan allinich nei it eksplisyt aktivearjen fan de dikteemodus mei in fluchtoets; it ferwurkjen fan audio yn it ûnthâld, dat nei elk gebrûk wiske wurdt; en it ferbieden fan de oerdracht fan audio-opnamen nei eksterne tsjinsten.
Komponinten foar spraakherkenning, brûkersynteraksje, dikteebehear en tekstferfanging wurde ûntwikkele yn 'e foarm fan modules.
De útfieringsomjouwing fan it AI-model sil as in snapshot ynpakt wurde. Whisper, Parakeet, NemoTron, en Qwen3-ASR wurde neamd as mooglike erkenningsmodellen.
De dikteebeheartsjinst kontrolearret it oandrukken fan fluchtoetsen, aktivearret de mikrofoan, krijt tagong ta it AI-model yn it snap-pakket fia in API, stjoert de audiostream fan 'e audiotsjinst dernei troch en koördinearret gegevensstreamen.
De audiotsjinst krijt tagong ta it audioapparaat, direkt of fia de PulseAudio- of PipeWire-audioservers, ûnderdrukt lûd en makket it folume lyk. De tekst dy't troch it model generearre wurdt, wurdt trochjûn oan de postferwurkingsmodule foar skjinmeitsjen, normalisaasje, opmaak en ynterpunksje. De definitive tekst wurdt yn 'e applikaasje ynfoege fia ynfierferfanging, bygelyks fia it Wayland-ynfiermetoadeprotokol of IBus.
Sadree't de earste funksjonaliteit stabilisearre is, kin de ymplemintaasje fan mooglikheden lykas it fungearjen as in stimassistent, it útfieren fan stimkommando's, stimkontrôle fan it buroblêd en it oersetten fan diktearre tekst mei automatyske taalherkenning net útsletten wurde.


Boarne: opennet.ru
