Jean-Baptiste Lallement-ek, Canonical-eko Ingeniaritza zuzendariak, Myna proiektua aurkeztu zuen, ahots-sarrera antolatzeko eta hizkuntza naturalean komandoak ezagutzeko ahots-ezagutza aplikazio bat garatzen ari dena. Ubuntu Mahaigaina. Proiektua GPLv3 lizentziapean banatzen da, baina biltegiak proiektuaren arkitektura modularra eta honekin duen integrazioa deskribatzen duten zirriborroak baino ez ditu. Ubuntu.
Askatzeko Ubuntu Urriaren 26.10an, aplikazioa ahots-sarrerarekin bateragarria izatea aurreikusten da. Erabiltzaile-saio batek aplikazioa teklatu-lasterbide baten bidez aktibatzea, ozen diktatzea eta ezagutzen den testua uneko aplikazioan itsatsitzea dakar, hitz egiten duzun bitartean teklatu simulatuaren bidez. Adierazle berezi bat agertuko da panelean mikrofonoa aktibatzen denean.
Oinarrizko probak egiteko ingurunea Wayland-en oinarritutako GNOME dela esaten da, baina aplikazioa hasieratik diseinatuta dago mahaigaineko ingurune desberdinetara egokitzeko.
Mynak tokiko IA eredu bat erabiliko du ahots-ezagutzarako. Aplikazioaren eskakizunen artean daude: lineaz kanpo funtzionatzeko gaitasuna; mikrofonoa diktaketa modua tekla azkar batekin aktibatu ondoren bakarrik gaitzea; memorian audioa prozesatzea, erabili ondoren garbitzen dena; eta audio grabazioak kanpoko zerbitzuetara transferitzea debekatzea.
Ahots-ezagutzarako, erabiltzailearen interakziorako, diktaketa kudeatzeko eta testu-ordezkapenerako osagaiak modulu moduan garatu dira.
AI ereduaren exekuzio ingurunea argazki gisa paketatuko da. Whisper, Parakeet, NemoTron eta Qwen3-ASR aipatzen dira aitortze eredu posible gisa.
Diktaketa kudeatzeko zerbitzuak laster-teklen sakatzeak kontrolatzen ditu, mikrofonoa aktibatzen du, snap paketeko IA eredua atzitzen du API baten bidez, audio-jarioa audio-zerbitzutik bertara birbidaltzen du eta datu-fluxuak koordinatzen ditu.
Audio zerbitzuak audio gailura sartzen da, zuzenean edo PulseAudio edo PipeWire audio zerbitzarien bidez, zarata kentzen du eta bolumena berdintzen du. Modeloak sortutako testua post-prozesatzeko modulura pasatzen da garbiketa, normalizazioa, formatua eta puntuazioa egiteko. Azken testua aplikazioan txertatzen da sarrera ordezkapenaren bidez, adibidez, Wayland sarrera-metodoaren protokoloaren edo IBus-en bidez.
Hasierako funtzionaltasuna egonkortu ondoren, ezin da baztertu ahots-laguntzaile gisa jardutea, ahots-komandoak exekutatzea, mahaigainaren ahots-kontrola eta hizkuntza-ezagutza automatikoarekin diktatutako testua itzultzea bezalako gaitasunen inplementazioa.


Iturria: opennet.ru
