Canonical-ը ներկայացրեց Myna-ն՝ տեղական խոսքի տեքստային համակարգը… Ubuntu Desktop

Canonical-ը ներկայացրեց նախագիծը Մինա - խոսքը տեքստի փոխակերպման նոր համակարգ Ubuntu Աշխատասեղան։ Նախագիծը նպատակ ունի ապահովել ինտեգրված թելադրանք. օգտատերը սեղմում է կարճ ստեղն, խոսում է, և ճանաչված տեքստը հայտնվում է ակտիվ ծրագրում։ Հայտարարության մեջ ընդգծվում է, որ Myna-ն պետք է զգացվի որպես աշխատասեղանի բնական մաս։ Ubuntu և միևնույն ժամանակ աշխատել՝ հաշվի առնելով օգտատիրոջ գաղտնիությունը։ Հրապարակման պահին աջակցվող մուտքագրման լեզուների ցանկը չի հայտարարվել։

Նախագծի առաջին նպատակն է Ubuntu 26.10Այս փուլում Canonical-ը չի փորձում մշակել լիարժեք ձայնային օգնական կամ ձայնային կառավարման համակարգ։ Մշակողները դիտավորյալ սահմանափակել են առաջին տարբերակի շրջանակը հիմնական, հուսալի թելադրմամբ՝ ստեղների համադրության սեղմում, տեքստի արտասանություն և արդյունքի ստացում ընթացիկ մուտքագրման դաշտում։ Փորձարկվող հիմնական միջավայրն է Ubuntu Աշխատասեղան Wayland-ում՝ GNOME-ով, սակայն ճարտարապետությունը նախատեսվում է թողնել բավականաչափ բաց՝ ապագայում այլ միջավայրեր աջակցելու համար։

Myna-ն նախատեսված է տեղական խոսքի ճանաչման համար: Անհրաժեշտ մոդելները տեղադրելուց հետո, թելադրումը ինտերնետ կապ չի պահանջում: Միկրոֆոնը պետք է օգտագործվի միայն օգտատիրոջ կողմից հստակ ակտիվացումից հետո: Աուդիոն մշակվում է հիշողության մեջ, այնուհետև ջնջվում, և ձայնագրությունները չեն ուղարկվում արտաքին ծառայություններ: Դիզայնի տեխնիկական բնութագրում նաև նշվում է, որ լուծումը պետք է խուսափի աուդիոն լռելյայնորեն պահելուց և չպետք է անխափան անցնի ամպային ծառայության:

Myna կոդը և փաստաթղթերը հրապարակված են Canonical պահոցում՝ GitHubՆախագիծը նկարագրվում է որպես թեթև խոսքից տեքստ փոխակերպող հավելված՝ Ubuntu Desktop-ը տարածվում է GPL-3.0 լիցենզիայով։ Սակայն նախագիծը գտնվում է իր վաղ փուլում. պահոցում դեռևս հրապարակված թողարկումներ չկան, իսկ ճարտարապետական ​​​​բնութագիրը նշված է որպես առաջարկվող։

Myna-ի հիմնական առանձնահատկությունները և գործառույթները

  • Սեղմիր-խոսիր թելադրանքով։ Օգտատերը սեղմած է պահում կարգավորելի ստեղնը, խոսում է, և համակարգը մուտքագրում է ճանաչված տեքստը ընտրված մուտքագրման դաշտում: Թելադրումն ավարտվում է, երբ ստեղնը բաց է թողնվում:

  • Տեղական խոսքի ճանաչում։ Ճանաչումը կատարվում է օգտատիրոջ մեքենայի վրա՝ տեղական եզրակացության կույտի միջոցով։ Սա նվազեցնում է ամպային կախվածությունը և թույլ է տալիս մոդելի տեղադրումից հետո աշխատել անցանց ռեժիմով։

  • Մասնավոր աուդիո մշակում։ Միկրոֆոնը ակտիվանում է միայն օգտատիրոջ թելադրման սեսիայի ընթացքում: Աուդիոն լռելյայնորեն չի գրանցվում սկավառակի վրա. օգտագործվում է սահմանափակ հիշողության բուֆեր, որը մաքրվում է սեսիայի ավարտից հետո:

  • Տեսողական ակտիվության ցուցիչ։ Ձայնագրման և տառադարձման ընթացքում օգտատերը պետք է տեսնի կարգավիճակի հստակ ցուցիչ: Տեխնիկական բնութագրում նշվում են այնպիսի վիճակներ, ինչպիսիք են՝ Ձայնագրում, Տառադարձում, Ավարտում և Սխալ:

  • Տեղադրեք միայն կայուն տեքստ։ Առաջին իրականացման մեջ միջանկյալ ճանաչման վարկածները չպետք է անմիջապես ներմուծվեն ծրագրում։ Միայն հաստատված վերջնական տեքստն է ուղարկվում նպատակային դաշտ։

  • Տեքստի հետմշակում։ Հում տեքստը կարող է ենթարկվել նորմալացման, կետադրության, մեծատառերի ավելացման, ձևաչափման և բանավոր ձևերի գրավոր ձևերի փոխակերպման, օրինակ՝ «քսաներկու» → «22»:

  • Թելադրման լեզվի ընտրություն։ Համակարգը պետք է աջակցի կարգավորելի թելադրման լեզու՝ լռելյայնորեն ընտրելով օգտագործողի ինտերֆեյսի լեզուն, եթե դրա համար հասանելի է համապատասխան մոդել։

  • Մոդելի որակի պրոֆիլներ: Տեխնիկական բնութագիրը ներառում է տարբեր մոդելային պրոֆիլներ՝ թեթև տարբերակ՝ ավելի ցածր ռեսուրսների սպառմամբ, հավասարակշռված լռելյայն պրոֆիլ և ավելի բարձր որակի, բայց ավելի ծանր տարբերակ։

  • Անվտանգ աշխատանք՝ մուտքային տվյալների կենտրոնացմամբ։ Տեքստի ներմուծման թիրախը ընտրվում է սեսիայի սկզբում: Եթե պատուհանի ֆոկուսը փոխվում է թելադրման ընթացքում, համակարգը չպետք է տեքստը լուռ ուղարկի մեկ այլ ծրագրի:

  • Պաշտպանված դաշտերում արգելափակում։ Թելադրումը պետք է արգելափակվի գաղտնաբառի դաշտերում, նույնականացման պատուհաններում և այլ անվտանգ տարածքներում, եթե ծրագիրը կամ գործիքակազմը թույլ է տալիս դա որոշել։

  • Ինտեգրացիա Wayland/GNOME-ի հետ։ Առաջին տարբերակը նախատեսված է Wayland-ի և GNOME-ի համար: IBus-ը դիտարկվում է սկզբնական տեքստի ներմուծման համար, իսկ ապագայում նախատեսվում է ավելի բնիկ Wayland մոտեցում՝ մուտքագրման մեթոդի/տեքստի ներմուծման արձանագրությունների միջոցով:

  • Օգտատիրոջ կարգավորումները։ Նախատեսված կարգավորումների ինտերֆեյսը պետք է ներառի STT-ի միացում/անջատում, ստեղնի, թելադրման լեզվի, միկրոֆոնի, մոդելի պրոֆիլի ընտրություն, հետմշակման պարամետրեր և ակտիվության ցուցիչ։

Նախագծի առաջին տարբերակը բաց է թողնում բանալի բառի վրա արթնացման գործառույթը, մշտական ​​ֆոնային լսողությունը, ամպային ճանաչումը, ձայնային օգնականը, ձայնային հրամանները, աշխատասեղանի կառավարումը, խոսքի թարգմանությունը, խոսողի հայտնաբերումը, լեզվի ավտոմատ հայտնաբերումը և թելադրման պատմությունը: Այլ կերպ ասած, Canonical-ը սկսում է ոչ թե «AI օգնականով», այլ ավելի գործնական գործառույթով՝ տեքստի տեղական ձայնային մուտքագրում սովորական հավելվածներում: Ubuntu.

Source: linux.org.ru

Գնեք հուսալի հոստինգ DDoS պաշտպանությամբ կայքերի, VPS VDS սերվերների համար 🔥 Գնեք հուսալի կայքերի հոսթինգ՝ DDoS պաշտպանությամբ, VPS VDS սերվերներով | ProHoster