🥇ಕ್ಯಾನೊನಿಕಲ್ ಮೈನಾ ಸ್ಪೀಚ್ ರೆಕಗ್ನಿಷನ್ ಸಿಸ್ಟಮ್ ಅನ್ನು ಅನಾವರಣಗೊಳಿಸಿದೆ

ಕ್ಯಾನೊನಿಕಲ್‌ನ ಎಂಜಿನಿಯರಿಂಗ್ ನಿರ್ದೇಶಕ ಜೀನ್-ಬ್ಯಾಪ್ಟಿಸ್ಟ್ ಲ್ಯಾಲೆಮೆಂಟ್, ಮೈನಾ ಯೋಜನೆಯನ್ನು ಪ್ರಸ್ತುತಪಡಿಸಿದರು, ಇದು ಧ್ವನಿ ಇನ್‌ಪುಟ್ ಅನ್ನು ಸಂಘಟಿಸಲು ಮತ್ತು ನೈಸರ್ಗಿಕ ಭಾಷೆಯಲ್ಲಿ ಆಜ್ಞೆಗಳನ್ನು ಗುರುತಿಸಲು ಬಳಸಬೇಕಾದ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತಿದೆ. Ubuntu ಡೆಸ್ಕ್‌ಟಾಪ್. ಈ ಯೋಜನೆಯನ್ನು GPLv3 ಪರವಾನಗಿಯ ಅಡಿಯಲ್ಲಿ ವಿತರಿಸಲಾಗಿದೆ, ಆದರೆ ರೆಪೊಸಿಟರಿಯು ಪ್ರಸ್ತುತ ಯೋಜನೆಯ ಮಾಡ್ಯುಲರ್ ವಾಸ್ತುಶಿಲ್ಪ ಮತ್ತು ಅದರ ಏಕೀಕರಣವನ್ನು ವಿವರಿಸುವ ರೇಖಾಚಿತ್ರಗಳನ್ನು ಮಾತ್ರ ಒಳಗೊಂಡಿದೆ Ubuntu.

ಬಿಡುಗಡೆಗಾಗಿ Ubuntu ಅಕ್ಟೋಬರ್ 26.10 ರಂದು, ಅಪ್ಲಿಕೇಶನ್ ಧ್ವನಿ ಇನ್‌ಪುಟ್‌ನೊಂದಿಗೆ ಹೊಂದಿಕೊಳ್ಳುವಂತೆ ಯೋಜಿಸಲಾಗಿದೆ. ಬಳಕೆದಾರ ಸೆಷನ್ ಕೀಬೋರ್ಡ್ ಶಾರ್ಟ್‌ಕಟ್ ಮೂಲಕ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುವುದು, ಗಟ್ಟಿಯಾಗಿ ನಿರ್ದೇಶಿಸುವುದು ಮತ್ತು ನೀವು ಮಾತನಾಡುವಾಗ ಸಿಮ್ಯುಲೇಟೆಡ್ ಕೀಬೋರ್ಡ್ ಇನ್‌ಪುಟ್ ಮೂಲಕ ಗುರುತಿಸಲಾದ ಪಠ್ಯವನ್ನು ಪ್ರಸ್ತುತ ಅಪ್ಲಿಕೇಶನ್‌ಗೆ ಅಂಟಿಸುವುದನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ. ಮೈಕ್ರೊಫೋನ್ ಸಕ್ರಿಯಗೊಂಡಾಗ ಫಲಕದಲ್ಲಿ ವಿಶೇಷ ಸೂಚಕ ಕಾಣಿಸಿಕೊಳ್ಳುತ್ತದೆ.
ಮೂಲ ಪರೀಕ್ಷಾ ಪರಿಸರವನ್ನು ವೇಲ್ಯಾಂಡ್ ಆಧಾರಿತ GNOME ಎಂದು ಹೇಳಲಾಗಿದೆ, ಆದರೆ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಆರಂಭದಿಂದಲೂ ವಿವಿಧ ಡೆಸ್ಕ್‌ಟಾಪ್ ಪರಿಸರಗಳಿಗೆ ಹೊಂದಿಕೊಳ್ಳುವಂತೆ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ.

ಮೈನಾ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆಗಾಗಿ ಸ್ಥಳೀಯವಾಗಿ ಚಾಲನೆಯಲ್ಲಿರುವ AI ಮಾದರಿಯನ್ನು ಬಳಸುತ್ತದೆ. ಅಪ್ಲಿಕೇಶನ್‌ಗೆ ಅವಶ್ಯಕತೆಗಳು ಇವುಗಳನ್ನು ಒಳಗೊಂಡಿವೆ: ಆಫ್‌ಲೈನ್‌ನಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಸಾಮರ್ಥ್ಯ; ಹಾಟ್‌ಕೀ ಮೂಲಕ ಡಿಕ್ಟೇಷನ್ ಮೋಡ್ ಅನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ಸಕ್ರಿಯಗೊಳಿಸಿದ ನಂತರ ಮಾತ್ರ ಮೈಕ್ರೊಫೋನ್ ಅನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುವುದು; ಮೆಮೊರಿಯಲ್ಲಿ ಆಡಿಯೊವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವುದು, ಇದನ್ನು ಪ್ರತಿ ಬಳಕೆಯ ನಂತರ ತೆರವುಗೊಳಿಸಲಾಗುತ್ತದೆ; ಮತ್ತು ಆಡಿಯೊ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳನ್ನು ಬಾಹ್ಯ ಸೇವೆಗಳಿಗೆ ವರ್ಗಾಯಿಸುವುದನ್ನು ನಿಷೇಧಿಸುವುದು.

ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ, ಬಳಕೆದಾರರ ಸಂವಹನ, ಡಿಕ್ಟೇಷನ್ ನಿರ್ವಹಣೆ ಮತ್ತು ಪಠ್ಯ ಪರ್ಯಾಯಕ್ಕಾಗಿ ಘಟಕಗಳನ್ನು ಮಾಡ್ಯೂಲ್‌ಗಳ ರೂಪದಲ್ಲಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗಿದೆ.
AI ಮಾದರಿ ಕಾರ್ಯಗತಗೊಳಿಸುವ ಪರಿಸರವನ್ನು ಸ್ನ್ಯಾಪ್‌ಶಾಟ್‌ನಂತೆ ಪ್ಯಾಕ್ ಮಾಡಲಾಗುತ್ತದೆ. ವಿಸ್ಪರ್, ಪ್ಯಾರಕೀಟ್, ನೆಮೊಟ್ರಾನ್ ಮತ್ತು ಕ್ವೆನ್3-ASR ಗಳನ್ನು ಸಂಭವನೀಯ ಗುರುತಿಸುವಿಕೆ ಮಾದರಿಗಳಾಗಿ ಉಲ್ಲೇಖಿಸಲಾಗಿದೆ.
ಡಿಕ್ಟೇಷನ್ ಮ್ಯಾನೇಜ್‌ಮೆಂಟ್ ಸೇವೆಯು ಹಾಟ್‌ಕೀ ಪ್ರೆಸ್‌ಗಳನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡುತ್ತದೆ, ಮೈಕ್ರೊಫೋನ್ ಅನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುತ್ತದೆ, API ಮೂಲಕ ಸ್ನ್ಯಾಪ್ ಪ್ಯಾಕೇಜ್‌ನಲ್ಲಿರುವ AI ಮಾದರಿಯನ್ನು ಪ್ರವೇಶಿಸುತ್ತದೆ, ಆಡಿಯೊ ಸೇವೆಯಿಂದ ಅದಕ್ಕೆ ಆಡಿಯೊ ಸ್ಟ್ರೀಮ್ ಅನ್ನು ಫಾರ್ವರ್ಡ್ ಮಾಡುತ್ತದೆ ಮತ್ತು ಡೇಟಾ ಹರಿವುಗಳನ್ನು ಸಂಘಟಿಸುತ್ತದೆ.

ಆಡಿಯೋ ಸೇವೆಯು ಆಡಿಯೋ ಸಾಧನವನ್ನು ನೇರವಾಗಿ ಅಥವಾ PulseAudio ಅಥವಾ PipeWire ಆಡಿಯೋ ಸರ್ವರ್‌ಗಳ ಮೂಲಕ ಪ್ರವೇಶಿಸುತ್ತದೆ, ಶಬ್ದವನ್ನು ನಿಗ್ರಹಿಸುತ್ತದೆ ಮತ್ತು ಪರಿಮಾಣವನ್ನು ಸಮಗೊಳಿಸುತ್ತದೆ. ಮಾದರಿಯಿಂದ ಉತ್ಪತ್ತಿಯಾಗುವ ಪಠ್ಯವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸುವಿಕೆ, ಸಾಮಾನ್ಯೀಕರಣ, ಫಾರ್ಮ್ಯಾಟಿಂಗ್ ಮತ್ತು ವಿರಾಮಚಿಹ್ನೆಗಾಗಿ ಪೋಸ್ಟ್-ಪ್ರೊಸೆಸಿಂಗ್ ಮಾಡ್ಯೂಲ್‌ಗೆ ರವಾನಿಸಲಾಗುತ್ತದೆ. ಅಂತಿಮ ಪಠ್ಯವನ್ನು ಇನ್‌ಪುಟ್ ಪರ್ಯಾಯದ ಮೂಲಕ ಅಪ್ಲಿಕೇಶನ್‌ಗೆ ಸೇರಿಸಲಾಗುತ್ತದೆ, ಉದಾಹರಣೆಗೆ, ವೇಲ್ಯಾಂಡ್ ಇನ್‌ಪುಟ್-ವಿಧಾನ ಪ್ರೋಟೋಕಾಲ್ ಅಥವಾ IBus ಮೂಲಕ.

ಆರಂಭಿಕ ಕಾರ್ಯವನ್ನು ಸ್ಥಿರಗೊಳಿಸಿದ ನಂತರ, ಧ್ವನಿ ಸಹಾಯಕರಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವುದು, ಧ್ವನಿ ಆಜ್ಞೆಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುವುದು, ಡೆಸ್ಕ್‌ಟಾಪ್‌ನ ಧ್ವನಿ ನಿಯಂತ್ರಣ ಮತ್ತು ಸ್ವಯಂಚಾಲಿತ ಭಾಷಾ ಗುರುತಿಸುವಿಕೆಯೊಂದಿಗೆ ನಿರ್ದೇಶಿಸಿದ ಪಠ್ಯದ ಅನುವಾದದಂತಹ ಸಾಮರ್ಥ್ಯಗಳ ಅನುಷ್ಠಾನವನ್ನು ತಳ್ಳಿಹಾಕಲಾಗುವುದಿಲ್ಲ.

ಮೂಲ: opennet.ru

ಕ್ಯಾನೊನಿಕಲ್ ಮೈನಾ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ವ್ಯವಸ್ಥೆಯನ್ನು ಅನಾವರಣಗೊಳಿಸಿದೆ