ಕ್ಯಾನೊನಿಕಲ್ನ ಎಂಜಿನಿಯರಿಂಗ್ ನಿರ್ದೇಶಕ ಜೀನ್-ಬ್ಯಾಪ್ಟಿಸ್ಟ್ ಲ್ಯಾಲೆಮೆಂಟ್, ಮೈನಾ ಯೋಜನೆಯನ್ನು ಪ್ರಸ್ತುತಪಡಿಸಿದರು, ಇದು ಧ್ವನಿ ಇನ್ಪುಟ್ ಅನ್ನು ಸಂಘಟಿಸಲು ಮತ್ತು ನೈಸರ್ಗಿಕ ಭಾಷೆಯಲ್ಲಿ ಆಜ್ಞೆಗಳನ್ನು ಗುರುತಿಸಲು ಬಳಸಬೇಕಾದ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತಿದೆ. Ubuntu ಡೆಸ್ಕ್ಟಾಪ್. ಈ ಯೋಜನೆಯನ್ನು GPLv3 ಪರವಾನಗಿಯ ಅಡಿಯಲ್ಲಿ ವಿತರಿಸಲಾಗಿದೆ, ಆದರೆ ರೆಪೊಸಿಟರಿಯು ಪ್ರಸ್ತುತ ಯೋಜನೆಯ ಮಾಡ್ಯುಲರ್ ವಾಸ್ತುಶಿಲ್ಪ ಮತ್ತು ಅದರ ಏಕೀಕರಣವನ್ನು ವಿವರಿಸುವ ರೇಖಾಚಿತ್ರಗಳನ್ನು ಮಾತ್ರ ಒಳಗೊಂಡಿದೆ Ubuntu.
ಬಿಡುಗಡೆಗಾಗಿ Ubuntu ಅಕ್ಟೋಬರ್ 26.10 ರಂದು, ಅಪ್ಲಿಕೇಶನ್ ಧ್ವನಿ ಇನ್ಪುಟ್ನೊಂದಿಗೆ ಹೊಂದಿಕೊಳ್ಳುವಂತೆ ಯೋಜಿಸಲಾಗಿದೆ. ಬಳಕೆದಾರ ಸೆಷನ್ ಕೀಬೋರ್ಡ್ ಶಾರ್ಟ್ಕಟ್ ಮೂಲಕ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುವುದು, ಗಟ್ಟಿಯಾಗಿ ನಿರ್ದೇಶಿಸುವುದು ಮತ್ತು ನೀವು ಮಾತನಾಡುವಾಗ ಸಿಮ್ಯುಲೇಟೆಡ್ ಕೀಬೋರ್ಡ್ ಇನ್ಪುಟ್ ಮೂಲಕ ಗುರುತಿಸಲಾದ ಪಠ್ಯವನ್ನು ಪ್ರಸ್ತುತ ಅಪ್ಲಿಕೇಶನ್ಗೆ ಅಂಟಿಸುವುದನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ. ಮೈಕ್ರೊಫೋನ್ ಸಕ್ರಿಯಗೊಂಡಾಗ ಫಲಕದಲ್ಲಿ ವಿಶೇಷ ಸೂಚಕ ಕಾಣಿಸಿಕೊಳ್ಳುತ್ತದೆ.
ಮೂಲ ಪರೀಕ್ಷಾ ಪರಿಸರವನ್ನು ವೇಲ್ಯಾಂಡ್ ಆಧಾರಿತ GNOME ಎಂದು ಹೇಳಲಾಗಿದೆ, ಆದರೆ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಆರಂಭದಿಂದಲೂ ವಿವಿಧ ಡೆಸ್ಕ್ಟಾಪ್ ಪರಿಸರಗಳಿಗೆ ಹೊಂದಿಕೊಳ್ಳುವಂತೆ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ.
ಮೈನಾ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆಗಾಗಿ ಸ್ಥಳೀಯವಾಗಿ ಚಾಲನೆಯಲ್ಲಿರುವ AI ಮಾದರಿಯನ್ನು ಬಳಸುತ್ತದೆ. ಅಪ್ಲಿಕೇಶನ್ಗೆ ಅವಶ್ಯಕತೆಗಳು ಇವುಗಳನ್ನು ಒಳಗೊಂಡಿವೆ: ಆಫ್ಲೈನ್ನಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಸಾಮರ್ಥ್ಯ; ಹಾಟ್ಕೀ ಮೂಲಕ ಡಿಕ್ಟೇಷನ್ ಮೋಡ್ ಅನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ಸಕ್ರಿಯಗೊಳಿಸಿದ ನಂತರ ಮಾತ್ರ ಮೈಕ್ರೊಫೋನ್ ಅನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುವುದು; ಮೆಮೊರಿಯಲ್ಲಿ ಆಡಿಯೊವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವುದು, ಇದನ್ನು ಪ್ರತಿ ಬಳಕೆಯ ನಂತರ ತೆರವುಗೊಳಿಸಲಾಗುತ್ತದೆ; ಮತ್ತು ಆಡಿಯೊ ರೆಕಾರ್ಡಿಂಗ್ಗಳನ್ನು ಬಾಹ್ಯ ಸೇವೆಗಳಿಗೆ ವರ್ಗಾಯಿಸುವುದನ್ನು ನಿಷೇಧಿಸುವುದು.
ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ, ಬಳಕೆದಾರರ ಸಂವಹನ, ಡಿಕ್ಟೇಷನ್ ನಿರ್ವಹಣೆ ಮತ್ತು ಪಠ್ಯ ಪರ್ಯಾಯಕ್ಕಾಗಿ ಘಟಕಗಳನ್ನು ಮಾಡ್ಯೂಲ್ಗಳ ರೂಪದಲ್ಲಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗಿದೆ.
AI ಮಾದರಿ ಕಾರ್ಯಗತಗೊಳಿಸುವ ಪರಿಸರವನ್ನು ಸ್ನ್ಯಾಪ್ಶಾಟ್ನಂತೆ ಪ್ಯಾಕ್ ಮಾಡಲಾಗುತ್ತದೆ. ವಿಸ್ಪರ್, ಪ್ಯಾರಕೀಟ್, ನೆಮೊಟ್ರಾನ್ ಮತ್ತು ಕ್ವೆನ್3-ASR ಗಳನ್ನು ಸಂಭವನೀಯ ಗುರುತಿಸುವಿಕೆ ಮಾದರಿಗಳಾಗಿ ಉಲ್ಲೇಖಿಸಲಾಗಿದೆ.
ಡಿಕ್ಟೇಷನ್ ಮ್ಯಾನೇಜ್ಮೆಂಟ್ ಸೇವೆಯು ಹಾಟ್ಕೀ ಪ್ರೆಸ್ಗಳನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡುತ್ತದೆ, ಮೈಕ್ರೊಫೋನ್ ಅನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುತ್ತದೆ, API ಮೂಲಕ ಸ್ನ್ಯಾಪ್ ಪ್ಯಾಕೇಜ್ನಲ್ಲಿರುವ AI ಮಾದರಿಯನ್ನು ಪ್ರವೇಶಿಸುತ್ತದೆ, ಆಡಿಯೊ ಸೇವೆಯಿಂದ ಅದಕ್ಕೆ ಆಡಿಯೊ ಸ್ಟ್ರೀಮ್ ಅನ್ನು ಫಾರ್ವರ್ಡ್ ಮಾಡುತ್ತದೆ ಮತ್ತು ಡೇಟಾ ಹರಿವುಗಳನ್ನು ಸಂಘಟಿಸುತ್ತದೆ.
ಆಡಿಯೋ ಸೇವೆಯು ಆಡಿಯೋ ಸಾಧನವನ್ನು ನೇರವಾಗಿ ಅಥವಾ PulseAudio ಅಥವಾ PipeWire ಆಡಿಯೋ ಸರ್ವರ್ಗಳ ಮೂಲಕ ಪ್ರವೇಶಿಸುತ್ತದೆ, ಶಬ್ದವನ್ನು ನಿಗ್ರಹಿಸುತ್ತದೆ ಮತ್ತು ಪರಿಮಾಣವನ್ನು ಸಮಗೊಳಿಸುತ್ತದೆ. ಮಾದರಿಯಿಂದ ಉತ್ಪತ್ತಿಯಾಗುವ ಪಠ್ಯವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸುವಿಕೆ, ಸಾಮಾನ್ಯೀಕರಣ, ಫಾರ್ಮ್ಯಾಟಿಂಗ್ ಮತ್ತು ವಿರಾಮಚಿಹ್ನೆಗಾಗಿ ಪೋಸ್ಟ್-ಪ್ರೊಸೆಸಿಂಗ್ ಮಾಡ್ಯೂಲ್ಗೆ ರವಾನಿಸಲಾಗುತ್ತದೆ. ಅಂತಿಮ ಪಠ್ಯವನ್ನು ಇನ್ಪುಟ್ ಪರ್ಯಾಯದ ಮೂಲಕ ಅಪ್ಲಿಕೇಶನ್ಗೆ ಸೇರಿಸಲಾಗುತ್ತದೆ, ಉದಾಹರಣೆಗೆ, ವೇಲ್ಯಾಂಡ್ ಇನ್ಪುಟ್-ವಿಧಾನ ಪ್ರೋಟೋಕಾಲ್ ಅಥವಾ IBus ಮೂಲಕ.
ಆರಂಭಿಕ ಕಾರ್ಯವನ್ನು ಸ್ಥಿರಗೊಳಿಸಿದ ನಂತರ, ಧ್ವನಿ ಸಹಾಯಕರಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವುದು, ಧ್ವನಿ ಆಜ್ಞೆಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುವುದು, ಡೆಸ್ಕ್ಟಾಪ್ನ ಧ್ವನಿ ನಿಯಂತ್ರಣ ಮತ್ತು ಸ್ವಯಂಚಾಲಿತ ಭಾಷಾ ಗುರುತಿಸುವಿಕೆಯೊಂದಿಗೆ ನಿರ್ದೇಶಿಸಿದ ಪಠ್ಯದ ಅನುವಾದದಂತಹ ಸಾಮರ್ಥ್ಯಗಳ ಅನುಷ್ಠಾನವನ್ನು ತಳ್ಳಿಹಾಕಲಾಗುವುದಿಲ್ಲ.


ಮೂಲ: opennet.ru
