ಕ್ಯಾನೊನಿಕಲ್ ಮೈನಾ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ವ್ಯವಸ್ಥೆಯನ್ನು ಅನಾವರಣಗೊಳಿಸಿದೆ

ಕ್ಯಾನೊನಿಕಲ್‌ನ ಎಂಜಿನಿಯರಿಂಗ್ ನಿರ್ದೇಶಕ ಜೀನ್-ಬ್ಯಾಪ್ಟಿಸ್ಟ್ ಲ್ಯಾಲೆಮೆಂಟ್, ಮೈನಾ ಯೋಜನೆಯನ್ನು ಪ್ರಸ್ತುತಪಡಿಸಿದರು, ಇದು ಧ್ವನಿ ಇನ್‌ಪುಟ್ ಅನ್ನು ಸಂಘಟಿಸಲು ಮತ್ತು ನೈಸರ್ಗಿಕ ಭಾಷೆಯಲ್ಲಿ ಆಜ್ಞೆಗಳನ್ನು ಗುರುತಿಸಲು ಬಳಸಬೇಕಾದ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತಿದೆ. Ubuntu ಡೆಸ್ಕ್‌ಟಾಪ್. ಈ ಯೋಜನೆಯನ್ನು GPLv3 ಪರವಾನಗಿಯ ಅಡಿಯಲ್ಲಿ ವಿತರಿಸಲಾಗಿದೆ, ಆದರೆ ರೆಪೊಸಿಟರಿಯು ಪ್ರಸ್ತುತ ಯೋಜನೆಯ ಮಾಡ್ಯುಲರ್ ವಾಸ್ತುಶಿಲ್ಪ ಮತ್ತು ಅದರ ಏಕೀಕರಣವನ್ನು ವಿವರಿಸುವ ರೇಖಾಚಿತ್ರಗಳನ್ನು ಮಾತ್ರ ಒಳಗೊಂಡಿದೆ Ubuntu.

ಬಿಡುಗಡೆಗಾಗಿ Ubuntu ಅಕ್ಟೋಬರ್ 26.10 ರಂದು, ಅಪ್ಲಿಕೇಶನ್ ಧ್ವನಿ ಇನ್‌ಪುಟ್‌ನೊಂದಿಗೆ ಹೊಂದಿಕೊಳ್ಳುವಂತೆ ಯೋಜಿಸಲಾಗಿದೆ. ಬಳಕೆದಾರ ಸೆಷನ್ ಕೀಬೋರ್ಡ್ ಶಾರ್ಟ್‌ಕಟ್ ಮೂಲಕ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುವುದು, ಗಟ್ಟಿಯಾಗಿ ನಿರ್ದೇಶಿಸುವುದು ಮತ್ತು ನೀವು ಮಾತನಾಡುವಾಗ ಸಿಮ್ಯುಲೇಟೆಡ್ ಕೀಬೋರ್ಡ್ ಇನ್‌ಪುಟ್ ಮೂಲಕ ಗುರುತಿಸಲಾದ ಪಠ್ಯವನ್ನು ಪ್ರಸ್ತುತ ಅಪ್ಲಿಕೇಶನ್‌ಗೆ ಅಂಟಿಸುವುದನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ. ಮೈಕ್ರೊಫೋನ್ ಸಕ್ರಿಯಗೊಂಡಾಗ ಫಲಕದಲ್ಲಿ ವಿಶೇಷ ಸೂಚಕ ಕಾಣಿಸಿಕೊಳ್ಳುತ್ತದೆ.
ಮೂಲ ಪರೀಕ್ಷಾ ಪರಿಸರವನ್ನು ವೇಲ್ಯಾಂಡ್ ಆಧಾರಿತ GNOME ಎಂದು ಹೇಳಲಾಗಿದೆ, ಆದರೆ ಅಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಆರಂಭದಿಂದಲೂ ವಿವಿಧ ಡೆಸ್ಕ್‌ಟಾಪ್ ಪರಿಸರಗಳಿಗೆ ಹೊಂದಿಕೊಳ್ಳುವಂತೆ ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆ.

ಮೈನಾ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆಗಾಗಿ ಸ್ಥಳೀಯವಾಗಿ ಚಾಲನೆಯಲ್ಲಿರುವ AI ಮಾದರಿಯನ್ನು ಬಳಸುತ್ತದೆ. ಅಪ್ಲಿಕೇಶನ್‌ಗೆ ಅವಶ್ಯಕತೆಗಳು ಇವುಗಳನ್ನು ಒಳಗೊಂಡಿವೆ: ಆಫ್‌ಲೈನ್‌ನಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಸಾಮರ್ಥ್ಯ; ಹಾಟ್‌ಕೀ ಮೂಲಕ ಡಿಕ್ಟೇಷನ್ ಮೋಡ್ ಅನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ಸಕ್ರಿಯಗೊಳಿಸಿದ ನಂತರ ಮಾತ್ರ ಮೈಕ್ರೊಫೋನ್ ಅನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುವುದು; ಮೆಮೊರಿಯಲ್ಲಿ ಆಡಿಯೊವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವುದು, ಇದನ್ನು ಪ್ರತಿ ಬಳಕೆಯ ನಂತರ ತೆರವುಗೊಳಿಸಲಾಗುತ್ತದೆ; ಮತ್ತು ಆಡಿಯೊ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳನ್ನು ಬಾಹ್ಯ ಸೇವೆಗಳಿಗೆ ವರ್ಗಾಯಿಸುವುದನ್ನು ನಿಷೇಧಿಸುವುದು.

ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ, ಬಳಕೆದಾರರ ಸಂವಹನ, ಡಿಕ್ಟೇಷನ್ ನಿರ್ವಹಣೆ ಮತ್ತು ಪಠ್ಯ ಪರ್ಯಾಯಕ್ಕಾಗಿ ಘಟಕಗಳನ್ನು ಮಾಡ್ಯೂಲ್‌ಗಳ ರೂಪದಲ್ಲಿ ಅಭಿವೃದ್ಧಿಪಡಿಸಲಾಗಿದೆ.
AI ಮಾದರಿ ಕಾರ್ಯಗತಗೊಳಿಸುವ ಪರಿಸರವನ್ನು ಸ್ನ್ಯಾಪ್‌ಶಾಟ್‌ನಂತೆ ಪ್ಯಾಕ್ ಮಾಡಲಾಗುತ್ತದೆ. ವಿಸ್ಪರ್, ಪ್ಯಾರಕೀಟ್, ನೆಮೊಟ್ರಾನ್ ಮತ್ತು ಕ್ವೆನ್3-ASR ಗಳನ್ನು ಸಂಭವನೀಯ ಗುರುತಿಸುವಿಕೆ ಮಾದರಿಗಳಾಗಿ ಉಲ್ಲೇಖಿಸಲಾಗಿದೆ.
ಡಿಕ್ಟೇಷನ್ ಮ್ಯಾನೇಜ್‌ಮೆಂಟ್ ಸೇವೆಯು ಹಾಟ್‌ಕೀ ಪ್ರೆಸ್‌ಗಳನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡುತ್ತದೆ, ಮೈಕ್ರೊಫೋನ್ ಅನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುತ್ತದೆ, API ಮೂಲಕ ಸ್ನ್ಯಾಪ್ ಪ್ಯಾಕೇಜ್‌ನಲ್ಲಿರುವ AI ಮಾದರಿಯನ್ನು ಪ್ರವೇಶಿಸುತ್ತದೆ, ಆಡಿಯೊ ಸೇವೆಯಿಂದ ಅದಕ್ಕೆ ಆಡಿಯೊ ಸ್ಟ್ರೀಮ್ ಅನ್ನು ಫಾರ್ವರ್ಡ್ ಮಾಡುತ್ತದೆ ಮತ್ತು ಡೇಟಾ ಹರಿವುಗಳನ್ನು ಸಂಘಟಿಸುತ್ತದೆ.

ಆಡಿಯೋ ಸೇವೆಯು ಆಡಿಯೋ ಸಾಧನವನ್ನು ನೇರವಾಗಿ ಅಥವಾ PulseAudio ಅಥವಾ PipeWire ಆಡಿಯೋ ಸರ್ವರ್‌ಗಳ ಮೂಲಕ ಪ್ರವೇಶಿಸುತ್ತದೆ, ಶಬ್ದವನ್ನು ನಿಗ್ರಹಿಸುತ್ತದೆ ಮತ್ತು ಪರಿಮಾಣವನ್ನು ಸಮಗೊಳಿಸುತ್ತದೆ. ಮಾದರಿಯಿಂದ ಉತ್ಪತ್ತಿಯಾಗುವ ಪಠ್ಯವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸುವಿಕೆ, ಸಾಮಾನ್ಯೀಕರಣ, ಫಾರ್ಮ್ಯಾಟಿಂಗ್ ಮತ್ತು ವಿರಾಮಚಿಹ್ನೆಗಾಗಿ ಪೋಸ್ಟ್-ಪ್ರೊಸೆಸಿಂಗ್ ಮಾಡ್ಯೂಲ್‌ಗೆ ರವಾನಿಸಲಾಗುತ್ತದೆ. ಅಂತಿಮ ಪಠ್ಯವನ್ನು ಇನ್‌ಪುಟ್ ಪರ್ಯಾಯದ ಮೂಲಕ ಅಪ್ಲಿಕೇಶನ್‌ಗೆ ಸೇರಿಸಲಾಗುತ್ತದೆ, ಉದಾಹರಣೆಗೆ, ವೇಲ್ಯಾಂಡ್ ಇನ್‌ಪುಟ್-ವಿಧಾನ ಪ್ರೋಟೋಕಾಲ್ ಅಥವಾ IBus ಮೂಲಕ.

ಆರಂಭಿಕ ಕಾರ್ಯವನ್ನು ಸ್ಥಿರಗೊಳಿಸಿದ ನಂತರ, ಧ್ವನಿ ಸಹಾಯಕರಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವುದು, ಧ್ವನಿ ಆಜ್ಞೆಗಳನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುವುದು, ಡೆಸ್ಕ್‌ಟಾಪ್‌ನ ಧ್ವನಿ ನಿಯಂತ್ರಣ ಮತ್ತು ಸ್ವಯಂಚಾಲಿತ ಭಾಷಾ ಗುರುತಿಸುವಿಕೆಯೊಂದಿಗೆ ನಿರ್ದೇಶಿಸಿದ ಪಠ್ಯದ ಅನುವಾದದಂತಹ ಸಾಮರ್ಥ್ಯಗಳ ಅನುಷ್ಠಾನವನ್ನು ತಳ್ಳಿಹಾಕಲಾಗುವುದಿಲ್ಲ.



ಮೂಲ: opennet.ru
DDoS ರಕ್ಷಣೆ, VPS VDS ಸರ್ವರ್‌ಗಳೊಂದಿಗೆ ಸೈಟ್‌ಗಳಿಗೆ ವಿಶ್ವಾಸಾರ್ಹ ಹೋಸ್ಟಿಂಗ್ ಅನ್ನು ಖರೀದಿಸಿ 🔥 DDoS ರಕ್ಷಣೆ, VPS VDS ಸರ್ವರ್‌ಗಳೊಂದಿಗೆ ವಿಶ್ವಾಸಾರ್ಹ ವೆಬ್‌ಸೈಟ್ ಹೋಸ್ಟಿಂಗ್ ಅನ್ನು ಖರೀದಿಸಿ | ProHoster