ವಿಸ್ಪರ್ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಮತ್ತು ಅನುವಾದ ವ್ಯವಸ್ಥೆಗಾಗಿ ಕೋಡ್ ತೆರೆಯಲಾಗಿದೆ

ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆಯ ಕ್ಷೇತ್ರದಲ್ಲಿ ಸಾರ್ವಜನಿಕವಾಗಿ ಲಭ್ಯವಿರುವ ಯೋಜನೆಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವ ಓಪನ್‌ಎಐ ಯೋಜನೆಯು ವಿಸ್ಪರ್ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ವ್ಯವಸ್ಥೆಗೆ ಸಂಬಂಧಿಸಿದ ಬೆಳವಣಿಗೆಗಳನ್ನು ಪ್ರಕಟಿಸಿದೆ. ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿ ಭಾಷಣಕ್ಕಾಗಿ, ಈ ವ್ಯವಸ್ಥೆಯು ಮಾನವ ಗುರುತಿಸುವಿಕೆಗೆ ಹತ್ತಿರವಿರುವ ಸ್ವಯಂಚಾಲಿತ ಗುರುತಿಸುವಿಕೆಯ ವಿಶ್ವಾಸಾರ್ಹತೆ ಮತ್ತು ನಿಖರತೆಯ ಮಟ್ಟವನ್ನು ಒದಗಿಸುತ್ತದೆ ಎಂದು ಹೇಳಲಾಗಿದೆ. ಪೈಟಾರ್ಚ್ ಫ್ರೇಮ್‌ವರ್ಕ್ ಅನ್ನು ಆಧರಿಸಿದ ಉಲ್ಲೇಖ ಅನುಷ್ಠಾನದ ಕೋಡ್ ಮತ್ತು ಬಳಕೆಗೆ ಸಿದ್ಧವಾಗಿರುವ ಈಗಾಗಲೇ ತರಬೇತಿ ಪಡೆದ ಮಾದರಿಗಳ ಸೆಟ್ ಮುಕ್ತವಾಗಿದೆ. ಕೋಡ್ MIT ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ಮುಕ್ತವಾಗಿದೆ.

ವಿವಿಧ ಭಾಷೆಗಳು ಮತ್ತು ವಿಷಯ ಕ್ಷೇತ್ರಗಳನ್ನು ಒಳಗೊಂಡ ಹಲವಾರು ಸಂಗ್ರಹಗಳಿಂದ ಸಂಗ್ರಹಿಸಲಾದ 680 ಗಂಟೆಗಳ ಭಾಷಣ ದತ್ತಾಂಶವನ್ನು ಬಳಸಿಕೊಂಡು ಈ ಮಾದರಿಗೆ ತರಬೇತಿ ನೀಡಲಾಗಿದೆ. ತರಬೇತಿಯಲ್ಲಿ ಬಳಸಲಾಗುವ ಭಾಷಣ ದತ್ತಾಂಶದ ಸುಮಾರು 1/3 ಭಾಗವು ಇಂಗ್ಲಿಷ್ ಹೊರತುಪಡಿಸಿ ಇತರ ಭಾಷೆಗಳಿಂದ ಬಂದಿದೆ. ಪ್ರಸ್ತಾವಿತ ವ್ಯವಸ್ಥೆಯು ಉಚ್ಚಾರಣಾ ಉಚ್ಚಾರಣೆ, ಹಿನ್ನೆಲೆ ಶಬ್ದದ ಉಪಸ್ಥಿತಿ ಮತ್ತು ತಾಂತ್ರಿಕ ಪರಿಭಾಷೆಯ ಬಳಕೆಯಂತಹ ಸಂದರ್ಭಗಳನ್ನು ಸರಿಯಾಗಿ ನಿರ್ವಹಿಸುತ್ತದೆ. ಭಾಷಣವನ್ನು ಪಠ್ಯಕ್ಕೆ ಲಿಪ್ಯಂತರ ಮಾಡುವುದರ ಜೊತೆಗೆ, ವ್ಯವಸ್ಥೆಯು ಯಾವುದೇ ಭಾಷೆಯಿಂದ ಭಾಷಣವನ್ನು ಇಂಗ್ಲಿಷ್‌ಗೆ ಅನುವಾದಿಸಬಹುದು ಮತ್ತು ಆಡಿಯೊ ಸ್ಟ್ರೀಮ್‌ನಲ್ಲಿ ಭಾಷಣದ ಸಂಭವವನ್ನು ಪತ್ತೆ ಮಾಡಬಹುದು.

ಮಾದರಿಗಳನ್ನು ಎರಡು ಪ್ರಾತಿನಿಧ್ಯಗಳಲ್ಲಿ ರಚಿಸಲಾಗಿದೆ: ಇಂಗ್ಲಿಷ್ ಭಾಷೆಗೆ ಒಂದು ಮಾದರಿ ಮತ್ತು ರಷ್ಯನ್, ಉಕ್ರೇನಿಯನ್ ಮತ್ತು ಬೆಲರೂಸಿಯನ್ ಭಾಷೆಗಳನ್ನು ಬೆಂಬಲಿಸುವ ಬಹುಭಾಷಾ ಮಾದರಿ. ಪ್ರತಿಯಾಗಿ, ಪ್ರತಿ ಪ್ರಾತಿನಿಧ್ಯವನ್ನು 5 ರೂಪಾಂತರಗಳಾಗಿ ವಿಂಗಡಿಸಲಾಗಿದೆ, ಅದು ಗಾತ್ರ ಮತ್ತು ಮಾದರಿಯಿಂದ ಆವರಿಸಲ್ಪಟ್ಟ ನಿಯತಾಂಕಗಳ ಸಂಖ್ಯೆಯಲ್ಲಿ ಭಿನ್ನವಾಗಿರುತ್ತದೆ. ಗಾತ್ರವು ದೊಡ್ಡದಾಗಿದ್ದರೆ, ಗುರುತಿಸುವಿಕೆಯ ನಿಖರತೆ ಮತ್ತು ಗುಣಮಟ್ಟ ಹೆಚ್ಚಾಗುತ್ತದೆ, ಆದರೆ GPU ವೀಡಿಯೊ ಮೆಮೊರಿಯ ಗಾತ್ರ ಮತ್ತು ಕಡಿಮೆ ಕಾರ್ಯಕ್ಷಮತೆಗೆ ಹೆಚ್ಚಿನ ಅವಶ್ಯಕತೆಗಳು ಬೇಕಾಗುತ್ತವೆ. ಉದಾಹರಣೆಗೆ, ಕನಿಷ್ಠ ರೂಪಾಂತರವು 39 ಮಿಲಿಯನ್ ನಿಯತಾಂಕಗಳನ್ನು ಒಳಗೊಂಡಿದೆ ಮತ್ತು 1 GB ವೀಡಿಯೊ ಮೆಮೊರಿಯ ಅಗತ್ಯವಿರುತ್ತದೆ, ಮತ್ತು ಗರಿಷ್ಠವು 1550 ಮಿಲಿಯನ್ ನಿಯತಾಂಕಗಳನ್ನು ಒಳಗೊಂಡಿದೆ ಮತ್ತು 10 GB ವೀಡಿಯೊ ಮೆಮೊರಿಯ ಅಗತ್ಯವಿರುತ್ತದೆ. ಕನಿಷ್ಠ ರೂಪಾಂತರವು ಗರಿಷ್ಠಕ್ಕಿಂತ 32 ಪಟ್ಟು ವೇಗವಾಗಿರುತ್ತದೆ.

ವಿಸ್ಪರ್ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಮತ್ತು ಅನುವಾದ ವ್ಯವಸ್ಥೆಗಾಗಿ ಕೋಡ್ ತೆರೆಯಲಾಗಿದೆ

ಈ ವ್ಯವಸ್ಥೆಯು ಟ್ರಾನ್ಸ್‌ಫಾರ್ಮರ್ ನರಮಂಡಲ ಜಾಲ ವಾಸ್ತುಶಿಲ್ಪವನ್ನು ಬಳಸುತ್ತದೆ, ಇದರಲ್ಲಿ ಸಂವಹನ ನಡೆಸುವ ಎನ್‌ಕೋಡರ್ ಮತ್ತು ಡಿಕೋಡರ್ ಸೇರಿವೆ. ಆಡಿಯೊವನ್ನು 30-ಸೆಕೆಂಡ್ ಭಾಗಗಳಾಗಿ ವಿಂಗಡಿಸಲಾಗಿದೆ, ಇವುಗಳನ್ನು ಲಾಗ್-ಮೆಲ್ ಸ್ಪೆಕ್ಟ್ರೋಗ್ರಾಮ್ ಆಗಿ ಪರಿವರ್ತಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಎನ್‌ಕೋಡರ್‌ಗೆ ರವಾನಿಸಲಾಗುತ್ತದೆ. ಎನ್‌ಕೋಡರ್‌ನ ಔಟ್‌ಪುಟ್ ಅನ್ನು ಡಿಕೋಡರ್‌ಗೆ ಕಳುಹಿಸಲಾಗುತ್ತದೆ, ಇದು ಭಾಷಾ ಪತ್ತೆ, ಪದಗುಚ್ಛಗಳ ಉಚ್ಚಾರಣೆಯ ಕಾಲಗಣನೆಯನ್ನು ಲೆಕ್ಕಹಾಕುವುದು, ವಿವಿಧ ಭಾಷೆಗಳಲ್ಲಿ ಮಾತಿನ ಪ್ರತಿಲೇಖನ ಮತ್ತು ಇಂಗ್ಲಿಷ್‌ಗೆ ಅನುವಾದದಂತಹ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲು ಒಂದು ಸಾಮಾನ್ಯ ಮಾದರಿಯನ್ನು ಅನುಮತಿಸುವ ವಿಶೇಷ ಟೋಕನ್‌ಗಳೊಂದಿಗೆ ಬೆರೆಸಿದ ಪಠ್ಯ ಪ್ರಾತಿನಿಧ್ಯವನ್ನು ಮುನ್ಸೂಚಿಸುತ್ತದೆ.

ಮೂಲ: opennet.ru

DDoS ರಕ್ಷಣೆ, VPS VDS ಸರ್ವರ್‌ಗಳೊಂದಿಗೆ ಸೈಟ್‌ಗಳಿಗೆ ವಿಶ್ವಾಸಾರ್ಹ ಹೋಸ್ಟಿಂಗ್ ಅನ್ನು ಖರೀದಿಸಿ 🔥 DDoS ರಕ್ಷಣೆ, VPS VDS ಸರ್ವರ್‌ಗಳೊಂದಿಗೆ ವಿಶ್ವಾಸಾರ್ಹ ವೆಬ್‌ಸೈಟ್ ಹೋಸ್ಟಿಂಗ್ ಅನ್ನು ಖರೀದಿಸಿ | ProHoster