ವಿಸ್ಪರ್ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಮತ್ತು ಅನುವಾದ ವ್ಯವಸ್ಥೆಗಾಗಿ ಕೋಡ್ ತೆರೆಯಲಾಗಿದೆ

ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆಯ ಕ್ಷೇತ್ರದಲ್ಲಿ ಸಾರ್ವಜನಿಕ ಯೋಜನೆಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವ OpenAI ಯೋಜನೆಯು ವಿಸ್ಪರ್ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ವ್ಯವಸ್ಥೆಗೆ ಸಂಬಂಧಿಸಿದ ಬೆಳವಣಿಗೆಗಳನ್ನು ಪ್ರಕಟಿಸಿದೆ. ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿನ ಭಾಷಣಕ್ಕಾಗಿ ಸಿಸ್ಟಮ್ ಮಾನವ ಗುರುತಿಸುವಿಕೆಗೆ ಹತ್ತಿರವಿರುವ ಸ್ವಯಂಚಾಲಿತ ಗುರುತಿಸುವಿಕೆಯ ವಿಶ್ವಾಸಾರ್ಹತೆ ಮತ್ತು ನಿಖರತೆಯ ಮಟ್ಟವನ್ನು ಒದಗಿಸುತ್ತದೆ ಎಂದು ಹೇಳಲಾಗುತ್ತದೆ. PyTorch ಚೌಕಟ್ಟಿನ ಆಧಾರದ ಮೇಲೆ ಉಲ್ಲೇಖದ ಅನುಷ್ಠಾನಕ್ಕಾಗಿ ಕೋಡ್ ಮತ್ತು ಈಗಾಗಲೇ ತರಬೇತಿ ಪಡೆದ ಮಾದರಿಗಳ ಒಂದು ಸೆಟ್, ಬಳಕೆಗೆ ಸಿದ್ಧವಾಗಿದೆ, ತೆರೆಯಲಾಗಿದೆ. ಕೋಡ್ MIT ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ತೆರೆದಿರುತ್ತದೆ.

ಮಾದರಿಯನ್ನು ತರಬೇತಿ ಮಾಡಲು, 680 ಸಾವಿರ ಗಂಟೆಗಳ ಭಾಷಣ ಡೇಟಾವನ್ನು ಬಳಸಲಾಗಿದೆ, ವಿವಿಧ ಭಾಷೆಗಳು ಮತ್ತು ವಿಷಯ ಕ್ಷೇತ್ರಗಳನ್ನು ಒಳಗೊಂಡ ಹಲವಾರು ಸಂಗ್ರಹಗಳಿಂದ ಸಂಗ್ರಹಿಸಲಾಗಿದೆ. ತರಬೇತಿಯಲ್ಲಿ ತೊಡಗಿರುವ ಸುಮಾರು 1/3 ಭಾಷಣ ಡೇಟಾವು ಇಂಗ್ಲಿಷ್ ಹೊರತುಪಡಿಸಿ ಇತರ ಭಾಷೆಗಳಲ್ಲಿದೆ. ಪ್ರಸ್ತಾವಿತ ವ್ಯವಸ್ಥೆಯು ಉಚ್ಚಾರಣಾ ಉಚ್ಚಾರಣೆ, ಹಿನ್ನೆಲೆ ಶಬ್ದ ಮತ್ತು ತಾಂತ್ರಿಕ ಪರಿಭಾಷೆಯ ಬಳಕೆಯಂತಹ ಸಂದರ್ಭಗಳನ್ನು ಸರಿಯಾಗಿ ನಿರ್ವಹಿಸುತ್ತದೆ. ಭಾಷಣವನ್ನು ಪಠ್ಯಕ್ಕೆ ಲಿಪ್ಯಂತರ ಮಾಡುವುದರ ಜೊತೆಗೆ, ಸಿಸ್ಟಮ್ ಯಾವುದೇ ಭಾಷೆಯಿಂದ ಇಂಗ್ಲಿಷ್‌ಗೆ ಭಾಷಣವನ್ನು ಅನುವಾದಿಸಬಹುದು ಮತ್ತು ಆಡಿಯೊ ಸ್ಟ್ರೀಮ್‌ನಲ್ಲಿ ಮಾತಿನ ನೋಟವನ್ನು ಪತ್ತೆ ಮಾಡುತ್ತದೆ.

ಮಾದರಿಗಳನ್ನು ಎರಡು ಪ್ರಾತಿನಿಧ್ಯಗಳಲ್ಲಿ ರಚಿಸಲಾಗಿದೆ: ಇಂಗ್ಲಿಷ್ ಭಾಷೆಯ ಮಾದರಿ ಮತ್ತು ಬಹುಭಾಷಾ ಮಾದರಿ, ಇದು ರಷ್ಯನ್, ಉಕ್ರೇನಿಯನ್ ಮತ್ತು ಬೆಲರೂಸಿಯನ್ ಭಾಷೆಗಳನ್ನು ಸಹ ಬೆಂಬಲಿಸುತ್ತದೆ. ಪ್ರತಿಯಾಗಿ, ಪ್ರತಿ ಪ್ರಾತಿನಿಧ್ಯವನ್ನು 5 ಆಯ್ಕೆಗಳಾಗಿ ವಿಂಗಡಿಸಲಾಗಿದೆ, ಮಾದರಿಯಲ್ಲಿ ಒಳಗೊಂಡಿರುವ ನಿಯತಾಂಕಗಳ ಗಾತ್ರ ಮತ್ತು ಸಂಖ್ಯೆಯಲ್ಲಿ ಭಿನ್ನವಾಗಿರುತ್ತದೆ. ದೊಡ್ಡ ಗಾತ್ರ, ಹೆಚ್ಚಿನ ನಿಖರತೆ ಮತ್ತು ಗುರುತಿಸುವಿಕೆಯ ಗುಣಮಟ್ಟ, ಆದರೆ GPU ವೀಡಿಯೊ ಮೆಮೊರಿಯ ಗಾತ್ರಕ್ಕೆ ಹೆಚ್ಚಿನ ಅವಶ್ಯಕತೆಗಳು ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆ ಕಡಿಮೆಯಾಗಿದೆ. ಉದಾಹರಣೆಗೆ, ಕನಿಷ್ಠ ಆಯ್ಕೆಯು 39 ಮಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ ಮತ್ತು 1 GB ವೀಡಿಯೊ ಮೆಮೊರಿಯ ಅಗತ್ಯವಿರುತ್ತದೆ ಮತ್ತು ಗರಿಷ್ಠವು 1550 ಮಿಲಿಯನ್ ನಿಯತಾಂಕಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ ಮತ್ತು 10 GB ವೀಡಿಯೊ ಮೆಮೊರಿಯ ಅಗತ್ಯವಿರುತ್ತದೆ. ಕನಿಷ್ಠ ಆಯ್ಕೆಯು ಗರಿಷ್ಠಕ್ಕಿಂತ 32 ಪಟ್ಟು ವೇಗವಾಗಿರುತ್ತದೆ.

ವಿಸ್ಪರ್ ಭಾಷಣ ಗುರುತಿಸುವಿಕೆ ಮತ್ತು ಅನುವಾದ ವ್ಯವಸ್ಥೆಗಾಗಿ ಕೋಡ್ ತೆರೆಯಲಾಗಿದೆ

ಸಿಸ್ಟಮ್ ಟ್ರಾನ್ಸ್‌ಫಾರ್ಮರ್ ನ್ಯೂರಲ್ ನೆಟ್‌ವರ್ಕ್ ಆರ್ಕಿಟೆಕ್ಚರ್ ಅನ್ನು ಬಳಸುತ್ತದೆ, ಇದು ಎನ್‌ಕೋಡರ್ ಮತ್ತು ಡಿಕೋಡರ್ ಅನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ಅದು ಪರಸ್ಪರ ಸಂವಹನ ನಡೆಸುತ್ತದೆ. ಆಡಿಯೊವನ್ನು 30-ಸೆಕೆಂಡ್ ಭಾಗಗಳಾಗಿ ವಿಭಜಿಸಲಾಗಿದೆ, ಅದನ್ನು ಲಾಗ್-ಮೆಲ್ ಸ್ಪೆಕ್ಟ್ರೋಗ್ರಾಮ್ ಆಗಿ ಪರಿವರ್ತಿಸಲಾಗುತ್ತದೆ ಮತ್ತು ಎನ್‌ಕೋಡರ್‌ಗೆ ಕಳುಹಿಸಲಾಗುತ್ತದೆ. ಎನ್‌ಕೋಡರ್‌ನ ಔಟ್‌ಪುಟ್ ಅನ್ನು ಡಿಕೋಡರ್‌ಗೆ ಕಳುಹಿಸಲಾಗುತ್ತದೆ, ಇದು ವಿಶೇಷ ಟೋಕನ್‌ಗಳೊಂದಿಗೆ ಮಿಶ್ರಿತ ಪಠ್ಯ ಪ್ರಾತಿನಿಧ್ಯವನ್ನು ಮುನ್ಸೂಚಿಸುತ್ತದೆ, ಇದು ಒಂದು ಸಾಮಾನ್ಯ ಮಾದರಿಯಲ್ಲಿ, ಭಾಷಾ ಪತ್ತೆ, ಪದಗುಚ್ಛಗಳ ಉಚ್ಚಾರಣೆಯ ಕಾಲಾನುಕ್ರಮವನ್ನು ಲೆಕ್ಕಹಾಕುವುದು, ಮಾತಿನ ಪ್ರತಿಲೇಖನದಂತಹ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ. ವಿವಿಧ ಭಾಷೆಗಳು ಮತ್ತು ಇಂಗ್ಲಿಷ್‌ಗೆ ಅನುವಾದ.

ಮೂಲ: opennet.ru

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ