RedPajama ಯೋಜನೆಯು ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ವ್ಯವಸ್ಥೆಗಳಿಗಾಗಿ ಮುಕ್ತ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತದೆ

ಚಾಟ್‌ಜಿಪಿಟಿಯಂತಹ ವಾಣಿಜ್ಯ ಉತ್ಪನ್ನಗಳೊಂದಿಗೆ ಸ್ಪರ್ಧಿಸುವ ಬುದ್ಧಿವಂತ ಸಹಾಯಕರನ್ನು ನಿರ್ಮಿಸಲು ಬಳಸಬಹುದಾದ ತೆರೆದ ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಗಳು ಮತ್ತು ಜತೆಗೂಡಿದ ತರಬೇತಿ ಇನ್‌ಪುಟ್‌ಗಳನ್ನು ರಚಿಸಲು RedPajama ಸಹಯೋಗದ ಯೋಜನೆಯನ್ನು ಪ್ರಸ್ತುತಪಡಿಸಲಾಗಿದೆ. ತೆರೆದ ಮೂಲ ಡೇಟಾ ಮತ್ತು ದೊಡ್ಡ ಭಾಷಾ ಮಾದರಿಗಳ ಉಪಸ್ಥಿತಿಯು ಯಂತ್ರ ಕಲಿಕೆಯ ಕ್ಷೇತ್ರದಲ್ಲಿ ಸಂಶೋಧನೆಯಲ್ಲಿ ತೊಡಗಿರುವ ಸ್ವತಂತ್ರ ತಂಡಗಳ ನಿರ್ಬಂಧಗಳನ್ನು ತೆಗೆದುಹಾಕುತ್ತದೆ ಮತ್ತು ವಿಶೇಷ ಸಂವಾದ ವ್ಯವಸ್ಥೆಗಳ ರಚನೆಯನ್ನು ಸರಳಗೊಳಿಸುತ್ತದೆ ಎಂದು ನಿರೀಕ್ಷಿಸಲಾಗಿದೆ. ಟುಗೆದರ್, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research ಮತ್ತು MILA Québec AI ಇನ್‌ಸ್ಟಿಟ್ಯೂಟ್‌ನಂತಹ ಸಂಸ್ಥೆಗಳು ಮತ್ತು ಸಮುದಾಯಗಳು ಯೋಜನೆಯಲ್ಲಿ ಕೆಲಸಕ್ಕೆ ಸೇರಿಕೊಂಡಿವೆ.

ಸಂಭಾಷಣೆಯ ಮಾದರಿಗಳ ತರಬೇತಿಗಾಗಿ 1 ಟ್ರಿಲಿಯನ್ ಟೋಕನ್ ರೆಡ್‌ಪಜಾಮಾ-ಡೇಟಾ-1.2T ಡೇಟಾಸೆಟ್‌ನ ಪ್ರಕಟಣೆಯು ಮೊದಲ ಹಂತವಾಗಿದೆ. RedPajama ಸೆಟ್ ತನ್ನ LAMA ಮಾದರಿಯನ್ನು ರಚಿಸಲು ಫೇಸ್‌ಬುಕ್ ಬಳಸುವ ಸಾರ್ವಜನಿಕ ಮೂಲಗಳಿಂದ ಡೇಟಾವನ್ನು ಪುನರುತ್ಪಾದಿಸುತ್ತದೆ (ಒಟ್ಟು 1.25 ಟ್ರಿಲಿಯನ್ ಟೋಕನ್‌ಗಳು), ಆದರೆ ಬಳಕೆಯ ವ್ಯಾಪ್ತಿಯನ್ನು ಮಿತಿಗೊಳಿಸದ ಮುಕ್ತ ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ಸರಬರಾಜು ಮಾಡಲಾಗುತ್ತದೆ (LAMA ಡೇಟಾ ಮತ್ತು ಮಾದರಿಗಳನ್ನು ವಿಶೇಷ ಮೂಲಕ ಸಂಶೋಧಕರಿಗೆ ಮಾತ್ರ ಒದಗಿಸಲಾಗಿದೆ. ವಾಣಿಜ್ಯೇತರ ಬಳಕೆಗಾಗಿ ವಿನಂತಿ). RedPajama-Data-1T ಡೌನ್‌ಲೋಡ್ ಮಾಡಬಹುದಾದ ಸೆಟ್ 2.67 TB ಮತ್ತು ಕಾಮನ್ ಕ್ರಾಲ್ ಇಂಡೆಕ್ಸ್‌ಡ್ ವೆಬ್ ಪುಟಗಳು, ವಿಕಿಪೀಡಿಯಾ ಆರ್ಕೈವ್‌ಗಳು, GitHub ನಿಂದ ಮೂಲ ಕೋಡ್, Gutenberg ಲೈಬ್ರರಿಯಿಂದ ಸಾರ್ವಜನಿಕ ಪುಸ್ತಕಗಳು, ArXiv ಆರ್ಕೈವ್‌ನಿಂದ ವೈಜ್ಞಾನಿಕ ಲೇಖನಗಳು ಮತ್ತು Stack Overflow ಮತ್ತು ಇತರ ಸ್ಟಾಕ್‌ನೊಂದಿಗಿನ ಚರ್ಚೆಗಳಿಂದ ಮಾಹಿತಿಯನ್ನು ಒಳಗೊಂಡಿದೆ. ವಿನಿಮಯ ತಾಣಗಳು.

ಸಿದ್ಧಪಡಿಸಿದ ಡೇಟಾಸೆಟ್‌ನ ಆಧಾರದ ಮೇಲೆ ತರಬೇತಿ ಪಡೆದ ರೆಡಿಮೇಡ್ ಮಾದರಿಗಳು ಮತ್ತು ಅಲ್ಪಕಾ ಮತ್ತು ಓಪನ್‌ಚಾಟ್‌ಕಿಟ್ ಪ್ರಾಜೆಕ್ಟ್‌ಗಳಿಂದ ಸೂಚನೆ-ಕಾರ್ಯಗತಗೊಳಿಸುವಿಕೆಯ ರೂಪದಲ್ಲಿ ಡೈಲಾಗ್‌ಗಳ ಸಿದ್ಧ ಉದಾಹರಣೆಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಆಪ್ಟಿಮೈಸ್ ಮಾಡಲಾಗಿದೆ, ಮುಂದಿನ ಕೆಲವು ವಾರಗಳಲ್ಲಿ ರೂಪಿಸಲು ಯೋಜಿಸಲಾಗಿದೆ. ಇದೇ ರೀತಿಯ ಭಾಷಾ ಮಾದರಿಯ ಉಪಕ್ರಮಗಳಲ್ಲಿ ಭಾಗಶಃ ಮುಕ್ತ ಮೂಲ ಯೋಜನೆಗಳಾದ LAMA, Alpaca, Vicuna ಮತ್ತು Koala, ಹಾಗೆಯೇ ಸಂಪೂರ್ಣ ಮುಕ್ತ ಮೂಲ ಉಪಕ್ರಮಗಳಾದ Pythia, OpenChatKit, Open Assistant, ಮತ್ತು Dolly ಸೇರಿವೆ.

ಹೆಚ್ಚುವರಿಯಾಗಿ, ಯಂತ್ರ ಕಲಿಕೆಗೆ ಸಂಬಂಧಿಸಿದ ಹಲವಾರು ಹೊಸ ಯೋಜನೆಗಳಿವೆ:

  • MiniGPT-4 - ದೃಶ್ಯ ಮಾಹಿತಿಯನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುವ ಸಾಮರ್ಥ್ಯಗಳೊಂದಿಗೆ ಸಾಂಪ್ರದಾಯಿಕ ಸಂವಾದಾತ್ಮಕ ಚಾಟ್‌ಬಾಟ್‌ಗಳನ್ನು ವಿಸ್ತರಿಸುತ್ತದೆ, ಇದು ಚಿತ್ರಗಳನ್ನು ವಿಶ್ಲೇಷಿಸಲು ಮತ್ತು ಸಿಸ್ಟಮ್‌ನೊಂದಿಗೆ ಸಂವಹನ ನಡೆಸುವ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಕೈಬರಹದ ಪಠ್ಯವನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳಲು ನಿಮಗೆ ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ (ಉದಾಹರಣೆಗೆ, ಯಾವ ರೀತಿಯ ವಸ್ತುವನ್ನು ತೋರಿಸಲಾಗಿದೆ ಎಂದು ನೀವು ಕೇಳಬಹುದು. ಚಿತ್ರದಲ್ಲಿ, ಫೋಟೋದಲ್ಲಿ ತೋರಿಸಿರುವದನ್ನು ಆಧರಿಸಿ ಕಥೆಯನ್ನು ಬರೆಯಲು ಬೋಟ್ ಅನ್ನು ಕೇಳಿ, ಅಥವಾ ಸ್ಕೀಮ್ಯಾಟಿಕ್ ಸ್ಕೆಚ್ ಅನ್ನು ಆಧರಿಸಿ, ವೆಬ್‌ಸೈಟ್ ರಚಿಸಲು ಕೇಳಿ). MiniGPT-4 ಅನುಷ್ಠಾನವನ್ನು ಪೈಥಾನ್‌ನಲ್ಲಿ ಬರೆಯಲಾಗಿದೆ ಮತ್ತು BSD ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ವಿತರಿಸಲಾಗಿದೆ.
  • Facebook ಟೂಲ್‌ಕಿಟ್ ಮತ್ತು ಸ್ವಯಂ-ಕಲಿಕೆಯನ್ನು ಪ್ರಕಟಿಸಿದೆ (SSL, ಸ್ವಯಂ-ಮೇಲ್ವಿಚಾರಣೆಯ ಕಲಿಕೆ, ಮಾನವ-ತಯಾರಾದ ಲೇಬಲ್‌ಗಳು ಮತ್ತು ಟಿಪ್ಪಣಿಗಳನ್ನು ಬಳಸುವುದಿಲ್ಲ) DINOv2 ಯಂತ್ರ ದೃಷ್ಟಿ ಮಾದರಿಯನ್ನು ಸಾಮಾನ್ಯೀಕರಿಸಿದ ದೃಶ್ಯ ಡೇಟಾ ಸಂಸ್ಕರಣೆಯ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲು ಸೂಕ್ತವಾಗಿದೆ (ಚಿತ್ರ ವರ್ಗೀಕರಣ, ವಸ್ತುಗಳ ಬಗ್ಗೆ ಮಾಹಿತಿಯನ್ನು ಹೊರತೆಗೆಯುವುದು ಚಿತ್ರಗಳು, ವೀಡಿಯೊದಲ್ಲಿ ಏನಾಗುತ್ತಿದೆ ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು) ಮತ್ತು ಪಿಕ್ಸೆಲ್ ಮಟ್ಟದಲ್ಲಿ ಮ್ಯಾನಿಪ್ಯುಲೇಷನ್‌ಗಳು (ಆಳದ ಮುನ್ಸೂಚನೆ, ವಿಭಾಗ). ಈ ಮಾದರಿಯು 142 ಮಿಲಿಯನ್ ಚಿತ್ರಗಳ ಸಂಗ್ರಹಣೆಯಲ್ಲಿ ತರಬೇತಿ ಪಡೆದಿದೆ. ಅನುಷ್ಠಾನವನ್ನು ಪೈಥಾನ್‌ನಲ್ಲಿ ಬರೆಯಲಾಗಿದೆ ಮತ್ತು ವಾಣಿಜ್ಯೇತರ ಬಳಕೆಯನ್ನು ಅನುಮತಿಸುವ ಕ್ರಿಯೇಟಿವ್ ಕಾಮನ್ಸ್ ಅಟ್ರಿಬ್ಯೂಷನ್-ವಾಣಿಜ್ಯೇತರ 4.0 ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ವಿತರಿಸಲಾಗಿದೆ.
  • GPT4All ಎಂಬುದು ತಮ್ಮ ಸ್ವಂತ ಹಾರ್ಡ್‌ವೇರ್‌ನಲ್ಲಿ ಅದ್ವಿತೀಯ ಚಾಟ್‌ಬಾಟ್‌ಗಳನ್ನು ತ್ವರಿತವಾಗಿ ಪ್ರಾರಂಭಿಸಲು ಟೂಲ್‌ಕಿಟ್ ಆಗಿದೆ (ಅವರು ಬಾಹ್ಯ ಸೇವೆಗಳನ್ನು ಪ್ರವೇಶಿಸುವುದಿಲ್ಲ ಮತ್ತು ಕಾರ್ಯಗತಗೊಳಿಸಲು AVX2 ಬೆಂಬಲದೊಂದಿಗೆ CPU ಗಳನ್ನು ಬಳಸುತ್ತಾರೆ). GPT-J ಮತ್ತು LLaMa ಆಧಾರಿತ ದೊಡ್ಡ ಭಾಷಾ ಮಾದರಿಗಳನ್ನು ಸಂಪರ್ಕಿಸುವುದನ್ನು ಬೆಂಬಲಿಸಲಾಗುತ್ತದೆ. ಕೋಡ್ ಅನ್ನು ಪೈಥಾನ್‌ನಲ್ಲಿ ಬರೆಯಲಾಗಿದೆ ಮತ್ತು MIT ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ವಿತರಿಸಲಾಗಿದೆ.

ಮೂಲ: opennet.ru

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ