RedPajama திட்டம் செயற்கை நுண்ணறிவு அமைப்புகளுக்கான திறந்த தரவுத்தொகுப்பை உருவாக்குகிறது

ChatGPT போன்ற வணிகத் தயாரிப்புகளுடன் போட்டியிடும் அறிவார்ந்த உதவியாளர்களை உருவாக்கப் பயன்படும் திறந்த இயந்திரக் கற்றல் மாதிரிகள் மற்றும் அதனுடன் இணைந்த பயிற்சி உள்ளீடுகளை உருவாக்க RedPajama கூட்டுத் திட்டம் வழங்கப்படுகிறது. திறந்த மூல தரவு மற்றும் பெரிய மொழி மாதிரிகள் இருப்பது இயந்திர கற்றல் துறையில் ஆராய்ச்சியில் ஈடுபட்டுள்ள சுயாதீன குழுக்களின் கட்டுப்பாடுகளை நீக்கி, சிறப்பு உரையாடல் அமைப்புகளை உருவாக்குவதை எளிதாக்கும் என்று எதிர்பார்க்கப்படுகிறது. டுகெதர், Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research மற்றும் MILA Québec AI இன்ஸ்டிட்யூட் போன்ற நிறுவனங்கள் மற்றும் சமூகங்கள் திட்டப்பணியில் இணைந்துள்ளன.

உரையாடல் மாதிரிகளைப் பயிற்றுவிப்பதற்கான 1 டிரில்லியன் டோக்கன் ரெட்பஜாமா-டேட்டா-1.2டி தரவுத்தொகுப்பை வெளியிடுவது முதல் படியாகும். RedPajama தொகுப்பு அதன் LAMA மாடலை (மொத்தம் 1.25 டிரில்லியன் டோக்கன்கள்) உருவாக்க Facebook பயன்படுத்தும் பொது ஆதாரங்களில் இருந்து தரவை மறுஉருவாக்கம் செய்கிறது, ஆனால் திறந்த உரிமத்தின் கீழ் வழங்கப்படுகிறது, இது பயன்பாட்டின் நோக்கத்தை கட்டுப்படுத்தாது (LLaMA தரவு மற்றும் மாதிரிகள் சிறப்பு ஆய்வாளர்களுக்கு மட்டுமே வழங்கப்பட்டன. வணிக ரீதியான பயன்பாட்டிற்கான கோரிக்கை). RedPajama-Data-1T தரவிறக்கம் செய்யக்கூடிய தொகுப்பு 2.67 TB ஆகும், இதில் Common Crawl indexed web pages, Wikipedia archives, GitHub இலிருந்து மூலக் குறியீடு, Gutenberg நூலகத்திலிருந்து பொது புத்தகங்கள், ArXiv காப்பகத்திலிருந்து அறிவியல் கட்டுரைகள் மற்றும் Stack Overflow மற்றும் பிற ஸ்டாக்கின் விவாதங்கள் ஆகியவற்றிலிருந்து தகவல்களை உள்ளடக்கியது. பரிமாற்ற தளங்கள்.

ஆயத்த மாதிரிகள், தயாரிக்கப்பட்ட தரவுத்தொகுப்பின் அடிப்படையில் பயிற்சியளிக்கப்பட்டு, அல்பாகா மற்றும் ஓபன்சாட்கிட் திட்டங்களில் இருந்து அறிவுறுத்தல்-செயல்படுத்தல் வடிவில் உரையாடல்களின் ஆயத்த உதாரணங்களைப் பயன்படுத்தி மேம்படுத்தப்பட்டது, அடுத்த சில வாரங்களில் உருவாக்கத் திட்டமிடப்பட்டுள்ளது. இதே போன்ற மொழி மாதிரி முன்முயற்சிகளில் பகுதியளவு திறந்த மூல திட்டங்களான LAMA, Alpaca, Vicuna மற்றும் Koala, அத்துடன் முழு திறந்த மூல முயற்சிகளான Pythia, OpenChatKit, Open Assistant மற்றும் Dolly ஆகியவை அடங்கும்.

கூடுதலாக, இயந்திர கற்றல் தொடர்பான பல புதிய திட்டங்கள் உள்ளன:

  • மினிஜிபிடி-4 - காட்சித் தகவலைக் கணக்கில் எடுத்துக்கொள்ளும் திறன்களைக் கொண்ட பாரம்பரிய உரையாடல் சாட்போட்களை விரிவுபடுத்துகிறது, இது படங்களை பகுப்பாய்வு செய்யவும், கணினியுடன் தொடர்பு கொள்ளும் செயல்பாட்டில் கையால் எழுதப்பட்ட உரையை கணக்கில் எடுத்துக்கொள்ளவும் உங்களை அனுமதிக்கிறது (எடுத்துக்காட்டாக, எந்த வகையான பொருள் காட்டப்படுகிறது என்று நீங்கள் கேட்கலாம். படத்தில், போட்டோவில் காட்டப்பட்டுள்ளதை அடிப்படையாகக் கொண்டு கதையை எழுதச் சொல்லுங்கள் அல்லது திட்டவட்டமான ஓவியத்தின் அடிப்படையில் ஒரு இணையதளத்தை உருவாக்கச் சொல்லுங்கள்). MiniGPT-4 செயல்படுத்தல் பைத்தானில் எழுதப்பட்டு BSD உரிமத்தின் கீழ் விநியோகிக்கப்படுகிறது.
  • ஃபேஸ்புக் ஒரு கருவித்தொகுப்பு மற்றும் சுய-கற்றல் (SSL, சுய-மேற்பார்வைக் கற்றல், மனிதனால் தயாரிக்கப்பட்ட லேபிள்கள் மற்றும் சிறுகுறிப்புகளைப் பயன்படுத்தாது) DINOv2 இயந்திர பார்வை மாதிரியை பொதுமைப்படுத்தப்பட்ட காட்சி தரவு செயலாக்கத்தின் (பட வகைப்பாடு, பொருட்களைப் பற்றிய தகவல்களைப் பிரித்தெடுத்தல்) சிக்கல்களைத் தீர்ப்பதற்கு ஏற்றது. படங்கள், வீடியோவில் என்ன நடக்கிறது என்பதைப் புரிந்துகொள்வது மற்றும் பிக்சல் மட்டத்தில் கையாளுதல்கள் (ஆழம் கணிப்பு, பிரிவு). மாடல் 142 மில்லியன் படங்களின் தொகுப்பில் பயிற்சியளிக்கப்பட்டுள்ளது. செயல்படுத்தல் பைத்தானில் எழுதப்பட்டு, கிரியேட்டிவ் காமன்ஸ் அட்ரிபியூஷன்-வணிகமற்ற 4.0 உரிமத்தின் கீழ் விநியோகிக்கப்படுகிறது, இது வணிகம் அல்லாத பயன்பாட்டை அனுமதிக்கிறது.
  • GPT4All என்பது தனித்து நிற்கும் சாட்போட்களை தங்கள் வன்பொருளில் விரைவாகத் தொடங்குவதற்கான ஒரு கருவித்தொகுப்பாகும் (அவை வெளிப்புறச் சேவைகளை அணுகுவதில்லை மற்றும் செயல்படுத்த AVX2 ஆதரவுடன் CPUகளைப் பயன்படுத்துகின்றன). GPT-J மற்றும் LLaMa அடிப்படையில் பெரிய மொழி மாதிரிகளை இணைப்பது ஆதரிக்கப்படுகிறது. குறியீடு பைத்தானில் எழுதப்பட்டு எம்ஐடி உரிமத்தின் கீழ் விநியோகிக்கப்படுகிறது.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்