ஜினா உட்பொதிப்பிற்கான திறந்த மூலக் குறியீடு, உரை அர்த்தத்தின் திசையன் பிரதிநிதித்துவத்திற்கான மாதிரி

ஜினா Apache 2.0 உரிமத்தின் கீழ் திசையன் உரை பிரதிநிதித்துவத்திற்கான மெஷின் லேர்னிங் மாதிரியை ஓப்பன் சோர்ஸ் செய்துள்ளார், jina-embeddings-v2. 8192 எழுத்துகள் வரை உள்ள தன்னிச்சையான உரையை உண்மையான எண்களின் சிறிய வரிசையாக மாற்ற மாதிரி உங்களை அனுமதிக்கிறது, இது ஒரு திசையனை உருவாக்குகிறது, இது மூல உரையுடன் ஒப்பிடப்பட்டு அதன் சொற்பொருளை (பொருள்) மீண்டும் உருவாக்குகிறது. 002 டோக்கன்கள் வரை உரையைச் செயலாக்கும் திறன் கொண்ட OpenAI திட்டத்திலிருந்து (text-embedding-ada-8192) தனியுரிம உரை வெக்டரைசேஷன் மாதிரியின் அதே செயல்திறனைக் கொண்ட முதல் திறந்த இயந்திர கற்றல் மாதிரி ஜினா உட்பொதித்தல் ஆகும்.

இரண்டு உருவாக்கப்பட்ட திசையன்களுக்கு இடையிலான தூரம் மூல நூல்களின் சொற்பொருள் தொடர்பைத் தீர்மானிக்கப் பயன்படுகிறது. நடைமுறையில், உருவாக்கப்பட்ட திசையன்கள், உரைகளின் ஒற்றுமையை பகுப்பாய்வு செய்ய, தலைப்பு தொடர்பான பொருட்களைத் தேடலை ஒழுங்கமைக்கவும் (சொற்பொருள் அருகாமையால் தரவரிசை முடிவு), பொருள் மூலம் குழு நூல்கள், பரிந்துரைகளை உருவாக்கவும் (ஒத்த உரை சரங்களின் பட்டியலை வழங்கவும்), முரண்பாடுகளைக் கண்டறிதல், கருத்துத் திருட்டுகளைக் கண்டறிதல் மற்றும் சோதனைகளை வகைப்படுத்துதல். சட்ட ஆவணங்களின் பகுப்பாய்வு, வணிக பகுப்பாய்வு, அறிவியல் கட்டுரைகளை செயலாக்க மருத்துவ ஆராய்ச்சி, இலக்கிய விமர்சனம், நிதி அறிக்கைகளை பாகுபடுத்துதல் மற்றும் சிக்கலான சிக்கல்களின் சாட்போட் செயலாக்கத்தின் தரத்தை மேம்படுத்துவதற்கான மாதிரியைப் பயன்படுத்துவதற்கான எடுத்துக்காட்டுகள்.

ஜினா-உட்பொதிப்புகள் மாதிரியின் இரண்டு பதிப்புகள் பதிவிறக்கம் செய்யக் கிடைக்கின்றன (அடிப்படை - 0.27 ஜிபி மற்றும் குறைக்கப்பட்டது - 0.07 ஜிபி), ஆங்கிலத்தில் 400 மில்லியன் ஜோடி டெக்ஸ்ட் சீக்வென்ஸில் பயிற்சியளிக்கப்பட்டு, பல்வேறு அறிவுத் துறைகளை உள்ளடக்கியது. பயிற்சியின் போது, ​​512 டோக்கன்கள் அளவு கொண்ட வரிசைகள் பயன்படுத்தப்பட்டன, அவை ALiBi (லீனியர் பயாஸ்ஸுடன் கவனம்) முறையைப் பயன்படுத்தி 8192 அளவுக்கு விரிவாக்கப்பட்டன.

அடிப்படை மாதிரியானது 137 மில்லியன் அளவுருக்களை உள்ளடக்கியது மற்றும் GPU உடன் நிலையான கணினிகளில் பயன்படுத்த வடிவமைக்கப்பட்டுள்ளது. குறைக்கப்பட்ட மாதிரி 33 மில்லியன் அளவுருக்களை உள்ளடக்கியது, குறைவான துல்லியத்தை வழங்குகிறது மற்றும் சிறிய அளவிலான நினைவகத்துடன் மொபைல் சாதனங்கள் மற்றும் கணினிகளில் பயன்படுத்துவதை நோக்கமாகக் கொண்டுள்ளது. எதிர்காலத்தில் அவர்கள் 435 மில்லியன் அளவுருக்களை உள்ளடக்கிய ஒரு பெரிய மாதிரியை வெளியிடவும் திட்டமிட்டுள்ளனர். மாடலின் பன்மொழி பதிப்பும் வளர்ச்சியில் உள்ளது, தற்போது ஜெர்மன் மற்றும் ஸ்பானிஷ் மொழிகளுக்கான ஆதரவில் கவனம் செலுத்துகிறது. LLM கருவித்தொகுப்பு மூலம் ஜினா-உட்பொதித்தல் மாதிரியைப் பயன்படுத்துவதற்கு தனித்தனியாக ஒரு செருகுநிரல் தயாரிக்கப்பட்டுள்ளது.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்