Jina Embedding සඳහා විවෘත මූලාශ්‍ර කේතය, පෙළ අර්ථයේ දෛශික නිරූපණය සඳහා ආකෘතියකි

Jina Apache 2.0 බලපත්‍රය යටතේ දෛශික පෙළ නිරූපණය සඳහා යන්ත්‍ර ඉගෙනුම් ආකෘතියක්, jina-embeddings-v2 විවෘත-මූලාශ්‍ර කර ඇත. අනුලකුණු 8192 ක් දක්වා අත්තනෝමතික පෙළ, ප්‍රභව පෙළ සමඟ සංසන්දනය කර එහි අර්ථ නිරූපණය (අර්ථය) සමඟ සංසන්දනය කරන දෛශිකයක් සාදන තාත්වික සංඛ්‍යාවල කුඩා අනුක්‍රමයක් බවට පරිවර්තනය කිරීමට ආකෘතිය ඔබට ඉඩ සලසයි. Jina Embedding යනු OpenAI ව්‍යාපෘතියේ (text-embedding-ada-002) හිමිකාර පෙළ දෛශික ආකෘතියට සමාන කාර්ය සාධනයක් ඇති ප්‍රථම විවෘත යන්ත්‍ර ඉගෙනුම් ආකෘතිය වන අතර, ටෝකන 8192ක් දක්වා පෙළ සැකසීමට ද හැකියාව ඇත.

ජනනය කරන ලද දෛශික දෙකක් අතර දුර මූලාශ්‍ර පාඨවල අර්ථකථන සම්බන්ධතාවය තීරණය කිරීමට භාවිතා කළ හැක. ප්‍රායෝගිකව, උත්පාදනය කරන ලද දෛශික පෙළෙහි සමානතාවය විශ්ලේෂණය කිරීමට, මාතෘකාවට අදාළ ද්‍රව්‍ය සඳහා සෙවීමක් සංවිධානය කිරීමට (අර්ථාර්ථමය සමීපත්වය අනුව ප්‍රතිඵල ශ්‍රේණිගත කිරීම), අර්ථයෙන් පෙළ පෙළ සැකසීමට, නිර්දේශ උත්පාදනය කිරීමට (සමාන පෙළ තන්තු ලැයිස්තුවක් පිරිනැමීමට) භාවිතා කළ හැකිය. විෂමතා හඳුනා ගැනීම, කොල්ලකෑම් හඳුනා ගැනීම සහ පරීක්ෂණ වර්ගීකරණය කිරීම. නීතිමය ලියකියවිලි විශ්ලේෂණය සඳහා, ව්‍යාපාර විශ්ලේෂණ සඳහා, විද්‍යාත්මක ලිපි සැකසීම සඳහා වෛද්‍ය පර්යේෂණ සඳහා, සාහිත්‍ය විවේචනයේදී, මූල්‍ය වාර්තා විග්‍රහ කිරීමට සහ සංකීර්ණ ගැටළු සඳහා චැට්බෝට් සැකසීමේ ගුණාත්මකභාවය වැඩි දියුණු කිරීම සඳහා ආකෘතිය භාවිතා කිරීම භාවිත ක්ෂේත්‍ර සඳහා උදාහරණ වේ.

jina-embeddings මාදිලියේ අනුවාද දෙකක් බාගත කිරීම සඳහා ලබා ගත හැකිය (මූලික - 0.27 GB සහ අඩු - 0.07 GB), විවිධ දැනුමේ ක්ෂේත්‍ර ආවරණය වන පරිදි ඉංග්‍රීසි භාෂාවෙන් පෙළ අනුපිළිවෙල යුගල මිලියන 400 ක් මත පුහුණු කර ඇත. පුහුණුව අතරතුර, ටෝකන 512 ක ප්‍රමාණයකින් යුත් අනුපිළිවෙලවල් භාවිතා කරන ලද අතර, ඒවා ALiBi (රේඛීය පක්ෂග්‍රාහී සමග අවධානය) ක්‍රමය භාවිතයෙන් 8192 ප්‍රමාණයකට විකාශනය කරන ලදී.

මූලික ආකෘතියට පරාමිතීන් මිලියන 137 ක් ඇතුළත් වන අතර GPU සමඟ ස්ථාවර පද්ධතිවල භාවිතය සඳහා නිර්මාණය කර ඇත. අඩු කරන ලද ආකෘතියට පරාමිතීන් මිලියන 33 ක් ඇතුළත් වේ, අඩු නිරවද්‍යතාවයක් සපයන අතර කුඩා මතක ප්‍රමාණයක් සහිත ජංගම උපාංග සහ පද්ධතිවල භාවිතය ඉලක්ක කර ඇත. නුදුරු අනාගතයේ දී ඔවුන් පරාමිති මිලියන 435 ක් ආවරණය වන පරිදි විශාල ආකෘතියක් ප්‍රකාශයට පත් කිරීමට ද සැලසුම් කරයි. ආකෘතියේ බහුභාෂා අනුවාදයක් ද සංවර්ධනය වෙමින් පවතී, දැනට ජර්මානු සහ ස්පාඤ්ඤ සඳහා සහය දැක්වීම කෙරෙහි අවධානය යොමු කරයි. LLM මෙවලම් කට්ටලය හරහා jina-Embeddings ආකෘතිය භාවිතා කිරීම සඳහා ප්ලගිනයක් වෙන වෙනම සකස් කර ඇත.

මූලාශ්රය: opennet.ru

අදහස් එක් කරන්න