జినా ఎంబెడ్డింగ్ కోసం ఓపెన్ సోర్స్ కోడ్, టెక్స్ట్ అర్థం యొక్క వెక్టర్ ప్రాతినిధ్యం కోసం ఒక నమూనా

Jina Apache 2.0 లైసెన్స్ క్రింద వెక్టార్ టెక్స్ట్ ప్రాతినిధ్యం కోసం మెషీన్ లెర్నింగ్ మోడల్‌ను ఓపెన్ సోర్స్ చేసింది, jina-embeddings-v2. 8192 అక్షరాలతో సహా ఏకపక్ష వచనాన్ని, మూల వచనంతో పోల్చి, దాని అర్థాలను (అర్థం) పునరుత్పత్తి చేసే వెక్టర్‌ను రూపొందించే వాస్తవ సంఖ్యల యొక్క చిన్న శ్రేణిగా మార్చడానికి మోడల్ మిమ్మల్ని అనుమతిస్తుంది. ఓపెన్‌ఏఐ ప్రాజెక్ట్ (టెక్స్ట్-ఎంబెడ్డింగ్-అడా-002) నుండి ప్రొప్రైటరీ టెక్స్ట్ వెక్టరైజేషన్ మోడల్ వలె అదే పనితీరును కలిగి ఉన్న మొదటి ఓపెన్ మెషీన్ లెర్నింగ్ మోడల్ జినా ఎంబెడ్డింగ్, ఇది గరిష్టంగా 8192 టోకెన్‌లతో టెక్స్ట్‌ను ప్రాసెస్ చేయగలదు.

రెండు ఉత్పాదక వెక్టర్‌ల మధ్య దూరాన్ని మూల గ్రంథాల అర్థ సంబంధాన్ని గుర్తించడానికి ఉపయోగించవచ్చు. ఆచరణలో, ఉత్పత్తి చేయబడిన వెక్టర్‌లు పాఠాల సారూప్యతను విశ్లేషించడానికి, టాపిక్‌కు సంబంధించిన మెటీరియల్‌ల కోసం శోధనను నిర్వహించడానికి (సెమాంటిక్ సామీప్యత ద్వారా ర్యాంకింగ్ ఫలితాలు), అర్థం ద్వారా సమూహ పాఠాలు, సిఫార్సులను రూపొందించడానికి (సారూప్య టెక్స్ట్ స్ట్రింగ్‌ల జాబితాను అందించడానికి) ఉపయోగించవచ్చు. క్రమరాహిత్యాలను గుర్తించడం, దోపిడీని గుర్తించడం మరియు పరీక్షలను వర్గీకరించడం. చట్టపరమైన పత్రాల విశ్లేషణ కోసం, వ్యాపార విశ్లేషణల కోసం, శాస్త్రీయ కథనాలను ప్రాసెస్ చేయడం కోసం వైద్య పరిశోధనలో, సాహిత్య విమర్శలో, ఆర్థిక నివేదికలను అన్వయించడం కోసం మరియు సంక్లిష్ట సమస్యల యొక్క చాట్‌బాట్ ప్రాసెసింగ్ నాణ్యతను మెరుగుపరచడం కోసం మోడల్‌ను ఉపయోగించడం వంటి ఉపయోగ ప్రాంతాల ఉదాహరణలు.

జినా-ఎంబెడ్డింగ్స్ మోడల్ యొక్క రెండు వెర్షన్‌లు డౌన్‌లోడ్ చేసుకోవడానికి అందుబాటులో ఉన్నాయి (ప్రాథమిక - 0.27 GB మరియు తగ్గించబడిన - 0.07 GB), వివిధ జ్ఞాన రంగాలను కవర్ చేస్తూ ఆంగ్లంలో 400 మిలియన్ జతల టెక్స్ట్ సీక్వెన్స్‌లపై శిక్షణ పొందింది. శిక్షణ సమయంలో, 512 టోకెన్ల పరిమాణంతో సీక్వెన్సులు ఉపయోగించబడ్డాయి, ఇవి ALiBi (అటెన్షన్ విత్ లీనియర్ బయాసెస్) పద్ధతిని ఉపయోగించి 8192 పరిమాణానికి విస్తరించబడ్డాయి.

ప్రాథమిక నమూనా 137 మిలియన్ పారామితులను కలిగి ఉంటుంది మరియు GPUతో స్థిరమైన సిస్టమ్‌లలో ఉపయోగం కోసం రూపొందించబడింది. తగ్గించబడిన మోడల్ 33 మిలియన్ పారామితులను కలిగి ఉంది, తక్కువ ఖచ్చితత్వాన్ని అందిస్తుంది మరియు తక్కువ మొత్తంలో మెమరీతో మొబైల్ పరికరాలు మరియు సిస్టమ్‌లలో ఉపయోగించడం లక్ష్యంగా పెట్టుకుంది. సమీప భవిష్యత్తులో వారు 435 మిలియన్ పారామితులను కవర్ చేసే పెద్ద మోడల్‌ను కూడా ప్రచురించాలని ప్లాన్ చేస్తున్నారు. మోడల్ యొక్క బహుభాషా వెర్షన్ కూడా అభివృద్ధిలో ఉంది, ప్రస్తుతం జర్మన్ మరియు స్పానిష్‌ల మద్దతుపై దృష్టి సారిస్తోంది. LLM టూల్‌కిట్ ద్వారా జినా-ఎంబెడ్డింగ్‌ల మోడల్‌ను ఉపయోగించడం కోసం ప్రత్యేకంగా ఒక ప్లగ్ఇన్ తయారు చేయబడింది.

మూలం: opennet.ru

ఒక వ్యాఖ్యను జోడించండి