Jina Apache 2.0 లైసెన్స్ క్రింద వెక్టార్ టెక్స్ట్ ప్రాతినిధ్యం కోసం మెషీన్ లెర్నింగ్ మోడల్ను ఓపెన్ సోర్స్ చేసింది, jina-embeddings-v2. 8192 అక్షరాలతో సహా ఏకపక్ష వచనాన్ని, మూల వచనంతో పోల్చి, దాని అర్థాలను (అర్థం) పునరుత్పత్తి చేసే వెక్టర్ను రూపొందించే వాస్తవ సంఖ్యల యొక్క చిన్న శ్రేణిగా మార్చడానికి మోడల్ మిమ్మల్ని అనుమతిస్తుంది. ఓపెన్ఏఐ ప్రాజెక్ట్ (టెక్స్ట్-ఎంబెడ్డింగ్-అడా-002) నుండి ప్రొప్రైటరీ టెక్స్ట్ వెక్టరైజేషన్ మోడల్ వలె అదే పనితీరును కలిగి ఉన్న మొదటి ఓపెన్ మెషీన్ లెర్నింగ్ మోడల్ జినా ఎంబెడ్డింగ్, ఇది గరిష్టంగా 8192 టోకెన్లతో టెక్స్ట్ను ప్రాసెస్ చేయగలదు.
రెండు ఉత్పాదక వెక్టర్ల మధ్య దూరాన్ని మూల గ్రంథాల అర్థ సంబంధాన్ని గుర్తించడానికి ఉపయోగించవచ్చు. ఆచరణలో, ఉత్పత్తి చేయబడిన వెక్టర్లు పాఠాల సారూప్యతను విశ్లేషించడానికి, టాపిక్కు సంబంధించిన మెటీరియల్ల కోసం శోధనను నిర్వహించడానికి (సెమాంటిక్ సామీప్యత ద్వారా ర్యాంకింగ్ ఫలితాలు), అర్థం ద్వారా సమూహ పాఠాలు, సిఫార్సులను రూపొందించడానికి (సారూప్య టెక్స్ట్ స్ట్రింగ్ల జాబితాను అందించడానికి) ఉపయోగించవచ్చు. క్రమరాహిత్యాలను గుర్తించడం, దోపిడీని గుర్తించడం మరియు పరీక్షలను వర్గీకరించడం. చట్టపరమైన పత్రాల విశ్లేషణ కోసం, వ్యాపార విశ్లేషణల కోసం, శాస్త్రీయ కథనాలను ప్రాసెస్ చేయడం కోసం వైద్య పరిశోధనలో, సాహిత్య విమర్శలో, ఆర్థిక నివేదికలను అన్వయించడం కోసం మరియు సంక్లిష్ట సమస్యల యొక్క చాట్బాట్ ప్రాసెసింగ్ నాణ్యతను మెరుగుపరచడం కోసం మోడల్ను ఉపయోగించడం వంటి ఉపయోగ ప్రాంతాల ఉదాహరణలు.
జినా-ఎంబెడ్డింగ్స్ మోడల్ యొక్క రెండు వెర్షన్లు డౌన్లోడ్ చేసుకోవడానికి అందుబాటులో ఉన్నాయి (ప్రాథమిక - 0.27 GB మరియు తగ్గించబడిన - 0.07 GB), వివిధ జ్ఞాన రంగాలను కవర్ చేస్తూ ఆంగ్లంలో 400 మిలియన్ జతల టెక్స్ట్ సీక్వెన్స్లపై శిక్షణ పొందింది. శిక్షణ సమయంలో, 512 టోకెన్ల పరిమాణంతో సీక్వెన్సులు ఉపయోగించబడ్డాయి, ఇవి ALiBi (అటెన్షన్ విత్ లీనియర్ బయాసెస్) పద్ధతిని ఉపయోగించి 8192 పరిమాణానికి విస్తరించబడ్డాయి.
ప్రాథమిక నమూనా 137 మిలియన్ పారామితులను కలిగి ఉంటుంది మరియు GPUతో స్థిరమైన సిస్టమ్లలో ఉపయోగం కోసం రూపొందించబడింది. తగ్గించబడిన మోడల్ 33 మిలియన్ పారామితులను కలిగి ఉంది, తక్కువ ఖచ్చితత్వాన్ని అందిస్తుంది మరియు తక్కువ మొత్తంలో మెమరీతో మొబైల్ పరికరాలు మరియు సిస్టమ్లలో ఉపయోగించడం లక్ష్యంగా పెట్టుకుంది. సమీప భవిష్యత్తులో వారు 435 మిలియన్ పారామితులను కవర్ చేసే పెద్ద మోడల్ను కూడా ప్రచురించాలని ప్లాన్ చేస్తున్నారు. మోడల్ యొక్క బహుభాషా వెర్షన్ కూడా అభివృద్ధిలో ఉంది, ప్రస్తుతం జర్మన్ మరియు స్పానిష్ల మద్దతుపై దృష్టి సారిస్తోంది. LLM టూల్కిట్ ద్వారా జినా-ఎంబెడ్డింగ్ల మోడల్ను ఉపయోగించడం కోసం ప్రత్యేకంగా ఒక ప్లగ్ఇన్ తయారు చేయబడింది.
మూలం: opennet.ru