Bingలో ఉపయోగించిన వెక్టార్ శోధన లైబ్రరీని Microsoft ఓపెన్ సోర్స్ చేసింది

మైక్రోసాఫ్ట్ ప్రచురించిన మెషిన్ లెర్నింగ్ లైబ్రరీ సోర్స్ కోడ్‌లు SPTAG (స్పేస్ విభజన చెట్టు మరియు గ్రాఫ్) ఉజ్జాయింపు అల్గారిథమ్ అమలుతో సమీప పొరుగు శోధన. గ్రంధాలయం అభివృద్ధి చేశారు మైక్రోసాఫ్ట్ రీసెర్చ్ మరియు సెర్చ్ టెక్నాలజీ డెవలప్‌మెంట్ సెంటర్ (మైక్రోసాఫ్ట్ సెర్చ్ టెక్నాలజీ సెంటర్) పరిశోధన విభాగంలో. ఆచరణలో, శోధన ప్రశ్నల సందర్భం ఆధారంగా అత్యంత సంబంధిత ఫలితాలను గుర్తించడానికి Bing శోధన ఇంజిన్ ద్వారా SPTAG ఉపయోగించబడుతుంది. కోడ్ C++లో వ్రాయబడింది మరియు ద్వారా పంపిణీ చేయబడింది MIT లైసెన్స్ కింద. Linux మరియు Windows కోసం బిల్డ్ మద్దతు ఉంది. పైథాన్ భాషకు ఒక బైండింగ్ ఉంది.

శోధన ఇంజిన్‌లలో వెక్టార్ నిల్వను ఉపయోగించాలనే ఆలోచన చాలా కాలం నుండి తేలుతున్నప్పటికీ, ఆచరణలో, వెక్టర్స్ మరియు స్కేలబిలిటీ పరిమితులతో కూడిన కార్యకలాపాల యొక్క అధిక వనరుల తీవ్రతతో వాటి అమలుకు ఆటంకం ఏర్పడింది. సమీప పొరుగు శోధన అల్గారిథమ్‌లతో లోతైన యంత్ర అభ్యాస పద్ధతులను కలపడం వలన వెక్టర్ సిస్టమ్‌ల పనితీరు మరియు స్కేలబిలిటీని పెద్ద శోధన ఇంజిన్‌లకు ఆమోదయోగ్యమైన స్థాయికి తీసుకురావడం సాధ్యమైంది. ఉదాహరణకు, Bingలో, 150 బిలియన్ల కంటే ఎక్కువ వెక్టార్ల సూచిక కోసం, అత్యంత సంబంధిత ఫలితాలను పొందే సమయం 8 ms లోపల ఉంటుంది.

లైబ్రరీ సూచికను రూపొందించడానికి మరియు వెక్టార్ శోధనలను నిర్వహించడానికి సాధనాలను కలిగి ఉంటుంది, అలాగే వెక్టర్‌ల యొక్క చాలా పెద్ద సేకరణలను కవర్ చేసే పంపిణీ చేయబడిన ఆన్‌లైన్ శోధన వ్యవస్థను నిర్వహించడానికి సాధనాల సమితిని కలిగి ఉంటుంది. ఇచ్చింది కింది మాడ్యూల్స్: ఇండెక్సింగ్ కోసం ఇండెక్స్ బిల్డర్, అనేక నోడ్‌ల క్లస్టర్‌లో పంపిణీ చేయబడిన ఇండెక్స్‌ని ఉపయోగించి శోధించడం కోసం శోధించేవాడు, నోడ్‌లపై హ్యాండ్లర్‌లను అమలు చేయడానికి సర్వర్, అనేక సర్వర్‌లను ఒకటిగా కలపడానికి అగ్రిగేటర్ మరియు ప్రశ్నలను పంపడానికి క్లయింట్. కొత్త వెక్టర్స్‌ని ఇండెక్స్‌లో చేర్చడం మరియు ఫ్లైలో వెక్టర్స్‌ను తొలగించడం సపోర్టు చేయబడుతుంది.

సేకరణలో ప్రాసెస్ చేయబడిన మరియు సమర్పించబడిన డేటా సంబంధిత వెక్టర్‌ల రూపంలో ఫార్మాట్ చేయబడిందని లైబ్రరీ సూచిస్తుంది, దాని ఆధారంగా పోల్చవచ్చు యూక్లిడియన్ (L2) లేదా కొసైన్ దూరాలు శోధన ప్రశ్న వెక్టర్‌లకు మరియు అసలు వెక్టర్‌కు మధ్య దూరం తక్కువగా ఉన్న వెక్టర్‌లను అందిస్తుంది. SPTAG వెక్టర్ స్థలాన్ని నిర్వహించడానికి రెండు పద్ధతులను అందిస్తుంది: SPTAG-KDT (K-డైమెన్షనల్ ట్రీ (kd-చెట్టు) మరియు సాపేక్ష పొరుగు గ్రాఫ్) మరియు SPTAG-BKT (k-అంటే చెట్టు (k-అంటే చెట్టు మరియు సంబంధిత పొరుగు గ్రాఫ్). ఇండెక్స్‌తో పని చేస్తున్నప్పుడు మొదటి పద్ధతికి తక్కువ వనరులు అవసరమవుతాయి మరియు రెండవది వెక్టర్స్ యొక్క చాలా పెద్ద సేకరణల కోసం శోధన ఫలితాల యొక్క అధిక ఖచ్చితత్వాన్ని ప్రదర్శిస్తుంది.

అదే సమయంలో, వెక్టార్ శోధన టెక్స్ట్‌కు మాత్రమే పరిమితం కాదు మరియు మల్టీమీడియా సమాచారం మరియు చిత్రాలకు, అలాగే స్వయంచాలకంగా సిఫార్సులను రూపొందించడానికి సిస్టమ్‌లలో వర్తించబడుతుంది. ఉదాహరణకు, PyTorch ఫ్రేమ్‌వర్క్‌పై ఆధారపడిన ప్రోటోటైప్‌లలో ఒకటి, చిత్రాలలోని వస్తువుల సారూప్యత ఆధారంగా శోధించడానికి వెక్టర్ సిస్టమ్‌ను అమలు చేసింది, జంతువులు, పిల్లులు మరియు కుక్కల చిత్రాలతో అనేక సూచన సేకరణల నుండి డేటాను ఉపయోగించి నిర్మించబడింది, వీటిని వెక్టర్స్ సెట్‌లుగా మార్చారు. . శోధన కోసం ఇన్‌కమింగ్ ఇమేజ్‌ని స్వీకరించినప్పుడు, అది మెషిన్ లెర్నింగ్ మోడల్‌ని ఉపయోగించి వెక్టర్‌గా మార్చబడుతుంది, దీని ఆధారంగా SPTAG అల్గారిథమ్‌ని ఉపయోగించి ఇండెక్స్ నుండి చాలా సారూప్యమైన వెక్టర్‌లు ఎంపిక చేయబడతాయి మరియు ఫలితంగా అనుబంధిత చిత్రాలు తిరిగి ఇవ్వబడతాయి.

మూలం: opennet.ru

ఒక వ్యాఖ్యను జోడించండి