பிங்கில் பயன்படுத்தப்படும் வெக்டர் தேடல் நூலகத்தை மைக்ரோசாப்ட் ஓப்பன் சோர்ஸ் செய்தது

மைக்ரோசாப்ட் நிறுவனம் வெளியிடப்பட்ட இயந்திர கற்றல் நூலக மூல குறியீடுகள் SPTAG (விண்வெளி பகிர்வு மரம் மற்றும் வரைபடம்) தோராயமான வழிமுறையை செயல்படுத்துதல் அருகிலுள்ள அண்டை தேடல். நூலகம் உருவாக்கப்பட்டது மைக்ரோசாஃப்ட் ரிசர்ச் மற்றும் தேடல் தொழில்நுட்ப மேம்பாட்டு மையத்தின் (மைக்ரோசாப்ட் தேடல் தொழில்நுட்ப மையம்) ஆராய்ச்சிப் பிரிவில். நடைமுறையில், தேடல் வினவல்களின் சூழலின் அடிப்படையில் மிகவும் பொருத்தமான முடிவுகளைத் தீர்மானிக்க Bing தேடுபொறியால் SPTAG பயன்படுத்தப்படுகிறது. குறியீடு C++ இல் எழுதப்பட்டுள்ளது மற்றும் வழங்கியது MIT உரிமத்தின் கீழ். Linux மற்றும் Windows க்கான உருவாக்கம் ஆதரிக்கப்படுகிறது. பைதான் மொழிக்கு ஒரு பிணைப்பு உள்ளது.

தேடுபொறிகளில் வெக்டார் சேமிப்பகத்தைப் பயன்படுத்துவதற்கான யோசனை நீண்ட காலமாக மிதந்து வந்த போதிலும், நடைமுறையில், வெக்டர்கள் மற்றும் அளவிடுதல் வரம்புகள் கொண்ட செயல்பாடுகளின் அதிக வள தீவிரத்தால் அவற்றின் செயல்படுத்தல் தடைபடுகிறது. ஆழமான இயந்திர கற்றல் முறைகளை தோராயமாக அருகிலுள்ள அண்டை தேடல் அல்காரிதம்களுடன் இணைப்பது வெக்டார் அமைப்புகளின் செயல்திறன் மற்றும் அளவிடுதல் ஆகியவற்றை பெரிய தேடுபொறிகளுக்கு ஏற்றுக்கொள்ளக்கூடிய நிலைக்கு கொண்டு வருவதை சாத்தியமாக்கியுள்ளது. எடுத்துக்காட்டாக, Bing இல், 150 பில்லியனுக்கும் மேலான வெக்டார் குறியீட்டிற்கு, மிகவும் பொருத்தமான முடிவுகளைப் பெறுவதற்கான நேரம் 8 msக்குள் இருக்கும்.

நூலகத்தில் ஒரு குறியீட்டை உருவாக்குவதற்கும் திசையன் தேடல்களை ஒழுங்கமைப்பதற்கும் கருவிகள் உள்ளன, அத்துடன் திசையன்களின் மிகப் பெரிய சேகரிப்புகளை உள்ளடக்கிய விநியோகிக்கப்பட்ட ஆன்லைன் தேடல் அமைப்பைப் பராமரிப்பதற்கான கருவிகளின் தொகுப்பையும் உள்ளடக்கியது. வழங்கப்படுகிறது பின்வரும் தொகுதிகள்: அட்டவணைப்படுத்துவதற்கான குறியீட்டு உருவாக்கி, பல முனைகளின் தொகுப்பில் விநியோகிக்கப்பட்ட குறியீட்டைப் பயன்படுத்தி தேடுவதற்கான தேடுபொறி, முனைகளில் கையாளுபவர்களை இயக்குவதற்கான சேவையகம், பல சேவையகங்களை ஒன்றாக இணைப்பதற்கான திரட்டி மற்றும் வினவல்களை அனுப்புவதற்கான கிளையன்ட். புதிய திசையன்களை குறியீட்டில் சேர்ப்பது மற்றும் பறக்கும்போது திசையன்களை நீக்குவது ஆதரிக்கப்படுகிறது.

சேகரிப்பில் செயலாக்கப்பட்ட மற்றும் வழங்கப்பட்ட தரவு தொடர்புடைய திசையன்களின் வடிவத்தில் வடிவமைக்கப்பட்டுள்ளது என்பதை நூலகம் குறிக்கிறது, அதன் அடிப்படையில் ஒப்பிடலாம் யூக்ளிடியன் (L2) அல்லது கொசைன் தூரங்கள் தேடல் வினவல் திசையன்களுக்கும் அசல் திசையனுக்கும் இடையே உள்ள தூரம் குறைவாக உள்ள திசையன்களை வழங்குகிறது. SPTAG திசையன் இடத்தை ஒழுங்கமைக்க இரண்டு முறைகளை வழங்குகிறது: SPTAG-KDT (K- பரிமாண மரம் (kd-மரம்) மற்றும் தொடர்புடைய சுற்றுப்புற வரைபடம்) மற்றும் SPTAG-BKT (k- என்றால் மரம் (k- என்றால் மரம் மற்றும் உறவினர் அக்கம் வரைபடம்). குறியீட்டுடன் பணிபுரியும் போது முதல் முறைக்கு குறைந்த ஆதாரங்கள் தேவைப்படுகின்றன, மேலும் இரண்டாவது திசையன்களின் மிகப்பெரிய சேகரிப்புகளுக்கான தேடல் முடிவுகளின் அதிக துல்லியத்தை நிரூபிக்கிறது.

அதே நேரத்தில், திசையன் தேடல் உரைக்கு மட்டுப்படுத்தப்படவில்லை மற்றும் மல்டிமீடியா தகவல் மற்றும் படங்கள் மற்றும் தானாக பரிந்துரைகளை உருவாக்கும் அமைப்புகளில் பயன்படுத்தப்படலாம். எடுத்துக்காட்டாக, PyTorch கட்டமைப்பின் அடிப்படையிலான முன்மாதிரிகளில் ஒன்று, படங்களில் உள்ள பொருட்களின் ஒற்றுமையின் அடிப்படையில் தேடலுக்கான திசையன் அமைப்பைச் செயல்படுத்தியது, இது பல குறிப்பு சேகரிப்புகளின் தரவுகளைப் பயன்படுத்தி விலங்குகள், பூனைகள் மற்றும் நாய்களின் படங்களுடன் வடிவமைக்கப்பட்டுள்ளது, அவை திசையன்களின் தொகுப்பாக மாற்றப்பட்டன. . தேடலுக்காக உள்வரும் படம் பெறப்பட்டால், அது இயந்திர கற்றல் மாதிரியைப் பயன்படுத்தி ஒரு திசையனாக மாற்றப்படுகிறது, அதன் அடிப்படையில் SPTAG வழிமுறையைப் பயன்படுத்தி குறியீட்டிலிருந்து மிகவும் ஒத்த திசையன்கள் தேர்ந்தெடுக்கப்பட்டு, அதனுடன் தொடர்புடைய படங்கள் அதன் விளைவாகத் திரும்பும்.

ஆதாரம்: opennet.ru

கருத்தைச் சேர்