Microsoft китобхонаи ҷустуҷӯии векториро, ки дар Bing истифода мешавад, кушодааст

Ширкати Microsoft нашр шудааст рамзҳои сарчашмаҳои китобхонаи омӯзиши мошин СПТАГ (Space Partition Tree And Graph) бо татбиқи алгоритми тахминӣ ҷустуҷӯи ҳамсояи наздиктарин. Китобхона таҳия шудааст дар шӯъбаи тадқиқотии Microsoft Research ва маркази рушди технологияҳои ҷустуҷӯ (Маркази технологияҳои ҷустуҷӯии Microsoft). Дар амал, SPTAG аз ҷониби системаи ҷустуҷӯии Bing барои муайян кардани натиҷаҳои мувофиқтарин дар асоси контексти дархостҳои ҷустуҷӯ истифода мешавад. Рамз дар C++ навишта шудааст ва паҳн мекунад таҳти иҷозатномаи MIT. Сохтани Linux ва Windows дастгирӣ карда мешавад. Барои забони Python ҳатмӣ вуҷуд дорад.

Сарфи назар аз он, ки идеяи истифодаи захираи векторӣ дар системаҳои ҷустуҷӯ муддати тӯлонӣ паҳн шудааст, дар амал татбиқи онҳо бо шиддатнокии баланди захираҳои амалиёт бо векторҳо ва маҳдудиятҳои миқёспазирӣ монеъ мешавад. Якҷоя кардани усулҳои омӯзиши амиқи мошинсозӣ бо алгоритмҳои тақрибии ҷустуҷӯи ҳамсояи наздиктарин имкон дод, ки коршоямӣ ва миқёспазирии системаҳои векторӣ ба сатҳи қобили қабул барои муҳаррикҳои ҷустуҷӯии калон расонида шавад. Масалан, дар Bing, барои индекси вектории зиёда аз 150 миллиард вектор, вақти ба даст овардани натиҷаҳои мувофиқтарин дар ҳудуди 8 мс аст.

Китобхона асбобҳоро барои сохтани индекс ва ташкили ҷустуҷӯҳои векторӣ, инчунин маҷмӯи асбобҳо барои нигоҳ доштани системаи паҳншудаи ҷустуҷӯи онлайн, ки коллексияи хеле калони векторҳоро фаро мегирад, дар бар мегирад. Пешниҳод карда мешавад модулҳои зерин: эҷодкунандаи индекс барои индексатсия, ҷустуҷӯкунанда барои ҷустуҷӯ бо истифода аз индекси дар кластери якчанд гиреҳҳо тақсимшуда, сервер барои коркарди коркардкунандагон дар гиреҳҳо, агрегатор барои муттаҳид кардани якчанд серверҳо дар як ва муштарӣ барои фиристодани дархостҳо. Дохил кардани векторҳои нав ба индекс ва нест кардани векторҳо дар парвоз дастгирӣ карда мешавад.

Китобхона маънои онро дорад, ки маълумоте, ки дар маҷмӯа коркард ва пешниҳод карда мешавад, дар шакли векторҳои алоқаманд формат карда мешавад, ки онҳоро дар асоси муқоиса кардан мумкин аст. Евклидӣ (L2) ё косинус масофахо Дархости ҷустуҷӯ векторҳоеро бармегардонад, ки масофаи байни онҳо ва вектори аслӣ ҳадди ақалл аст. SPTAG ду усули ташкили фазои векториро пешниҳод мекунад: SPTAG-KDT (дарахти андозагирии K (кд-дарахт) ва Графикаи ҳамсоягии нисбӣ) ва SPTAG-BKT (k-маънои дарахт (к-маънои дарахт ва графики ҳамсоягии нисбӣ). Усули якум ҳангоми кор бо индекс захираҳои камтарро талаб мекунад ва дуюмаш дақиқии баландтари натиҷаҳои ҷустуҷӯро барои коллексияҳои хеле калони векторҳо нишон медиҳад.

Дар айни замон, ҷустуҷӯи векторӣ бо матн маҳдуд намешавад ва онро метавон ба иттилоот ва тасвирҳои мултимедиявӣ, инчунин дар системаҳои ба таври худкор тавлидкунандаи тавсияҳо истифода бурд. Масалан, яке аз прототипҳо дар чаҳорчӯбаи PyTorch системаи вектории ҷустуҷӯро дар асоси шабоҳати объектҳо дар тасвирҳо амалӣ намуд, ки бо истифода аз маълумот аз якчанд маҷмӯаҳои истинод бо тасвирҳои ҳайвонот, гурбаҳо ва сагҳо сохта шудааст, ки ба маҷмӯи векторҳо табдил дода шудаанд. . Вақте ки тасвири воридотӣ барои ҷустуҷӯ қабул карда мешавад, он бо истифода аз модели омӯзиши мошинсозӣ ба вектор табдил дода мешавад, ки дар асоси он векторҳои бештар шабеҳ аз индекс бо истифода аз алгоритми SPTAG интихоб карда мешаванд ва дар натиҷа тасвирҳои алоқаманд баргардонида мешаванд.

Манбаъ: opennet.ru

Илова Эзоҳ