Microsoft huet d'Vektorsichbibliothéik opgemaach, déi am Bing benotzt gëtt

Microsoft Firma publizéiert Maschinn Léieren Bibliothéik Quellcodes SPTAG (Space Partition Tree And Graph) mat Ëmsetzung vum geschätzte Algorithmus noosten Noper Sich. Bibliothéik entwéckelt an der Fuerschungsdivisioun vu Microsoft Research an dem Sichtechnologie Entwécklungszenter (Microsoft Search Technology Center). An der Praxis gëtt SPTAG vun der Bing Sichmotor benotzt fir déi relevantst Resultater ze bestëmmen baséiert op de Kontext vun de Sichufroen. De Code ass an C ++ geschriwwen an verdeelt duerch ënner MIT Lizenz. Build fir Linux a Windows gëtt ënnerstëtzt. Et gëtt eng Bindung fir d'Python Sprooch.

Trotz der Tatsaach datt d'Iddi fir Vektorlagerung a Sichmotoren ze benotzen fir eng laang Zäit ronderëm schwëmmt, an der Praxis ass hir Ëmsetzung behënnert vun der héijer Ressourceintensitéit vun Operatiounen mat Vektoren a Skalierbarkeetbeschränkungen. D'Kombinatioun vun Deep Machine Learning Methoden mat ongeféieren noosten Noper Sich Algorithmen huet et méiglech gemaach d'Performance an d'Skalierbarkeet vu Vecteure Systemer op e Niveau akzeptabel fir grouss Sichmotoren ze bréngen. Zum Beispill, am Bing, fir e Vektorindex vun iwwer 150 Milliarde Vecteure, ass d'Zäit fir déi relevantst Resultater ze kréien bannent 8 ms.

D'Bibliothéik enthält Tools fir en Index ze bauen an Vektorsich ze organiséieren, souwéi eng Rei vun Tools fir e verdeelt Online Sichsystem z'erhalen deen ganz grouss Sammlunge vu Vecteure deckt. Ugebueden déi folgend Moduler: Index Builder fir Indexéierung, Sicher fir Sich mat engem Index verdeelt an engem Cluster vu verschiddene Wirbelen, Server fir Handler op Wirbelen ze lafen, Aggregator fir e puer Serveren an een ze kombinéieren, a Client fir Ufroen ze schécken. D'Inklusioun vun neie Vektoren an den Index an d'Läsche vu Vektoren op der Flucht gëtt ënnerstëtzt.

D'Bibliothéik implizéiert datt d'Daten, déi an der Sammlung veraarbecht a presentéiert ginn, formatéiert sinn a Form vu verwandte Vektoren, déi vergläicht kënne ginn baséiert op Euklidesch (L2) oder cosinus Distanzen D'Sichnofro gëtt Vektoren zréck, deenen hir Distanz tëscht hinnen an dem urspréngleche Vektor minimal ass. SPTAG bitt zwou Methoden fir Vektorraum ze organiséieren: SPTAG-KDT (K-dimensional Bam (kd-baum) an relativ Quartier Grafik) und SPTAG-BKT (k-bedeit Bam (k-bedeit Bam a relativ Quartier Grafik). Déi éischt Method erfuerdert manner Ressourcen wann Dir mam Index schafft, an déi zweet weist méi héich Genauegkeet vu Sichresultater fir ganz grouss Sammlunge vu Vektoren.

Zur selwechter Zäit ass Vecteure Sich net limitéiert op Text a kann op Multimedia Informatioun a Biller applizéiert ginn, souwéi a Systemer fir automatesch Empfehlungen ze generéieren. Zum Beispill huet ee vun de Prototypen op Basis vum PyTorch Kader e Vektorsystem implementéiert fir d'Sich baséiert op der Ähnlechkeet vun Objeten a Biller, gebaut mat Daten aus verschiddene Referenzkollektiounen mat Biller vun Déieren, Kazen an Hënn, déi an Sets vu Vecteure ëmgewandelt goufen. . Wann en erakommt Bild fir d'Sich kritt gëtt, gëtt et mat engem Maschinnléiermodell an e Vektor ëmgewandelt, baséiert op deem déi ähnlechst Vektoren aus dem Index mat dem SPTAG Algorithmus ausgewielt ginn an déi assoziéiert Biller als Resultat zréckginn.

Source: opennet.ru

Setzt e Commentaire