Microsoft opinn uppspretta vektorleitarsafnsins sem notað var í Bing

Microsoft опубликовала frumkóðar vélnámssafns SPTAG (Space Partition Tree And Graph) með útfærslu á áætlaðri reiknirit næsta nágrannaleit. Bókasafn þróað í rannsóknardeild Microsoft Research og leitartækniþróunarsetri (Microsoft Search Technology Center). Í reynd er SPTAG notað af Bing leitarvélinni til að ákvarða viðeigandi niðurstöður út frá samhengi leitarfyrirspurna. Kóðinn er skrifaður í C++ og dreift af undir MIT leyfi. Bygging fyrir Linux og Windows er studd. Það er binding fyrir Python tungumálið.

Þrátt fyrir þá staðreynd að hugmyndin um að nota vektorgeymslu í leitarvélum hafi verið á sveimi í nokkuð langan tíma, er framkvæmd þeirra í reynd hindruð af mikilli auðlindastyrk starfsemi með vektorum og sveigjanleikatakmörkunum. Með því að sameina djúpar vélanámsaðferðir við áætluð reiknirit fyrir næstu nágrannaleit hefur það gert það mögulegt að koma afköstum og sveigjanleika vektorkerfa á það stig sem er ásættanlegt fyrir stórar leitarvélar. Til dæmis, í Bing, fyrir vektorvísitölu yfir 150 milljarða vigra, er tíminn til að sækja mikilvægustu niðurstöðurnar innan 8 ms.

Safnið inniheldur verkfæri til að byggja upp vísitölu og skipuleggja vektorleit, auk verkfæra til að viðhalda dreifðu leitarkerfi á netinu sem nær yfir mjög stórt safn vigra. Boðið eftirfarandi einingar: vísitölugerð fyrir flokkun, leitarforrit til að leita með vísitölu sem er dreift í þyrping nokkurra hnúta, miðlara til að keyra meðhöndlara á hnútum, Aggregator til að sameina nokkra netþjóna í einn og biðlara til að senda fyrirspurnir. Stuðningur er við að taka nýja vektora inn í vísitöluna og eyða vektorum á flugu.

Safnið gefur til kynna að gögnin sem unnin eru og kynnt í safninu eru sniðin í formi tengdra vigra sem hægt er að bera saman út frá Euklíðskt (L2) eða kósínus vegalengdir Leitarfyrirspurnin skilar vigurum þar sem fjarlægðin á milli þeirra og upprunalega vektorsins er í lágmarki. SPTAG býður upp á tvær aðferðir til að skipuleggja vigurrými: SPTAG-KDT (K-víddartré (kd-tré) Og hlutfallslegt hverfisgraf) og SPTAG-BKT (k-merkir tré (k-merkir tré og hlutfallslegt hverfisgraf). Fyrri aðferðin krefst minna fjármagns þegar unnið er með vísitöluna, og sú síðari sýnir meiri nákvæmni leitarniðurstaðna fyrir mjög stór söfn vigra.

Á sama tíma er vektorleit ekki takmörkuð við texta og hægt er að nota hana á margmiðlunarupplýsingar og myndir, sem og í kerfum til að búa til ráðleggingar sjálfkrafa. Til dæmis, ein af frumgerðunum sem byggðar voru á PyTorch rammanum innleiddi vektorkerfi til að leita byggt á líkindum hluta í myndum, byggt með því að nota gögn úr nokkrum tilvísunarsöfnum með myndum af dýrum, köttum og hundum, sem var breytt í sett af vektorum. . Þegar móttekin mynd er móttekin til leitar er henni breytt með því að nota vélanámslíkan í vektor, sem byggir á því að líkustu vektorarnir eru valdir úr vísitölunni með því að nota SPTAG reikniritið og tilheyrandi myndum er skilað í kjölfarið.

Heimild: opennet.ru

Bæta við athugasemd