Microsoft open sourced il-librerija tat-tiftix tal-vettur użata f'Bing

Kumpanija Microsoft ippubblikat kodiċi tas-sors tal-librerija tat-tagħlim bil-magni SPTAG (Spazju Partition Tree And Graph) bl-implimentazzjoni tal-algoritmu approssimattiv tfittxija għall-eqreb ġar. Librerija żviluppati fid-diviżjoni tar-riċerka ta 'Microsoft Research u ċ-ċentru ta' żvilupp tat-teknoloġija tat-tiftix (Microsoft Search Technology Center). Fil-prattika, SPTAG jintuża mill-magna tat-tiftix Bing biex tiddetermina l-aktar riżultati rilevanti bbażati fuq il-kuntest tal-mistoqsijiet tat-tiftix. Il-kodiċi huwa miktub f'C++ u imqassma minn taħt liċenzja MIT. Jibni għal Linux u Windows huwa appoġġjat. Hemm rabta għall-lingwa Python.

Minkejja l-fatt li l-idea tal-użu tal-ħażna tal-vettur fil-magni tat-tiftix ilha għaddejja għal żmien pjuttost twil, fil-prattika, l-implimentazzjoni tagħhom hija mfixkla mill-intensità għolja tar-riżorsi ta 'operazzjonijiet b'vettori u limitazzjonijiet tal-iskalabbiltà. Il-kombinazzjoni ta 'metodi ta' tagħlim tal-magni fil-fond ma 'algoritmi approssimattivi ta' tfittxija tal-ġirien għamlitha possibbli li l-prestazzjoni u l-iskalabbiltà tas-sistemi tal-vettur jinġiebu għal livell aċċettabbli għal magni tat-tiftix kbar. Pereżempju, f'Bing, għal indiċi ta' vettur ta' aktar minn 150 biljun vettur, iż-żmien biex jinkisbu l-aktar riżultati rilevanti huwa fi żmien 8 ms.

Il-librerija tinkludi għodod għall-bini ta’ indiċi u l-organizzazzjoni ta’ tfittxijiet ta’ vettori, kif ukoll sett ta’ għodod għaż-żamma ta’ sistema ta’ tfittxija mqassma onlajn li tkopri kollezzjonijiet kbar ħafna ta’ vettori. Offruta il-moduli li ġejjin: bennej tal-indiċi għall-indiċjar, tfittxija għat-tiftix bl-użu ta 'indiċi mqassam f'grupp ta' diversi nodi, server għat-tmexxija ta 'handlers fuq nodi, Aggregator biex jgħaqqad diversi servers f'wieħed, u klijent biex jintbagħtu mistoqsijiet. L-inklużjoni ta 'vectors ġodda fl-indiċi u t-tħassir ta' vettori fuq il-fly hija appoġġjata.

Il-librerija timplika li d-dejta pproċessata u ppreżentata fil-kollezzjoni hija fformattjata fil-forma ta’ vettori relatati li jistgħu jitqabblu bbażati fuq Ewklidjana (L2) jew cosine distanzi Il-mistoqsija tat-tfittxija tirritorna vettori li d-distanza tagħhom bejniethom u l-vettur oriġinali hija minima. SPTAG jipprovdi żewġ metodi għall-organizzazzjoni tal-ispazju tal-vettur: SPTAG-KDT (siġra K-dimensjonali (kd-siġra) U graff tal-viċinat relattiv) u SPTAG-BKT (k-means tree (k- tfisser siġra u grafika tal-viċinat relattiva). L-ewwel metodu jeħtieġ inqas riżorsi meta taħdem ma 'l-indiċi, u t-tieni juri preċiżjoni ogħla tar-riżultati tat-tfittxija għal kollezzjonijiet kbar ħafna ta' vettori.

Fl-istess ħin, it-tfittxija tal-vettur mhix limitata għat-test u tista 'tiġi applikata għal informazzjoni u stampi multimedjali, kif ukoll f'sistemi għall-ġenerazzjoni awtomatika ta' rakkomandazzjonijiet. Pereżempju, wieħed mill-prototipi ibbażati fuq il-qafas PyTorch implimenta sistema ta’ vettur għat-tiftix ibbażata fuq ix-xebh ta’ oġġetti fl-immaġini, mibnija bl-użu ta’ dejta minn diversi kollezzjonijiet ta’ referenza bi stampi ta’ annimali, qtates u klieb, li ġew ikkonvertiti f’settijiet ta’ vettori. . Meta immaġni deħlin tiġi riċevuta għat-tfittxija, hija kkonvertita bl-użu ta 'mudell ta' tagħlim tal-magni f'vettur, li abbażi tiegħu jintgħażlu l-aktar vettori simili mill-indiċi bl-użu tal-algoritmu SPTAG u l-immaġini assoċjati jiġu rritornati bħala riżultat.

Sors: opennet.ru

Żid kumment