Daeth Microsoft o ffynhonnell agored i'r llyfrgell chwilio fector a ddefnyddir yn Bing

Microsoft cyhoeddi codau ffynhonnell llyfrgell dysgu peirianyddol SPTAG (Good Rhaniad Coed A Graff) gyda gweithredu'r algorithm bras chwiliad cymydog agosaf. Llyfrgell datblygu yn is-adran ymchwil Microsoft Research a'r ganolfan datblygu technoleg chwilio (Microsoft Search Technology Centre). Yn ymarferol, defnyddir SPTAG gan beiriant chwilio Bing i bennu'r canlyniadau mwyaf perthnasol yn seiliedig ar gyd-destun ymholiadau chwilio. Mae'r cod wedi'i ysgrifennu yn C++ a dosbarthu gan dan drwydded MIT. Cefnogir Build for Linux a Windows. Mae rhwymiad ar gyfer yr iaith Python.

Er gwaethaf y ffaith bod y syniad o ddefnyddio storfa fector mewn peiriannau chwilio wedi bod yn symud o gwmpas ers amser maith, yn ymarferol, mae eu gweithrediad yn cael ei rwystro gan ddwysedd adnoddau uchel gweithrediadau gyda fectorau a chyfyngiadau graddadwyedd. Mae cyfuno dulliau dysgu peirianyddol dwfn ag algorithmau chwilio’r cymdogion agosaf wedi’i gwneud hi’n bosibl dod Γ’ pherfformiad a scalability systemau fector i lefel sy’n dderbyniol ar gyfer peiriannau chwilio mawr. Er enghraifft, yn Bing, ar gyfer mynegai fector o dros 150 biliwn fector, mae'r amser i nΓ΄l y canlyniadau mwyaf perthnasol o fewn 8 ms.

Mae'r llyfrgell yn cynnwys offer ar gyfer adeiladu mynegai a threfnu chwiliadau fector, yn ogystal Γ’ set o offer ar gyfer cynnal system chwilio ar-lein ddosbarthedig sy'n cwmpasu casgliadau mawr iawn o fectorau. Wedi'i gynnig y modiwlau canlynol: adeiladwr mynegai ar gyfer mynegeio, chwiliwr ar gyfer chwilio gan ddefnyddio mynegai wedi'i ddosbarthu mewn clwstwr o sawl nod, gweinydd ar gyfer rhedeg trinwyr ar nodau, Aggregator ar gyfer cyfuno sawl gweinydd yn un, a chleient ar gyfer anfon ymholiadau. Cefnogir cynnwys fectorau newydd yn y mynegai a dileu fectorau ar y hedfan.

Mae'r llyfrgell yn awgrymu bod y data a brosesir ac a gyflwynir yn y casgliad wedi'i fformatio ar ffurf fectorau cysylltiedig y gellir eu cymharu yn seiliedig ar Ewclidaidd (L2) neu cosin pellteroedd Mae'r ymholiad chwilio yn dychwelyd fectorau y mae eu pellter rhyngddynt a'r fector gwreiddiol yn fach iawn. Mae SPTAG yn darparu dau ddull ar gyfer trefnu gofod fector: SPTAG-KDT (coeden K-dimensiwn (kd-coed) A graff cymdogaeth cymharol) a SPTAG-BKT (k- golygu coeden (k-yn golygu coeden a graff cymdogaeth cymharol). Mae'r dull cyntaf yn gofyn am lai o adnoddau wrth weithio gyda'r mynegai, ac mae'r ail yn dangos cywirdeb uwch o ran canlyniadau chwilio ar gyfer casgliadau mawr iawn o fectorau.

Ar yr un pryd, nid yw chwiliad fector yn gyfyngedig i destun a gellir ei gymhwyso i wybodaeth a delweddau amlgyfrwng, yn ogystal ag mewn systemau ar gyfer cynhyrchu argymhellion yn awtomatig. Er enghraifft, gweithredodd un o'r prototeipiau yn seiliedig ar fframwaith PyTorch system fector ar gyfer chwilio yn seiliedig ar debygrwydd gwrthrychau mewn delweddau, a adeiladwyd gan ddefnyddio data o sawl casgliad cyfeirio gyda delweddau o anifeiliaid, cathod a chΕ΅n, a droswyd yn setiau o fectorau. . Pan dderbynnir delwedd sy'n dod i mewn i'w chwilio, caiff ei throsi gan ddefnyddio model dysgu peirianyddol yn fector, sy'n seiliedig ar y fectorau mwyaf tebyg yn cael eu dewis o'r mynegai gan ddefnyddio algorithm SPTAG a dychwelir y delweddau cysylltiedig o ganlyniad.

Ffynhonnell: opennet.ru

Ychwanegu sylw