Kua whakatuwheratia e Microsoft te waehere mo te whare pukapuka rapu vector i whakamahia e Bing

Microsoft whakaputaina waehere puna whare ako miihini SPTAG (Space Wehewehenga Rakau Me te Kauwhata) me te whakatinanatanga o te algorithm tata rapu tata tata. Whare Pukapuka whakawhanakehia i roto i te wahanga rangahau o Microsoft Research me te pokapū whanaketanga hangarau rapu (Microsoft Search Technology Center). I roto i te mahi, ka whakamahia te SPTAG e te miihini rapu Bing ki te whakatau i nga hua tino whaitake i runga i te horopaki o nga uiui rapu. Kua tuhia te waehere ki C ++ me tohaina e i raro i te raihana MIT. Ka tautokohia te hanga mo Linux me Windows. He here mo te reo Python.

Ahakoa te mea ko te whakaaro mo te whakamahi rokiroki vector i roto i nga miihini rapu kua roa e tere haere ana, i roto i nga mahi, ka aukatihia ta raatau whakatinanatanga na te kaha o nga rauemi nui o nga mahi me nga vectors me nga taapiri whakaheke. Ko te whakakotahi i nga tikanga ako miihini hohonu me nga hautei rapu tata tata kua taea te kawe i te mahinga me te whakahiato o nga punaha vector ki te taumata e manakohia ana mo nga miihini rapu nui. Hei tauira, i Bing, mo te taupū vector neke atu i te 150 piriona nga vectors, ko te wa ki te tiki i nga hua tino whai take kei roto i te 8 ms.

Kei roto i te whare pukapuka nga taputapu mo te hanga taurangi me te whakarite i nga rapunga vector, tae atu ki te huinga taputapu mo te pupuri i te punaha rapu ipurangi tohatoha e kapi ana i nga kohinga tino nui o nga vectors. Whakaekea ana ko nga waahanga e whai ake nei: Kaihanga taurangi mo te tohu tohu, te tangata rapu mo te rapu ma te whakamahi i te taurangi kua tohatohahia i roto i te kahui o nga pona maha, te tūmau mo te whakahaere i nga kaikawe i runga i nga pona, te Aggregator mo te whakakotahi i nga tūmau maha ki te kotahi, me te kaihoko mo te tuku patai. Ka tautokohia te whakauru o nga vectors hou ki te taurangi me te whakakore i nga vectors i runga i te rere.

Ko te tikanga o te whare pukapuka ko nga raraunga i tukatukahia me te whakaatu i roto i te kohinga ka whakahōputuhia ki te ahua o nga vectors e pa ana ka taea te whakataurite i runga i Euclidean (L2) ranei cosine tawhiti Ka whakahokia e te uiui rapu nga vector he iti te tawhiti i waenga i a raatau me te vector taketake. Ka whakaratohia e SPTAG nga tikanga e rua mo te whakarite mokowā vector: SPTAG-KDT (rakau ahu-K (kd-rakau) a kauwhata tata tata) me SPTAG-BKT (k-means tree (k-te tikanga rakau me te kauwhata tata tata). Ko te tikanga tuatahi he iti ake nga rauemi i te wa e mahi ana me te taurangi, ko te tuarua e whakaatu ana i te tika o nga hua rapu mo nga kohinga tino nui o nga vectors.

I te wa ano, karekau te rapu vector e whakawhäitihia ki te tuhinga ka taea te whakamahi ki nga korero rongorau me nga whakaahua, tae atu ki nga punaha mo te whakaputa aunoa i nga taunakitanga. Hei tauira, ko tetahi o nga tauira i runga i te anga PyTorch i whakatinanahia he punaha vector mo te rapu i runga i te rite o nga mea i roto i nga whakaahua, i hangaia ma te whakamahi i nga raraunga mai i nga kohinga tohutoro maha me nga whakaahua o nga kararehe, ngeru me nga kuri, i hurihia hei huinga o nga vectors. . Ina tae mai he ahua taumai mo te rapu, ka hurihia ma te whakamahi i te tauira ako miihini ki roto i te vector, i runga i tera ka kowhiria nga vector tino rite mai i te taurangi ma te whakamahi i te SPTAG algorithm ka whakahokia mai nga whakaahua e pa ana.

Source: opennet.ru

Tāpiri i te kōrero