Usa ka pelikula nga adunay yuta niini. Ang panukiduki sa Yandex ug usa ka mubo nga kasaysayan sa pagpangita pinaagi sa kahulogan

Usahay ang mga tawo modangop sa Yandex aron mangita og salida nga ilang nalimtan ang ngalan. Ilang gihulagway ang istorya, mga halandumon nga talan-awon, ug mga halandumon nga detalye: pananglitan, [unsa ang ngalan sa salida diin ang lalaki mipili sa pula o asul nga pildoras]. Nakahukom kami nga tun-an ang mga deskripsyon sa mga nalimtan nga salida ug hibal-i kung unsa ang labing nahinumduman sa mga tawo bahin sa sinehan.

Karon dili lang nato ipaambit ang link sa atong panukiduki, apan atong hisgutan usab sa mubo ang pag-uswag sa Yandex semantic search. Mahibal-an nimo kung unsang mga teknolohiya ang makatabang sa pagpangita sa mga tubag bisan kung imposible nga maghimo usa ka tukma nga pangutana.

Nagdugang usab kami og mga riddle slider nga adunay mga ehemplo sa tinuod nga mga pangutana—pagdula sa papel sa usa ka search engine ug pagsulay sa pagtag-an sa tubag.


Ang tanang search engine nagsugod sa mga pagpangita og pulong. Nakasabot na ang Yandex sa morpolohiya sa pinulongang Ruso, apan mao gihapon kini ang daan nga pagpangita og mga pulong gikan sa mga pangutana sa mga web page. Nagtipig kami og mga lista sa tanang nailhan nga mga panid alang sa matag pulong. Kon ang pangutana adunay hugpong sa mga pulong, ang kinahanglan lang namong buhaton mao ang pag-cross-reference niining mga lista sa pulong—ug mao na kana. Maayo kaayo kini nga nagtrabaho kaniadto sa dihang diyutay pa ang mga website ug ang ranggo dili pa kaayo usa ka importante nga isyu.

Nagkauswag ang RuNet, ug nagkadaghan ang mga website. Duha pa ka butang ang nadugang sa keyword overlap. Sa usa ka bahin, ang mga tiggamit mismo ang mitabang kanamo. Nagsugod kami sa pagkonsiderar kung unsang mga site ang ilang gipangita ug unsang mga pangutana ang ilang gigamit. Samtang wala’y eksaktong keyword match, apan nasulbad ba sa site ang problema sa tiggamit? Usa kana ka mapuslanon nga senyales. Sa laing bahin, ang mga link tali sa mga site nakatabang, nga nakatabang kanamo sa pagtimbang-timbang sa kahinungdanon sa mga panid.

Gamay ra kaayo ang tulo ka butang, labi na kung kini gimanipula sa mga hanas nga SEO. Apan ang pag-analisar niini nga mas mano-mano lisod. Ug didto nagsugod ang panahon sa machine learning. Niadtong 2009, among gipatuman ang Matrixnet, base sa gradient boosting (kini nga teknolohiya sa ulahi nahimong basehan sa usa ka mas abante nga open-source library). CatBoost).

Sukad niadto, misaka ang gidaghanon sa mga hinungdan tungod kay dili na kinahanglan nga mano-mano namong pangitaon ang mga koneksyon tali kanila. Ang makina ang nagbuhat niini para kanamo.

Aron matabonan ang tanang sunod nga mga pagbag-o sa Search, ang usa ka libro o bisan usa ka post dili paigo, busa maningkamot kita nga mag-focus sa mga labing importante.


Ang ranggo dili na lang kay pagtandi sa mga termino sa pagpangita ug mga web page. Ania ang duha ka ehemplo.

Niadtong 2014, nagpatuman kami og teknolohiya para sa pag-annotate sa mga dokumento nga adunay mga kinaiya nga pangutana. Pananglit adunay miaging pangutana para sa [Brazilian TV series about the Meat King], diin nahibal-an na ang maayong tubag. Dayon laing tiggamit ang mosulod og pangutana para sa [Brazilian TV series featuring the Meat King and the Milk King], diin wala pa mahibal-i sa makina ang tubag. Apan kini nga mga pangutana adunay daghang komon nga mga pulong. Kini usa ka senyales nga ang panid nga nakit-an para sa unang pangutana mahimo usab nga may kalabutan para sa ikaduha.

Laing ehemplo. Atong kuhaon ang mga pangutana [Brazilian TV series nga nagpakita sa Meat King ug sa Dairy King] ug [TV series nga Fatal Inheritance]. Usa ra ka pulong ang ilang gigamit—"TV series"—ug dili kana igo aron klaro nga itandi ang mga pangutana. Niini nga kaso, gisugdan nato ang pagkonsiderar sa history sa pagpangita. Kung ang duha ka dili parehas nga pangutana moresulta sa parehas nga mga website sa mga resulta sa pagpangita, mahimo natong hunahunaon nga kini mabaylo. Kini mapuslanon tungod kay gamiton na nato ang teksto sa duha ka pangutana sa atong pagpangita aron makapangita og mas mapuslanon nga mga panid. Apan kini molihok lamang alang sa balik-balik nga mga pangutana, kung naa na kitay pipila ka mga estadistika. Unsa ang atong buhaton sa mga bag-ong pangutana?

Ang kakulang sa estadistikal nga datos mahimong mabayran pinaagi sa content analysis. Ang mga neural network labing maayo nga mo-analisa sa homogenous nga datos (teksto, tingog, mga imahe). Niadtong 2016, una namong gisultihan ang komunidad sa Habr bahin sa Teknolohiya sa Palekh, nga nahimong sinugdanan sa mas lapad nga paggamit sa mga neural network sa Search.


Nagsugod mi og training sa usa ka neural network aron itandi ang semantic similarity sa mga query text ug page title. Ang duha ka teksto girepresentahan isip vectors sa usa ka multidimensional space aron ang cosine sa anggulo tali kanila kasaligang makatagna sa posibilidad nga ang usa ka tawo mopili og panid, ug busa ang semantic similarity. Kini nagtugot kanamo sa pagtimbang-timbang sa semantic similarity bisan sa mga teksto diin ang mga pulong dili mag-overlap.

Usa ka ehemplo sa arkitektura sa layer para sa mga mausisaonUsa ka pelikula nga adunay yuta niini. Ang panukiduki sa Yandex ug usa ka mubo nga kasaysayan sa pagpangita pinaagi sa kahulogan

Nagsugod usab kami sa pagtandi sa mga teksto sa pangutana aron mailhan ang mga koneksyon tali kanila. Usa ka tinuod nga ehemplo sa kalibutan gikan sa ilawom sa hood sa usa ka search engine: para sa pangutana nga [Amerikanong serye sa TV bahin sa pagluto og meth], ang neural network ang nakakaplag sa parehas nga mga hugpong sa mga pulong sama sa [breaking bad] ug [breaking bad].

Maayo na ang mga pangutana ug titulo, apan wala kami mawad-i og paglaum nga magamit ang mga neural network sa tibuok teksto sa mga panid. Dugang pa, kung makadawat kami og pangutana sa tiggamit, hinayhinay namong gisugdan ang pagpili sa labing maayo nga mga panid gikan sa minilyon nga mga panid sa indeks. Bisan pa, sa Palekh, gigamit lang namo ang mga modelo sa neural network sa pinakabag-o nga mga yugto sa ranggo (L3)—gibana-bana nga top 150 nga mga dokumento. Mahimo kini nga mosangpot sa pagkawala sa maayong mga tubag.

Usa ka pelikula nga adunay yuta niini. Ang panukiduki sa Yandex ug usa ka mubo nga kasaysayan sa pagpangita pinaagi sa kahulogan

Ang hinungdan matag-an: limitado nga mga kahinguhaan ug taas nga kinahanglanon sa katulin sa pagtubag. Ang grabe nga mga limitasyon sa pagkalkula naggikan sa usa ka yano nga kamatuoran: dili nimo mapahulat ang tiggamit. Apan unya nakahimo kami usa ka butang.


Niadtong 2017, among gipaila ang "Korolev" search update, nga naglakip dili lamang sa gipalapdan nga paggamit sa mga neural network apan lakip usab ang mga hinungdanon nga pag-uswag sa arkitektura aron makadaginot sa mga kahinguhaan. Among gihisgutan kini sa mas detalyado, lakip ang mga layer diagram ug uban pang mga detalye, sa laing post sa Habr, apan ania ang usa ka mubo nga recap.

Imbis nga kuhaon ang titulo sa dokumento ug kuwentahon ang semantic vector niini atol sa pagpatuman sa query, mahimo natong kalkulahon daan kini nga vector ug tipigan kini sa search database. Sa ato pa, mahimo natong buhaton ang usa ka dakong bahin sa trabaho daan. Siyempre, kini nanginahanglan og dugang nga espasyo sa pagtipig alang sa mga vector, apan kini makadaginot sa oras sa processor. Apan dili lang kana.

Laing diagram para sa mga mausisaonUsa ka pelikula nga adunay yuta niini. Ang panukiduki sa Yandex ug usa ka mubo nga kasaysayan sa pagpangita pinaagi sa kahulogan

Naghimo mig dugang nga indeks. Kini gibase sa pangagpas nga kon mokuha mig igo nga dako nga lista sa labing may kalabutan nga mga dokumento para sa matag pulong o hugpong sa mga pulong para sa usa ka pangutana nga adunay daghang pulong, makit-an namo ang mga dokumento nga may kalabutan sa tanang mga pulong sa samang higayon. Sa praktis, kini nagpasabot sa mosunod: Para sa tanang mga pulong ug sikat nga mga pares sa pulong, usa ka dugang nga indeks ang gihimo, nga adunay lista sa mga panid ug ang ilang pasiunang kalabutan sa pangutana. Kini nagpasabot nga among gibalhin ang pipila ka trabaho gikan sa yugto sa L0 ngadto sa yugto sa pag-indeks, nga mas nakadaginot pa kanamo.

Sa katapusan, ang pag-usab sa arkitektura ug pag-apod-apod pag-usab sa workload nagtugot kanamo sa paggamit sa mga neural network dili lamang sa L3 nga yugto, apan alang usab sa L2 ug L1. Dugang pa, ang abilidad sa paghimo sa vector nga daan ug uban ang dili kaayo estrikto nga mga kinahanglanon sa performance nagtugot kanamo sa paggamit dili lamang sa titulo sa panid apan lakip usab ang teksto niini.


Daghan pa ang moabot. Sa paglabay sa panahon, nagsugod na kita sa paggamit sa mga neural network sa pinakaunang mga yugto sa pag-ranggo. Nagtudlo kita sa mga neural network sa pag-ila sa mga tinago nga sumbanan sa han-ay sa mga pulong ug sa ilang relatibong mga posisyon, ug bisan sa pag-ila sa mga pagkaparehas sa semantiko tali sa mga teksto sa lainlaing mga pinulongan. Ang matag usa niini nga mga lugar nanginahanglan usa ka lahi nga artikulo, ug among paningkamutan nga balikan kini sa dili madugay.

Karong adlawa, among gipahinumdoman pag-usab ang mga tawo kon giunsa sa mga search engine ang pagkat-on sa pagpangita og mga tubag atubangan sa dili klaro nga mga pangutana ug dili igo nga impormasyon. Ang pagpangita og mga salida pinaagi sa ilang mga deskripsyon dili lamang usa ka espesyal nga kaso sa maong mga pangutana, apan usa usab ka maayo kaayong hilisgutan alang sa researchGikan niini, imong mahibal-an: kung unsa ang labing nahinumduman sa mga tawo bahin sa sinehan, kung unsa ang ilang nalangkit sa lainlaing mga genre ug sinematograpiya gikan sa lainlaing mga nasud, ug unsang mga plot twist ang nakahatag ug labi ka kusog nga impresyon.

Source: www.habr.com

Pagpalit kasaligan nga pag-host alang sa mga site nga adunay proteksyon sa DDoS, mga server sa VPS VDS 🔥 Pagpalit og kasaligang website hosting nga adunay proteksyon sa DDoS, VPS VDS servers | ProHoster