Microsoft Bing'де колдонулган вектордук издөө китепканасын ачык булактардан алды

Microsoft бар жарыяланган машина үйрөнүү китепканасынын булак коддору СПТАГ (Space Partition Tree And Graph) болжолдуу алгоритмди ишке ашыруу менен жакынкы кошуна издөө. Китепкана иштелип чыккан Microsoft Research изилдөө бөлүмүндө жана издөө технологияларын өнүктүрүү борборунда (Microsoft Search Technology Center). Практикада SPTAG Bing издөө системасы тарабынан издөө сурамдарынын контекстинин негизинде эң керектүү натыйжаларды аныктоо үчүн колдонулат. Код C++ тилинде жазылган жана жайылуу MIT лицензиясы боюнча. Linux жана Windows үчүн куруу колдоого алынат. Python тили үчүн байланыш бар.

Издөө системаларында вектордук сактагычты колдонуу идеясы бир топ убакыттан бери айланып келе жатканына карабастан, иш жүзүндө аларды ишке ашыруу векторлор менен операциялардын ресурстук жогорку интенсивдүүлүгү жана масштабдуулугунун чектөөлөрү менен тоскоол болууда. Терең машина үйрөнүү ыкмаларын жакынкы жакынкы издөө алгоритмдери менен айкалыштыруу вектордук системалардын иштешин жана масштабдуулугун чоң издөө системалары үчүн алгылыктуу деңгээлге жеткирүүгө мүмкүндүк берди. Мисалы, Bingде 150 миллиард вектордон турган вектордук индекс үчүн эң ылайыктуу натыйжаларды алуу убактысы 8 мс ичинде.

Китепкана индексти түзүү жана вектордук издөөлөрдү уюштуруу үчүн куралдарды, ошондой эле векторлордун өтө чоң коллекцияларын камтыган бөлүштүрүлгөн онлайн издөө системасын жүргүзүү үчүн куралдардын топтомун камтыйт. Сунушталды төмөнкү модулдар: индекстөө үчүн индекс куруучу, бир нече түйүндөрдөн турган кластерде бөлүштүрүлгөн индексти колдонуу менен издөө үчүн издөөчү, түйүндөрдө иштеткичтерди иштетүү үчүн сервер, бир нече серверлерди бирге бириктирүү үчүн Агрегатор жана суроо-талаптарды жөнөтүү үчүн кардар. Жаңы векторлорду индекске киргизүү жана векторлорду тез арада жок кылуу колдоого алынат.

Китепкана коллекцияда иштелип чыккан жана берилген маалыматтар тиешелүү векторлор түрүндө форматталганын билдирет, алардын негизинде салыштырууга болот. евклиддик (L2) же косинус аралыктар Издөө суроосу баштапкы вектор менен алардын ортосундагы аралыктары минималдуу болгон векторлорду кайтарат. SPTAG вектордук мейкиндикти уюштуруунун эки ыкмасын камсыз кылат: SPTAG-KDT (K-өлчөмдүү дарак (kd-дарагы) жана салыштырмалуу кошуналык диаграммасы) жана SPTAG-BKT (k- дарак дегенди билдирет (к-даракты билдирет жана салыштырмалуу кошуналык диаграммасы). Биринчи ыкма индекс менен иштөөдө азыраак ресурстарды талап кылат, ал эми экинчиси векторлордун өтө чоң коллекциялары үчүн издөө натыйжаларынын жогорку тактыгын көрсөтөт.

Ошол эле учурда вектордук издөө текст менен эле чектелбейт жана мультимедиялык маалыматка жана сүрөттөргө, ошондой эле сунуштарды автоматтык түрдө түзүү тутумдарына колдонулушу мүмкүн. Мисалы, PyTorch алкагына негизделген прототиптердин бири векторлордун топтомуна айландырылган жаныбарлардын, мышыктардын жана иттердин сүрөттөрү менен бир нече маалымдама коллекцияларынын маалыматтарын колдонуу менен курулган сүрөттөрдөгү объекттердин окшоштугунун негизинде издөө үчүн вектордук системаны ишке ашырган. . Кирүүчү сүрөт издөө үчүн алынганда, ал машина үйрөнүү моделинин жардамы менен векторго айландырылат, анын негизинде SPTAG алгоритмин колдонуу менен индекстен эң окшош векторлор тандалып алынат жана натыйжада тиешелүү сүрөттөр кайтарылат.

Source: opennet.ru

Комментарий кошуу