Jina Embedding үшін ашық бастапқы код, мәтін мағынасының векторлық көрінісі үшін үлгі

Jina Apache 2.0 лицензиясы бойынша jina-embeddings-v2 векторлық мәтінді көрсетуге арналған машиналық оқыту үлгісін ашық бастапқы коды бар. Модель ерікті мәтінді, оның ішінде 8192 таңбаға дейін бастапқы мәтінмен салыстырылатын және оның семантикасын (мағынасын) шығаратын векторды құрайтын нақты сандардың шағын тізбегіне түрлендіруге мүмкіндік береді. Jina Embedding OpenAI жобасындағы (мәтінді енгізу-ada-002) меншікті мәтінді векторлау үлгісімен бірдей өнімділікке ие, сонымен қатар 8192 таңбалауышқа дейін мәтінді өңдеуге қабілетті бірінші ашық машинада оқыту моделі болды.

Түзілген екі вектор арасындағы қашықтықты бастапқы мәтіндердің семантикалық байланысын анықтау үшін пайдалануға болады. Тәжірибеде генерацияланған векторларды мәтіндердің ұқсастығын талдау, тақырыпқа қатысты материалдарды іздеуді ұйымдастыру (нәтижелерді мағыналық жақындығы бойынша рейтинг), мәтіндерді мағынасы бойынша топтастыру, ұсыныстарды құру (ұқсас мәтін жолдарының тізімін ұсыну), аномалияларды анықтау, плагиатты анықтау және сынақтарды жіктеу. Қолдану жағдайларының мысалдары заңды құжаттарды талдау үшін, бизнес-аналитика үшін, ғылыми мақалаларды өңдеу үшін медициналық зерттеулерде, әдеби сында, қаржылық есептерді талдау үшін және күрделі мәселелерді өңдейтін чат-боттардың сапасын жақсарту үшін үлгіні пайдалануды қамтиды.

Жүктеп алу үшін jina-embeddings моделінің екі нұсқасы қолжетімді (негізгі - 0.27 ГБ және қысқартылған - 0.07 ГБ), әртүрлі білім салаларын қамтитын ағылшын тіліндегі 400 миллион жұп мәтін тізбегі бойынша оқытылады. Жаттығу кезінде ALiBi (Сызықтық қиғаштықпен назар аудару) әдісі арқылы 512 өлшеміне экстраполяцияланған 8192 токен өлшемі бар тізбектер пайдаланылды.

Негізгі модель 137 миллион параметрді қамтиды және графикалық процессоры бар стационарлық жүйелерде пайдалануға арналған. Қысқартылған модель 33 миллион параметрді қамтиды, азырақ дәлдікті қамтамасыз етеді және мобильді құрылғылар мен жады көлемі аз жүйелерде пайдалануға бағытталған. Жақын арада олар 435 миллион параметрді қамтитын үлкен үлгіні де шығаруды жоспарлап отыр. Модельдің көптілді нұсқасы да әзірленуде, қазіргі уақытта неміс және испан тілдерін қолдауға баса назар аударылады. LLM құралдар жинағы арқылы jina-embeddings үлгісін пайдалану үшін плагин бөлек дайындалған.

Ақпарат көзі: opennet.ru

пікір қалдыру