Código fonte aberto para Jina Embedding, un modelo para a representación vectorial do significado do texto

Jina lanzou un modelo de aprendizaxe automática para a representación de texto vectorizado, jina-embeddings-v2, baixo a licenza Apache 2.0. Este modelo converte texto arbitrario de ata 8192 caracteres nunha pequena secuencia de números reais, formando un vector que se mapea ao texto orixinal e reproduce a súa semántica (significado). Jina Embedding é o primeiro modelo de aprendizaxe automática de código aberto que consegue un rendemento comparable ao modelo de vectorización de texto propietario de OpenAI (text-embedding-ada-002), que tamén é capaz de procesar textos de ata 8192 tokens.

A distancia entre dous vectores xerados pódese empregar para determinar a relación semántica entre os textos de orixe. Na práctica, os vectores xerados pódense aplicar á análise de semellanza textual, á procura de materiais relacionados (clasificación de resultados por semellanza semántica), á agrupación de textos por significado, á xeración de recomendacións (suxir unha lista de cadeas de texto similares), á detección de anomalías, á identificación de plaxio e á clasificación de textos. Algúns exemplos de posibles aplicacións inclúen o uso do modelo na análise de documentos legais, na analítica empresarial, na investigación médica para o procesamento de artigos científicos, na crítica literaria, na análise de informes financeiros e na mellora da calidade do procesamento de preguntas complexas por parte de chatbots.

Hai dúas versións do modelo jina-embeddings dispoñibles para a súa descarga (base: 0.27 GB e reducida: 0.07 GB), adestradas en 400 millóns de pares de secuencias de texto en inglés que abarcan varios dominios. O adestramento realizouse utilizando secuencias de tamaño de 512 tokens, que se extrapolaron a 8192 mediante o método ALiBi (Attention with Linear Biases, Atención con sesgos lineais).

O modelo base inclúe 137 millóns de parámetros e está deseñado para o seu uso en sistemas de escritorio con GPU. O modelo reducido inclúe 33 millóns de parámetros, ofrece unha precisión menor e está dirixido a dispositivos móbiles e sistemas con memoria limitada. Tamén está prevista a publicación próxima dun modelo máis grande, que abrangue 435 millóns de parámetros. Tamén se está a desenvolver unha versión multilingüe do modelo, que actualmente se centra na compatibilidade con alemán e español. Desenvolveuse un complemento separado para usar o modelo jina-embeddings a través do kit de ferramentas LLM.

Fonte: opennet.ru

Engadir un comentario