Código fuente abierto para Jina Embedding, un modelo para la representación vectorial del significado del texto

Jina ha abierto un modelo de aprendizaje automático para la representación de texto vectorial, jina-embeddings-v2.0, bajo la licencia Apache 2. El modelo le permite convertir texto arbitrario, incluidos hasta 8192 caracteres, en una pequeña secuencia de números reales que forman un vector que se compara con el texto fuente y reproduce su semántica (significado). Jina Embedding fue el primer modelo abierto de aprendizaje automático que tuvo el mismo rendimiento que el modelo propietario de vectorización de texto del proyecto OpenAI (text-embedding-ada-002), capaz también de procesar texto con hasta 8192 tokens.

La distancia entre dos vectores generados se puede utilizar para determinar la relación semántica de los textos fuente. En la práctica, los vectores generados se pueden utilizar para analizar la similitud de textos, organizar una búsqueda de materiales relacionados con el tema (clasificar los resultados por proximidad semántica), agrupar textos por significado, generar recomendaciones (ofrecer una lista de cadenas de texto similares), identificar anomalías, detectar plagio y clasificar pruebas. Ejemplos de áreas de uso incluyen el uso del modelo para el análisis de documentos legales, para análisis de negocios, en investigación médica para procesar artículos científicos, en crítica literaria, para analizar informes financieros y para mejorar la calidad del procesamiento de temas complejos por parte de chatbot.

Hay dos versiones del modelo jina-embeddings disponibles para descargar (básica - 0.27 GB y reducida - 0.07 GB), entrenadas en 400 millones de pares de secuencias de texto en inglés, que cubren diversos campos del conocimiento. Durante el entrenamiento se utilizaron secuencias con un tamaño de 512 tokens, las cuales se extrapolaron a un tamaño de 8192 mediante el método ALiBi (Atención con sesgos lineales).

El modelo básico incluye 137 millones de parámetros y está diseñado para su uso en sistemas estacionarios con GPU. El modelo reducido incluye 33 millones de parámetros, proporciona menos precisión y está destinado a su uso en dispositivos y sistemas móviles con poca memoria. En un futuro próximo también planean publicar un modelo grande que cubrirá 435 millones de parámetros. También se está desarrollando una versión multilingüe del modelo, que actualmente se centra en el soporte para alemán y español. Se ha preparado un complemento por separado para utilizar el modelo jina-embeddings a través del kit de herramientas LLM.

Fuente: opennet.ru

Añadir un comentario