Código-fonte aberto para Jina Embedding, um modelo para representação vetorial do significado do texto

Jina abriu o código-fonte de um modelo de aprendizado de máquina para representação de texto vetorial, jina-embeddings-v2.0, sob a licença Apache 2. O modelo permite converter texto arbitrário, incluindo até 8192 caracteres, em uma pequena sequência de números reais que formam um vetor que é comparado com o texto fonte e reproduz sua semântica (significado). Jina Embedding foi o primeiro modelo aberto de aprendizado de máquina a ter o mesmo desempenho do modelo proprietário de vetorização de texto do projeto OpenAI (text-embedding-ada-002), também capaz de processar texto com até 8192 tokens.

A distância entre dois vetores gerados pode ser usada para determinar a relação semântica dos textos de origem. Na prática, os vetores gerados podem ser usados ​​para analisar a semelhança de textos, organizar uma busca por materiais relacionados ao tema (classificar os resultados por proximidade semântica), agrupar textos por significado, gerar recomendações (oferecer uma lista de sequências de texto semelhantes), identificar anomalias, detectar plágio e classificar testes. Exemplos de áreas de utilização incluem a utilização do modelo para análise de documentos jurídicos, para análise de negócios, em pesquisa médica para processamento de artigos científicos, em crítica literária, para análise de relatórios financeiros e para melhoria da qualidade do processamento de chatbot de questões complexas.

Estão disponíveis para download duas versões do modelo jina-embeddings (básica - 0.27 GB e reduzida - 0.07 GB), treinadas em 400 milhões de pares de sequências de texto em inglês, abrangendo diversas áreas do conhecimento. Durante o treinamento foram utilizadas sequências com tamanho de 512 tokens, que foram extrapoladas para um tamanho de 8192 usando o método ALiBi (Attention with Linear Biases).

O modelo básico inclui 137 milhões de parâmetros e foi projetado para uso em sistemas estacionários com GPU. O modelo reduzido inclui 33 milhões de parâmetros, oferece menor precisão e é voltado para uso em dispositivos móveis e sistemas com pequena quantidade de memória. Num futuro próximo, eles também planejam publicar um grande modelo que cobrirá 435 milhões de parâmetros. Uma versão multilíngue do modelo também está em desenvolvimento, atualmente com foco no suporte para alemão e espanhol. Um plugin foi preparado separadamente para usar o modelo jina-embeddings por meio do kit de ferramentas LLM.

Fonte: opennet.ru

Adicionar um comentário