Codi font obert per a Jina Embedding, un model per a la representació vectorial del significat del text

Jina ha creat de codi obert un model d'aprenentatge automàtic per a la representació de text vectorial, jina-embeddings-v2.0, sota la llicència Apache 2. El model us permet convertir text arbitrari, que inclou fins a 8192 caràcters, en una petita seqüència de nombres reals que formen un vector que es compara amb el text font i reprodueix la seva semàntica (significat). Jina Embedding va ser el primer model d'aprenentatge automàtic obert que va tenir el mateix rendiment que el model de vectorització de text propietari del projecte OpenAI (text-embedding-ada-002), també capaç de processar text amb fins a 8192 fitxes.

La distància entre dos vectors generats es pot utilitzar per determinar la relació semàntica dels textos font. A la pràctica, els vectors generats es poden utilitzar per analitzar la similitud de textos, organitzar una cerca de materials relacionats amb el tema (classificació dels resultats per proximitat semàntica), agrupar textos per significat, generar recomanacions (oferir una llista de cadenes de text similars), identificar anomalies, detectar plagi i classificar les proves. Alguns exemples d'àmbits d'ús inclouen l'ús del model per a l'anàlisi de documents legals, per a l'anàlisi de negocis, en investigació mèdica per processar articles científics, en crítica literària, per analitzar informes financers i per millorar la qualitat del processament del chatbot de temes complexos.

Es poden descarregar dues versions del model jina-embeddings (bàsic - 0.27 GB i reduït - 0.07 GB), entrenats en 400 milions de parells de seqüències de text en anglès, que cobreixen diversos camps de coneixement. Durant l'entrenament, es van utilitzar seqüències amb una mida de 512 fitxes, que es van extrapolar a una mida de 8192 mitjançant el mètode ALiBi (Attention with Linear Biases).

El model bàsic inclou 137 milions de paràmetres i està dissenyat per utilitzar-lo en sistemes estacionaris amb una GPU. El model reduït inclou 33 milions de paràmetres, proporciona menys precisió i està orientat a l'ús en dispositius mòbils i sistemes amb una petita quantitat de memòria. En un futur proper també tenen previst publicar un gran model que cobrirà 435 milions de paràmetres. També s'està desenvolupant una versió multilingüe del model, centrada actualment en el suport per a alemany i espanyol. S'ha preparat un connector per separat per utilitzar el model jina-embeddings mitjançant el conjunt d'eines LLM.

Font: opennet.ru

Afegeix comentari