Metin anlamının vektör temsili için bir model olan Jina Embedding için açık kaynak kodu

Jina, Apache 2.0 lisansı altında vektör metin gösterimi için jina-embeddings-v2 adlı açık kaynaklı bir makine öğrenimi modeline sahiptir. Model, en fazla 8192 karakter dahil olmak üzere rastgele metni, kaynak metinle karşılaştırılan ve onun semantiğini (anlamını) yeniden üreten bir vektör oluşturan küçük bir gerçek sayı dizisine dönüştürmenize olanak tanır. Jina Embedding, OpenAI projesindeki (text-embedding-ada-002) tescilli metin vektörleştirme modeliyle aynı performansa sahip olan ve aynı zamanda 8192 jetona kadar metin işleyebilen ilk açık makine öğrenimi modeliydi.

Oluşturulan iki vektör arasındaki mesafe, kaynak metinlerin anlamsal ilişkisini belirlemek için kullanılabilir. Uygulamada, oluşturulan vektörler metinlerin benzerliğini analiz etmek, konuyla ilgili materyaller için bir arama düzenlemek (sonuçları anlamsal yakınlığa göre sıralamak), metinleri anlamına göre gruplamak, öneriler oluşturmak (benzer metin dizelerinin bir listesini sunmak), anormallikleri tespit edin, intihalleri tespit edin ve testleri sınıflandırın. Kullanım alanlarına örnek olarak modelin yasal belgelerin analizinde, iş analitiğinde, tıbbi araştırmalarda bilimsel makalelerin işlenmesinde, edebiyat eleştirisinde, mali raporların ayrıştırılmasında ve karmaşık sorunların chatbot işlenmesinin kalitesinin arttırılmasında kullanılması yer alır.

Jina yerleştirme modelinin iki sürümü indirilmeye hazırdır (temel - 0.27 GB ve azaltılmış - 0.07 GB), çeşitli bilgi alanlarını kapsayan, İngilizce 400 milyon çift metin dizisi üzerinde eğitilmiştir. Eğitim sırasında, ALiBi (Doğrusal Önyargılarla Dikkat) yöntemi kullanılarak 512 boyutuna tahmin edilen 8192 jeton boyutunda diziler kullanıldı.

Temel model 137 milyon parametre içerir ve GPU'lu sabit sistemlerde kullanılmak üzere tasarlanmıştır. Küçültülmüş model 33 milyon parametre içerir, daha az doğruluk sağlar ve az miktarda belleğe sahip mobil cihaz ve sistemlerde kullanılması hedeflenir. Yakın gelecekte 435 milyon parametreyi kapsayacak büyük bir model de yayınlamayı planlıyorlar. Modelin çok dilli bir versiyonu da geliştirilme aşamasındadır ve şu anda Almanca ve İspanyolca desteğine odaklanılmaktadır. Jina-embeddings modelinin LLM araç seti üzerinden kullanılması için ayrıca bir eklenti hazırlanmıştır.

Kaynak: opennet.ru

Yorum ekle