Kode sumber mbukak kanggo Jina Embedding, model kanggo representasi vektor makna teks

Jina wis mbukak-sumber model pembelajaran mesin kanggo representasi teks vektor, jina-embeddings-v2.0, miturut lisensi Apache 2. Model kasebut ngidini sampeyan ngowahi teks sing sewenang-wenang, kalebu nganti 8192 karakter, dadi urutan cilik saka nomer nyata sing mbentuk vektor sing dibandhingake karo teks sumber lan ngasilake semantik (makna). Jina Embedding minangka model pembelajaran mesin mbukak pisanan sing nduweni kinerja sing padha karo model vektorisasi teks proprietary saka proyek OpenAI (text-embedding-ada-002), uga bisa ngolah teks nganti 8192 token.

Jarak antarane rong vektor sing digawe bisa digunakake kanggo nemtokake hubungan semantik teks sumber. Ing praktik, vektor sing digawe bisa digunakake kanggo nganalisa persamaan teks, ngatur telusuran materi sing ana gandhengane karo topik (asil peringkat kanthi jarak semantik), klompok teks kanthi makna, ngasilake rekomendasi (nawakake dhaptar strings teks sing padha), ngenali anomali, ndeteksi plagiarisme lan klasifikasi tes. Conto wilayah panggunaan kalebu nggunakake model kanggo analisis dokumen hukum, kanggo analytics bisnis, ing riset medis kanggo ngolah artikel ilmiah, ing kritik sastra, kanggo parsing laporan keuangan lan kanggo nambah kualitas pangolahan chatbot masalah rumit.

Rong versi model jina-embeddings kasedhiya kanggo download (dhasar - 0.27 GB lan suda - 0.07 GB), dilatih ing 400 yuta pasangan urutan teks ing basa Inggris, kalebu macem-macem lapangan kawruh. Sajrone latihan, urutan kanthi ukuran 512 token digunakake, sing diekstrapolasi kanthi ukuran 8192 nggunakake metode ALiBi (Perhatian karo Bias Linear).

Model dhasar kalebu 137 yuta paramèter lan dirancang kanggo digunakake ing sistem stasioner karo GPU. Model suda kalebu 33 yuta paramèter, nyedhiyakake akurasi sing kurang lan dituju kanggo digunakake ing piranti seluler lan sistem kanthi memori cilik. Ing mangsa ngarep dheweke uga ngrancang nerbitake model gedhe sing bakal nutupi 435 yuta paramèter. Versi multibasa model kasebut uga dikembangake, saiki fokus ing dhukungan kanggo Jerman lan Spanyol. Plugin wis disiapake kanthi kapisah kanggo nggunakake model jina-embeddings liwat toolkit LLM.

Source: opennet.ru

Add a comment