Kode sumber terbuka untuk Jina Embedding, model representasi vektor makna teks

Jina telah membuat model pembelajaran mesin untuk representasi teks vektor menjadi sumber terbuka, jina-embeddings-v2.0, di bawah lisensi Apache 2. Model ini memungkinkan Anda mengonversi teks arbitrer, termasuk hingga 8192 karakter, menjadi rangkaian kecil bilangan real yang membentuk vektor yang dibandingkan dengan teks sumber dan mereproduksi semantik (maknanya). Jina Embedding adalah model pembelajaran mesin terbuka pertama yang memiliki kinerja yang sama dengan model vektorisasi teks milik proyek OpenAI (text-embedding-ada-002), juga mampu memproses teks hingga 8192 token.

Jarak antara dua vektor yang dihasilkan dapat digunakan untuk menentukan hubungan semantik teks sumber. Dalam praktiknya, vektor yang dihasilkan dapat digunakan untuk menganalisis kesamaan teks, mengatur pencarian materi yang terkait dengan topik (memberi peringkat hasil berdasarkan kedekatan semantik), mengelompokkan teks berdasarkan makna, menghasilkan rekomendasi (menawarkan daftar string teks serupa), mengidentifikasi anomali, mendeteksi plagiarisme dan mengklasifikasikan tes. Contoh penggunaan model ini mencakup penggunaan model untuk analisis dokumen hukum, untuk analisis bisnis, dalam penelitian medis untuk memproses artikel ilmiah, dalam kritik sastra, untuk menguraikan laporan keuangan, dan untuk meningkatkan kualitas pemrosesan chatbot terhadap isu-isu kompleks.

Dua versi model jina-embeddings tersedia untuk diunduh (dasar - 0.27 GB dan dikurangi - 0.07 GB), dilatih pada 400 juta pasang urutan teks dalam bahasa Inggris, yang mencakup berbagai bidang pengetahuan. Selama pelatihan, sekuens dengan ukuran 512 token digunakan, yang diekstrapolasi menjadi ukuran 8192 menggunakan metode ALiBi (Attention with Linear Biases).

Model dasar mencakup 137 juta parameter dan dirancang untuk digunakan pada sistem stasioner dengan GPU. Model yang diperkecil mencakup 33 juta parameter, memberikan akurasi yang lebih rendah, dan ditujukan untuk digunakan pada perangkat dan sistem seluler dengan jumlah memori yang kecil. Dalam waktu dekat mereka juga berencana menerbitkan model besar yang mencakup 435 juta parameter. Versi multibahasa dari model ini juga sedang dikembangkan dan saat ini berfokus pada dukungan untuk bahasa Jerman dan Spanyol. Sebuah plugin telah disiapkan secara terpisah untuk menggunakan model jina-embeddings melalui toolkit LLM.

Sumber: opennet.ru

Tambah komentar