Kode open source pikeun Jina Embedding, modél pikeun ngagambarkeun vektor tina harti téks

Jina geus open-sourced model pembelajaran mesin keur ngagambarkeun téks vektor, jina-embeddings-v2.0, handapeun lisénsi Apache 2. Modél ngidinan Anjeun pikeun ngarobah téks sawenang, kaasup nepi ka 8192 karakter, kana runtuyan leutik wilangan riil nu ngabentuk véktor nu dibandingkeun jeung téks sumber na reproduces semantik na (hartina). Jina Embedding mangrupikeun modél pembelajaran mesin kabuka munggaran anu gaduh prestasi anu sami sareng modél vektorisasi téks proprietary tina proyék OpenAI (text-embedding-ada-002), ogé tiasa ngolah téks dugi ka 8192 token.

Jarak antara dua vektor dihasilkeun bisa dipaké pikeun nangtukeun hubungan semantis tina téks sumber. Dina prakna, véktor anu dihasilkeun tiasa dianggo pikeun nganalisis kasaruaan téks, ngatur milarian bahan anu aya hubunganana sareng topik (hasil réngking ku jarak semantik), téks grup ku harti, ngahasilkeun rekomendasi (nawiskeun daptar string téks anu sami), ngaidentipikasi anomali, ngadeteksi plagiat sarta mengklasifikasikan tés. Conto wewengkon pamakéan kaasup pamakéan modél pikeun analisis dokumén légal, pikeun analytics bisnis, dina panalungtikan médis pikeun ngolah artikel ilmiah, dina kritik sastra, pikeun parsing laporan keuangan sarta ngaronjatkeun kualitas chatbot processing masalah kompléks.

Dua versi model jina-embeddings sadia pikeun diundeur (dasar - 0.27 GB sarta ngurangan - 0.07 GB), dilatih dina 400 juta pasang runtuyan téks dina basa Inggris, ngawengku sagala rupa widang pangaweruh. Salila latihan, urutan kalawan ukuran 512 tokens dipaké, nu ieu extrapolated kana ukuran 8192 ngagunakeun metoda ALiBi (Perhatian kalawan bias linier).

Modél dasar ngawengku 137 juta parameter jeung dirancang pikeun pamakéan dina sistem cicing jeung GPU a. Modél ngurangan ngawengku 33 juta parameter, nyadiakeun kirang akurasi sarta aimed dina pamakéan dina alat nu bagerak jeung sistem kalawan jumlah leutik memori. Dina mangsa nu bakal datang maranéhanana ogé rencanana pikeun nyebarkeun model badag anu bakal nutupan 435 juta parameter. Versi multibasa modél ogé dina pamekaran, ayeuna museurkeun kana dukungan pikeun Jerman sareng Spanyol. A plugin geus disiapkeun misah pikeun ngagunakeun model jina-embeddings ngaliwatan toolkit LLM.

sumber: opennet.ru

Tambahkeun komentar