Còd stòr fosgailte airson Jina Embedding, modail airson riochdachadh vector de bhrìgh teacsa

Tha Jina air modal ionnsachaidh inneal fhosgladh airson riochdachadh teacsa vector, jina-embeddings-v2.0, fo chead Apache 2. Leigidh am modail leat teacsa neo-riaghailteach, a’ toirt a-steach suas ri 8192 caractar, a thionndadh gu sreath bheag de fhìor àireamhan a bhios a’ cruthachadh vectar a tha air a choimeas ris an teacsa tùsail agus ag ath-riochdachadh a semantics (brìgh). B’ i Jina Embedding a’ chiad mhodail ionnsachaidh inneal fosgailte aig an robh an aon choileanadh ris a’ mhodail vectorization teacsa seilbhe bhon phròiseact OpenAI (text-embedding-ada-002), a bha comasach cuideachd air teacsa a ghiullachd le suas ri 8192 comharran.

Faodar an astar eadar dà vectar a chaidh a chruthachadh a chleachdadh gus an dàimh semantach a th’ aig na teacsaichean tùsail a dhearbhadh. Ann an cleachdadh, faodar na vectaran gineadh a chleachdadh gus sgrùdadh a dhèanamh air coltachd theacsaichean, sgrùdadh a chuir air dòigh airson stuthan co-cheangailte ris a’ chuspair (a ’rangachadh thoraidhean a rèir faisg air semantach), teacsaichean buidhne a rèir brìgh, molaidhean a ghineadh (liosta de shreathan teacsa coltach ri chèile a thabhann), neo-riaghailteachdan aithneachadh, lorg mèirle-sgrìobhaidh agus seòrsachadh dheuchainnean. Tha eisimpleirean de chùisean cleachdaidh a’ toirt a-steach cleachdadh a’ mhodail airson mion-sgrùdadh air sgrìobhainnean laghail, airson mion-sgrùdadh gnìomhachais, ann an rannsachadh meidigeach airson giullachd artaigilean saidheansail, ann an càineadh litreachais, airson parsadh aithisgean ionmhais agus airson càileachd chatbots a’ làimhseachadh chùisean iom-fhillte.

Tha dà dhreach den mhodail jina-embeddings rim faighinn airson an luchdachadh sìos (bunaiteach - 0.27 GB agus air an lughdachadh - 0.07 GB), air an trèanadh air 400 millean paidhir de shreathan teacsa sa Bheurla, a’ còmhdach diofar raointean eòlais. Rè an trèanaidh, chaidh sreathan le meud comharran 512 a chleachdadh, a chaidh an cur a-mach gu meud 8192 a ’cleachdadh modh ALiBi (Attention with Linear Biases).

Tha am modail bunaiteach a’ toirt a-steach 137 millean paramadair agus tha e air a dhealbhadh airson a chleachdadh air siostaman pàipearachd le GPU. Tha am modail lùghdaichte a’ toirt a-steach 33 millean paramadair, a’ toirt seachad nas lugha de chruinneas agus ag amas air a chleachdadh air innealan gluasadach agus siostaman le beagan cuimhne. A dh'aithghearr tha iad cuideachd an dùil modal mòr fhoillseachadh a chòmhdaicheas 435 millean crìochan. Tha dreach ioma-chànanach den mhodail cuideachd ga leasachadh, le fòcas an-dràsta air taic airson Gearmailtis is Spàinntis. Chaidh plugan ullachadh fa leth airson a bhith a’ cleachdadh a’ mhodail jina-embeddings tro inneal LLM.

Source: fosgailtenet.ru

Cuir beachd ann