Koodhka isha furan ee Jina Embedding, oo ah moodel loogu talagalay matalaadda vector ee macnaha qoraalka

Jina waxa ay si furan u sahashay qaabka barashada mashiinka matalaada qoraalka vector, jina-embedddings-v2.0, ee hoos yimaada shatiga Apache 2. Qaabku wuxuu kuu ogolaanayaa inaad u beddesho qoraalka aan sharciga ahayn, oo ay ku jiraan ilaa 8192 xaraf, oo aad u beddesho tiro yar oo tirooyin dhab ah kuwaas oo sameeya vector la barbar dhigo qoraalka isha oo soo saara macneheeda (macnaha). Jina Embedding waxay ahayd moodelkii ugu horreeyay ee barashada mashiinka furan ee leh waxqabad la mid ah qaabka qaabaynta qoraalka lahaanshaha ee mashruuca OpenAI (text-embedding-ada-002), sidoo kale awood u leh in lagu habeeyo qoraalka leh ilaa 8192 calaamado.

Fogaanta udhaxeysa laba qaybood oo abuurmay ayaa loo isticmaali karaa in lagu go'aamiyo xidhiidhka semantic ee qoraallada isha. Ficil ahaan, vectors-ka la soo saaray waxaa loo isticmaali karaa in lagu falanqeeyo isku ekaanshaha qoraallada, abaabulo raadinta agabka laxiriira mowduuca (natiijooyinka darajada u dhowaanshaha semantic), qoraalada kooxeed macnahooda, soosaar talooyin (bixiso liiska xargaha qoraalka la mid ah). aqoonsado cilladaha, ogow xatooyada oo kala saar imtixaannada. Tusaalooyinka meelaha la isticmaalo waxaa ka mid ah isticmaalka qaabka falanqaynta dukumiintiyada sharciga ah, falanqaynta ganacsiga, cilmi baarista caafimaadka ee habaynta maqaallada sayniska, dhaleeceynta suugaanta, falanqaynta warbixinnada maaliyadeed iyo hagaajinta tayada habaynta chatbot ee arrimaha adag.

Laba nooc oo nooca jin-ku-xirnaanta ayaa diyaar u ah soo dejinta (asaasiga ah - 0.27 GB iyo la dhimay - 0.07 GB), oo lagu tababaray 400 milyan oo lammaane oo taxane qoraal ah oo Ingiriis ah, oo daboolaya qaybo kala duwan oo aqoon ah. Inta lagu guda jiro tababarka, taxane leh cabbir 512 calaamado ah ayaa la isticmaalay, kuwaas oo laga soo saaray cabbirka 8192 iyadoo la adeegsanayo habka ALiBi (Fiiro gaar ah leh oo toosan).

Qaabka aasaasiga ah waxaa ku jira 137 milyan oo cabbir waxaana loogu talagalay in lagu isticmaalo nidaamyada taagan ee GPU-ga. Qaabka la dhimay waxaa ku jira 33 milyan oo cabbir, wuxuu bixiyaa saxsanaan yar waxaana loogu talagalay isticmaalka aaladaha mobilada iyo nidaamyada leh qadar yar oo xusuusta ah. Mustaqbalka dhow waxay sidoo kale qorsheynayaan inay daabacaan nooc weyn oo dabooli doona 435 milyan oo cabbir. Nooca luuqadaha badan ee qaabka ayaa sidoo kale ku jira horumar, kaas oo hadda diiradda saaraya taageerada Jarmalka iyo Isbaanishka. Plugin si gaar ah ayaa loo diyaariyey si loogu isticmaalo qaabka jina-ku-xirnaanta iyada oo loo marayo qalabka LLM.

Source: opennet.ru

Add a comment