Koda çavkaniya vekirî ji bo Jina Embedding, modelek ji bo temsîla vektorî ya wateya nivîsê

Jina di bin lîsansa Apache 2.0 de, jina-embeddings-v2, modelek fêrbûna makîneyê ji bo temsîla nivîsa vektorê-çavkaniyek vekiriye. Model destûrê dide te ku hûn nivîsa kêfî, tevî 8192 tîpan, veguherînin rêzek piçûk a hejmarên rastîn ên ku vektorek ku bi nivîsa çavkaniyê re tê berhev kirin û semantîka (wateya) wê ji nû ve çêdike. Jina Embedding yekem modela fêrbûna makîneya vekirî bû ku xwedan heman performansê bû ku modela vektorîzasyona nivîsê ya xwedan ji projeya OpenAI (text-embedding-ada-002) bû, di heman demê de karibû ku nivîsê bi heya 8192 nîşaneyan bişopîne.

Dûrahiya di navbera du vektorên hatî çêkirin de dikare were bikar anîn da ku têkiliya semantîkî ya nivîsên çavkaniyê diyar bike. Di pratîkê de, vektorên hilberandî dikarin ji bo analîzkirina wekheviya nivîsan, organîzekirina lêgerînek li materyalên girêdayî mijarê (rêxistinkirina encaman li gorî nêzîkbûna semantîkî), komkirina nivîsan ji hêla wateyê ve, çêkirina pêşniyaran (lîsteyek rêzikên nivîsê yên wekhev pêşkêşî bikin), anomaliyan nas bike, plagiarîzmê tespît bike û testan dabeş bike. Nimûneyên warên karanîna karanîna modelê ji bo analîzkirina belgeyên qanûnî, ji bo analîtîkên karsaziyê, di lêkolîna bijîjkî de ji bo hilberandina gotarên zanistî, di rexneya edebî de, ji bo parskirina raporên darayî û ji bo baştirkirina kalîteya pêvajoya chatbotê ya pirsgirêkên tevlihev in.

Du guhertoyên modela jina-embeddings ji bo dakêşanê hene (bingehîn - 0.27 GB û kêmkirî - 0.07 GB), li ser 400 mîlyon cotên rêzikên nivîsê yên bi Englishngilîzî hatine perwerde kirin, ku qadên cihêreng ên zanînê vedigirin. Di dema perwerdehiyê de, rêzikên bi mezinahiya 512 nîşanekan hatin bikar anîn, ku bi karanîna rêbaza ALiBi (Hişyariya Bi Biasesên Rêzik) bi mezinahiya 8192-an ve hatin derxistin.

Modela bingehîn 137 mîlyon parametre digire û ji bo karanîna li ser pergalên rawestayî yên bi GPU hatî çêkirin. Modela kêmkirî 33 mîlyon parametre vedihewîne, rastbûna kêmtir peyda dike û armanc ew e ku li ser cîhazên mobîl û pergalên bi bîranînek piçûk bikar bînin. Di demek nêzîk de ew jî plan dikin ku modelek mezin a ku dê 435 mîlyon parametre biweşînin. Versiyonek pirzimanî ya modelê jî di pêşkeftinê de ye, ku niha balê dikişîne ser piştgirîya Almanî û Spanî. Ji bo karanîna modela jina-embeddings bi navgîniya amûra LLM ve pêvekek veqetandî hatiye amadekirin.

Source: opennet.ru

Add a comment