Msimbo wazi wa chanzo wa Upachikaji wa Jina, kielelezo cha uwakilishi wa vekta wa maana ya maandishi

Jina lina chanzo huria cha muundo wa mashine ya kujifunza kwa uwakilishi wa maandishi ya vekta, jina-embeddings-v2.0, chini ya leseni ya Apache 2. Mfano huo hukuruhusu kubadilisha maandishi ya kiholela, pamoja na hadi herufi 8192, kuwa mlolongo mdogo wa nambari halisi zinazounda vekta ambayo inalinganishwa na maandishi ya chanzo na kutoa tena semantiki zake (maana). Upachikaji wa Jina ulikuwa modeli ya kwanza ya kujifunza kwa mashine iliyo wazi kuwa na utendakazi sawa na muundo wa umiliki wa vekta wa maandishi kutoka mradi wa OpenAI (text-embedding-ada-002), pia wenye uwezo wa kuchakata maandishi kwa hadi tokeni 8192.

Umbali kati ya vekta mbili zinazozalishwa unaweza kutumika kubainisha uhusiano wa kimaana wa matini chanzi. Katika mazoezi, vectors zinazozalishwa zinaweza kutumika kuchambua kufanana kwa maandiko, kuandaa utafutaji wa nyenzo zinazohusiana na mada (matokeo ya cheo kwa ukaribu wa semantic), maandiko ya kikundi kwa maana, kutoa mapendekezo (kutoa orodha ya masharti ya maandishi sawa), kutambua makosa, kugundua wizi na kuainisha vipimo. Mifano ya maeneo ya matumizi ni pamoja na matumizi ya kielelezo cha uchanganuzi wa hati za kisheria, kwa uchanganuzi wa biashara, katika utafiti wa matibabu kwa kuchakata nakala za kisayansi, ukosoaji wa kifasihi, kuchanganua ripoti za kifedha na kuboresha ubora wa usindikaji wa gumzo la maswala tata.

Matoleo mawili ya modeli ya upachikaji jina yanapatikana kwa kupakuliwa (ya msingi - 0.27 GB na kupunguzwa - 0.07 GB), iliyofunzwa kwa jozi milioni 400 za mpangilio wa maandishi kwa Kiingereza, inayofunika nyanja mbalimbali za maarifa. Wakati wa mafunzo, mlolongo na ukubwa wa ishara 512 zilitumiwa, ambazo zilitolewa kwa ukubwa wa 8192 kwa kutumia njia ya ALiBi (Tahadhari na Linear Biases).

Muundo wa kimsingi ni pamoja na vigezo milioni 137 na umeundwa kwa matumizi kwenye mifumo ya stationary na GPU. Mfano uliopunguzwa unajumuisha vigezo milioni 33, hutoa usahihi mdogo na inalenga matumizi ya vifaa vya simu na mifumo yenye kiasi kidogo cha kumbukumbu. Katika siku za usoni pia wanapanga kuchapisha mfano mkubwa ambao utafunika vigezo milioni 435. Toleo la lugha nyingi la modeli pia linatengenezwa, kwa sasa likilenga usaidizi wa Kijerumani na Kihispania. Programu-jalizi imetayarishwa kando kwa ajili ya kutumia modeli ya upachikaji jina kupitia zana ya zana ya LLM.

Chanzo: opennet.ru

Kuongeza maoni