د جینا ایمبیډینګ لپاره د خلاصې سرچینې کوډ، د متن معنی د ویکتور نمایندګۍ لپاره ماډل

جینا د ویکتور متن نمایندګۍ لپاره د ماشین زده کړې ماډل خلاص کړی، jina-embeddings-v2.0، د اپاچی 2 جواز لاندې. موډل تاسو ته اجازه درکوي په خپل سري متن بدل کړئ، په شمول تر 8192 حروفونو پورې، د اصلي شمیرو کوچنۍ لړۍ ته چې یو ویکتور جوړوي چې د سرچینې متن سره پرتله کیږي او د هغې سیمانټیک (معنی) بیا تولیدوي. جینا ایمبیډینګ د پرانیستې ماشین زده کړې لومړی ماډل و چې د OpenAI پروژې (text-embedding-ada-002) څخه د ملکیت متن ویکتورائزیشن ماډل په څیر ورته فعالیت لري، تر 8192 ټوکنونو پورې د متن پروسس کولو وړتیا هم لري.

د دوه تولید شوي ویکتورونو تر مینځ فاصله د سرچینې متنونو سیمانټیک اړیکه ټاکلو لپاره کارول کیدی شي. په عمل کې، تولید شوي ویکتورونه د متنونو ورته والی تحلیل کولو لپاره کارول کیدی شي، د موضوع پورې اړوند موادو لټون تنظیم کړي (د سیمانټیک نږدې والی له مخې درجه بندي پایلې)، د معنی له مخې ډله ایز متنونه، سپارښتنې تولید کړئ (د ورته متن تارونو لیست وړاندې کړئ) ګډوډي وپیژني، د ادبي غلا کشف او ډلبندۍ ازموینې. د کارولو برخو مثالونو کې د قانوني اسنادو تحلیل لپاره د ماډل کارول ، د سوداګرۍ تحلیلونو لپاره ، د ساینسي مقالو پروسس کولو لپاره طبي تحقیق کې ، ادبي انتقاد کې ، د مالي راپورونو تحلیل او د پیچلو مسلو د چیټ بوټ پروسس کولو کیفیت ښه کولو لپاره شامل دي.

د جینا ایمبیډینګ ماډل دوه نسخې د ډاونلوډ لپاره شتون لري (بنسټیز - 0.27 GB او کم شوی - 0.07 GB)، په انګلیسي کې د 400 ملیون جوړه متن ترتیبونو باندې روزل شوي، د پوهې بیلابیل برخې پوښي. د روزنې په جریان کې، د 512 ټوکنونو اندازې سره ترتیبونه کارول شوي، کوم چې د ALiBi (د خطي تعصب سره پاملرنه) میتود په کارولو سره د 8192 اندازې ته لیږدول شوي.

لومړني ماډل کې 137 ملیون پیرامیټونه شامل دي او د GPU سره سټیشنري سیسټمونو کې د کارولو لپاره ډیزاین شوی. کم شوی ماډل کې 33 ملیون پیرامیټرې شاملې دي، لږ دقت چمتو کوي او هدف یې په ګرځنده وسیلو او سیسټمونو کې د لږ مقدار حافظې سره کارول دي. په نږدې راتلونکي کې دوی پلان لري چې یو لوی ماډل خپور کړي چې 435 ملیون پیرامیټونه به پوښي. د ماډل څو ژبنۍ نسخه هم د پراختیا په حال کې ده، دا مهال د آلمان او هسپانوي لپاره په ملاتړ تمرکز کوي. د LLM Toolkit له لارې د جینا-ایمبیډینګ ماډل کارولو لپاره په جلا توګه یو پلگ ان چمتو شوی.

سرچینه: opennet.ru

Add a comment