Jina Embedding အတွက် ပွင့်လင်းသော အရင်းအမြစ်ကုဒ်၊ စာသားအဓိပ္ပာယ်ကို vector ကိုယ်စားပြုမှုပုံစံ

Jina သည် Apache 2.0 လိုင်စင်အောက်ရှိ vector စာသားကိုယ်စားပြုခြင်းအတွက် jina-embeddings-v2 အတွက် open-sourced machine learning model တစ်ခုဖြစ်သည်။ မော်ဒယ်သည် သင့်အား စာလုံးပေါင်း 8192 လုံးအထိ အပါအဝင် မတရားသော စာသားကို အရင်းအမြစ်စာသားနှင့် နှိုင်းယှဉ်ထားသည့် vector ကို ဖန်တီးသည့် ကိန်းဂဏန်းအသေးလေးတစ်ခုအဖြစ်သို့ ပြောင်းလဲစေပြီး ၎င်း၏ အဓိပ္ပါယ် (အဓိပ္ပါယ်) ကို ပြန်ထုတ်ပေးပါသည်။ Jina Embedding သည် OpenAI ပရောဂျက် (text-embedding-ada-002) မှ မူပိုင် text vectorization model နှင့် တူညီသော စွမ်းဆောင်ရည်ရှိသည့် ပထမဆုံးသော open machine learning မော်ဒယ်ဖြစ်ပြီး၊ တိုကင်ပေါင်း 8192 အထိ လုပ်ဆောင်နိုင်သော စာသားဖြစ်သည်။

အရင်းအမြစ်စာတိုများ ၏ semantic ဆက်နွယ်မှုကို ဆုံးဖြတ်ရန် ထုတ်လုပ်ထားသော vector နှစ်ခုကြား အကွာအဝေးကို သုံးနိုင်သည်။ လက်တွေ့တွင်၊ ထုတ်ပေးထားသော vector များသည် စာသားများ၏ ဆင်တူယိုးမှားကို ပိုင်းခြားစိတ်ဖြာရန်၊ ခေါင်းစဉ်နှင့် သက်ဆိုင်သည့် ပစ္စည်းများကို ရှာဖွေရန် (အဓိပါယ်အားဖြင့် အဆင့်သတ်မှတ်ခြင်းရလဒ်များ)၊ အဓိပ္ပာယ်ဖြင့် အုပ်စုလိုက် စာသားများ၊ အကြံပြုချက်များထုတ်ပေးခြင်း (အလားတူ စာသားကြိုးများစာရင်းကို ကမ်းလှမ်းရန်)၊ ကွဲလွဲချက်များကို ခွဲခြားသတ်မှတ်ခြင်း၊ ခိုးကူးခြင်းအား ဖော်ထုတ်ပြီး စမ်းသပ်မှုများကို အမျိုးအစားခွဲပါ။ အသုံးပြုမှုနယ်ပယ်များတွင် နမူနာပုံစံကို တရားဝင်စာရွက်စာတမ်းများခွဲခြမ်းစိတ်ဖြာခြင်း၊ စီးပွားရေးခွဲခြမ်းစိတ်ဖြာခြင်းအတွက်၊ ဆေးဘက်ဆိုင်ရာသုတေသနတွင် သိပ္ပံဆိုင်ရာဆောင်းပါးများလုပ်ဆောင်ခြင်းအတွက်၊ စာပေဝေဖန်ရေးတွင်၊ ဘဏ္ဍာရေးအစီရင်ခံစာများကိုခွဲခြမ်းစိတ်ဖြာခြင်းနှင့် ရှုပ်ထွေးသောပြဿနာများ၏ chatbot လုပ်ဆောင်ခြင်းအရည်အသွေးကို မြှင့်တင်ခြင်းတို့ပါဝင်သည်။

jina-embeddings မော်ဒယ်၏ ဗားရှင်းနှစ်မျိုး (အခြေခံ - 0.27 GB နှင့် လျှော့ချ - 0.07 GB) ကို ဒေါင်းလုဒ်လုပ်ရန် ရရှိနိုင်ပြီး အင်္ဂလိပ်လို စာသားအတွဲပေါင်း သန်း 400 ကို လေ့ကျင့်သင်ကြားပေးပြီး အသိပညာနယ်ပယ်အသီးသီးတွင် အကျုံးဝင်ပါသည်။ လေ့ကျင့်ရေးကာလအတွင်း၊ ALiBi (Attention with Linear Biases) နည်းလမ်းကို အသုံးပြု၍ 512 အရွယ်အစားသို့ ပေါင်းထည့်ထားသည့် 8192 တိုကင်အရွယ်အစားရှိသော အတွဲများကို အသုံးပြုခဲ့သည်။

အခြေခံမော်ဒယ်တွင် ကန့်သတ်ဘောင်ပေါင်း 137 သန်းပါဝင်ပြီး GPU ပါသည့် stationary စနစ်များတွင် အသုံးပြုရန်အတွက် ဒီဇိုင်းထုတ်ထားသည်။ လျှော့ချထားသော မော်ဒယ်တွင် ကန့်သတ်ချက်များ ၃၃ သန်းပါဝင်ပြီး တိကျမှုနည်းပြီး မိုဘိုင်းကိရိယာများနှင့် မမ်မိုရီပမာဏ အနည်းငယ်ရှိသော စနစ်များတွင် အသုံးပြုရန် ရည်ရွယ်သည်။ မဝေးတော့သောအနာဂတ်တွင် ၄င်းတို့သည် ကန့်သတ်ဘောင်ပေါင်း 33 သန်းကို လွှမ်းခြုံနိုင်သော မော်ဒယ်ကြီးတစ်ခုကိုလည်း ထုတ်ဝေရန် စီစဉ်နေသည်။ မော်ဒယ်၏ ဘာသာစကားမျိုးစုံဗားရှင်းကိုလည်း တီထွင်ဆဲဖြစ်ပြီး လက်ရှိတွင် ဂျာမန်နှင့် စပိန်တို့အတွက် ပံ့ပိုးမှုအပေါ် အာရုံစိုက်နေသည်။ LLM toolkit မှတဆင့် jina-embeddings မော်ဒယ်ကို အသုံးပြုရန်အတွက် ပလပ်အင်တစ်ခု သီးခြားစီ ပြင်ဆင်ထားပါသည်။

source: opennet.ru

မှတ်ချက် Add