ለጂና መክተት የምንጭ ኮድ ክፈት፣ የፅሁፍ ትርጉም የቬክተር ውክልና ሞዴል

ጂና በApache 2.0 ፍቃድ ስር ለቬክተር ጽሑፍ ውክልና፣ jina-embedddings-v2 የማሽን መማሪያ ሞዴልን ከፈተች። ሞዴሉ የዘፈቀደ ጽሑፍን እስከ 8192 ቁምፊዎችን ጨምሮ ወደ ትንሽ የእውነተኛ ቁጥሮች ቅደም ተከተል እንዲቀይሩ ይፈቅድልዎታል ይህም ቬክተርን ከምንጩ ጽሑፍ ጋር በማነፃፀር እና ትርጓሜውን (ትርጉም) እንደገና ያሰራጫል። ጂና ኢምብዲንግ ከOpenAI ፕሮጀክት (ጽሑፍ-ኢምቤዲንግ-አዳ-002) የባለቤትነት ጽሑፍ ቬክተርራይዜሽን ሞዴል ጋር ተመሳሳይ አፈጻጸም ያላት የመጀመሪያው የክፍት ማሽን መማሪያ ሞዴል ነበረች፣ እንዲሁም ጽሑፍን እስከ 8192 ቶከኖች ማካሄድ ይችላል።

በሁለት የተፈጠሩ ቬክተሮች መካከል ያለው ርቀት የምንጭ ጽሑፎችን የትርጉም ግንኙነት ለማወቅ ያስችላል። በተግባር, የተፈጠሩት ቬክተሮች የጽሁፎችን ተመሳሳይነት ለመተንተን, ከርዕሱ ጋር የተያያዙ ቁሳቁሶችን ፍለጋ ለማደራጀት (ውጤቶችን በፍቺ ቅርበት ደረጃ መስጠት), የቡድን ጽሑፎችን በትርጉም, ምክሮችን ማመንጨት (ተመሳሳይ የጽሑፍ ሕብረቁምፊዎች ዝርዝር ማቅረብ) ያልተለመዱ ነገሮችን ለይተው ማወቅ፣ የስርቆት ወንጀልን መለየት እና ፈተናዎችን መድብ። የአጠቃቀሙ አካባቢዎች ምሳሌዎች ህጋዊ ሰነዶችን ለመተንተን ፣ ለንግድ ሥራ ትንተና ፣ ሳይንሳዊ ጽሑፎችን ለማቀናበር በሕክምና ምርምር ፣ በሥነ-ጽሑፍ ትችት ፣ የፋይናንስ ሪፖርቶችን ለመተንተን እና ውስብስብ ጉዳዮችን የቻትቦት ሂደትን ጥራት ለማሻሻል ሞዴልን መጠቀምን ያጠቃልላል።

የጂና-ኢምቤዲንግ ሞዴል ሁለት ስሪቶች ለማውረድ ይገኛሉ (መሰረታዊ - 0.27 ጂቢ እና የተቀነሰ - 0.07 ጂቢ) ፣ በእንግሊዝኛ በ 400 ሚሊዮን ጥንድ የጽሑፍ ቅደም ተከተሎች የሰለጠኑ ፣ የተለያዩ የእውቀት መስኮችን ይሸፍናል ። በስልጠና ወቅት፣ የ 512 ቶከኖች መጠን ያላቸው ቅደም ተከተሎች ጥቅም ላይ ውለዋል፣ እነዚህም ወደ 8192 መጠን በ ALiBi (Attention with Linear Biases) ዘዴ ተጠቅመዋል።

የመሠረታዊው ሞዴል 137 ሚሊዮን መለኪያዎችን ያካትታል እና በጂፒዩ በማይንቀሳቀሱ ስርዓቶች ላይ ጥቅም ላይ እንዲውል የተቀየሰ ነው። የተቀነሰው ሞዴል 33 ሚሊዮን መለኪያዎችን ያካትታል, አነስተኛ ትክክለኛነትን ያቀርባል እና አነስተኛ መጠን ያለው ማህደረ ትውስታ ባላቸው ተንቀሳቃሽ መሳሪያዎች እና ስርዓቶች ላይ ጥቅም ላይ ይውላል. በቅርብ ጊዜ ውስጥ 435 ሚሊዮን መለኪያዎችን የሚሸፍን ትልቅ ሞዴል ለማተም አቅደዋል. በአሁኑ ጊዜ ለጀርመን እና ለስፓኒሽ ድጋፍ ላይ ያተኮረ የአምሳያው ባለብዙ ቋንቋ ስሪት እንዲሁ በመገንባት ላይ ነው። ፕለጊን የጂና-ኢምብዲንግ ሞዴልን በኤል ኤም ኤል መሣሪያ ስብስብ ለመጠቀም ለብቻው ተዘጋጅቷል።

ምንጭ: opennet.ru

አስተያየት ያክሉ