የማይክሮሶፍት ተመራማሪዎች የምስል መግለጫ ጽሑፎችን ማመንጨት የሚችል ሰው ሰራሽ የማሰብ ችሎታ ያለው ስርዓት ፈጥረዋል፣ በብዙ አጋጣሚዎች፣ በሰዎች ከሚሰጡት መግለጫዎች የበለጠ ትክክለኛ ይሆናሉ። ይህ ስኬት ማይክሮሶፍት ምርቶቹን እና አገልግሎቶቹን ሁሉን አቀፍ እና ተደራሽ ለማድረግ ባደረገው ቁርጠኝነት ውስጥ ትልቅ ምዕራፍን አሳይቷል።
"የምስል መግለጫ የኮምፒዩተር እይታ ዋና ተግባራት አንዱ ነው, ይህም ሰፊ አገልግሎቶችን እንዲሰጥ ያደርገዋል" ሲል ሹዶንግ ሁዋንግ (
አዲሱ ሞዴል አሁን በኮምፒውተር ቪዥን በኩል ለተጠቃሚዎች ይገኛል።
ራስ-ሰር መግለጫ ተጠቃሚዎች የማንኛውንም ምስል አስፈላጊ ይዘት እንዲደርሱ ያግዛቸዋል፣ በፍለጋ ውጤቶች ውስጥ የተመለሰ ፎቶም ሆነ ለአቀራረብ ምሳሌ።
"በድረ-ገጾች እና ሰነዶች ላይ የምስሎችን ይዘት (አማራጭ ወይም ተለዋጭ ጽሑፍ እየተባለ የሚጠራውን) የሚገልጹ የመግለጫ ፅሁፎችን መጠቀም በተለይ ማየት ለተሳናቸው ወይም ማየት ለተሳናቸው ሰዎች በጣም አስፈላጊ ነው" ብለዋል ሳቂብ ሼክ (
ለምሳሌ፣ የእሱ ቡድን ለዓይነ ስውራን እና ማየት ለተሳናቸው ሰዎች በመተግበሪያው ውስጥ የተሻሻለ የምስል መግለጫ ባህሪን እየተጠቀመ ነው።
"በሐሳብ ደረጃ፣ ሁሉም ሰው በሰነዶች፣ በድር ላይ፣ በማህበራዊ አውታረመረቦች ላይ ባሉ ምስሎች ላይ ሁሉ alt ጽሑፍ ማከል አለበት፣ ይህ ዓይነ ስውራን ይዘቱን እንዲደርሱበት እና በውይይቱ ውስጥ እንዲሳተፉ ያስችላቸዋል። ነገር ግን ወዮ፣ ሰዎች ይህን አያደርጉም” ይላሉ ሼኩ። "ነገር ግን፣ ሲጎድል አማራጭ ጽሑፍ ለመጨመር የምስል መግለጫ ባህሪውን የሚጠቀሙ ጥቂት መተግበሪያዎች አሉ።"
የማይክሮሶፍት ሬድመንድ ላብ የምርምር ስራ አስኪያጅ ሊሩአን ዋንግ የምርምር ቡድንን በመምራት የሰውን ልጅ ውጤት አስመዝግቧል። ፎቶ: ዳን DeLong.
የአዳዲስ እቃዎች መግለጫ
"ምስሎችን መግለጽ ከኮምፒዩተር እይታ ዋና ተግባራት ውስጥ አንዱ ነው, ይህም በምስሉ ላይ የቀረበውን ዋና ይዘት ወይም ድርጊት ለመረዳት እና ለመግለጽ ሰው ሰራሽ የማሰብ ችሎታ ስርዓት ያስፈልገዋል" ሲል ሊሩአን ዋንግ ገልጿል.
"ምን እየተካሄደ እንዳለ መረዳት አለብህ፣ በእቃዎች እና በድርጊቶች መካከል ያሉ ግንኙነቶች ምን እንደሆኑ ለማወቅ፣ እና ሁሉንም በሰዎች በሚነበብ ቋንቋ በአረፍተ ነገር ጠቅለል አድርገህ ግለጽ" አለችኝ።
ዋንግ የምርምር ቡድኑን መርቷል፣ ይህም በቤንችማርኪንግ ነው።
በተለምዶ የምስል መግለጫ ስርዓቶች የእነዚህ ምስሎች ጽሑፋዊ መግለጫዎች ማለትም በተፈረሙ ምስሎች ስብስቦች ላይ ምስሎችን በያዙ የውሂብ ስብስቦች ላይ የሰለጠኑ ናቸው።
"የ nocaps ፈተና ስርዓቱ ምን ያህል በስልጠና መረጃ ውስጥ ያልተገኙ አዳዲስ ነገሮችን መግለጽ እንደሚችል ያሳያል" ይላል ዋንግ.
ይህንን ችግር ለመፍታት፣ የማይክሮሶፍት ቡድን በምስሉ ላይ ካለው የተወሰነ ነገር ጋር የተቆራኘ የቃል መለያ ምስሎችን በያዘ ትልቅ የመረጃ ቋት ላይ አንድ ትልቅ AI ሞዴልን አስቀድሞ አሰልጥኗል።
ከሙሉ መግለጫ ፅሁፎች ይልቅ የቃላት መለያ ያላቸው የምስል ስብስቦች ለመፍጠር የበለጠ ቀልጣፋ ናቸው፣ ይህም የ Wang ቡድን ብዙ መረጃዎችን ወደ ሞዴላቸው እንዲመግብ ያስችለዋል። ይህ አቀራረብ ቡድኑ ምስላዊ የቃላት ዝርዝር ብሎ የሚጠራውን ሞዴል ሰጥቷል።
ሁዋንግ እንዳብራራው፣ የእይታ መዝገበ ቃላትን በመጠቀም የቅድመ-ትምህርት አቀራረብ ልጆችን ለንባብ ከማዘጋጀት ጋር ተመሳሳይ ነው፡- በመጀመሪያ፣ የግለሰብ ቃላት ከምስሎች ጋር የተቆራኙበት የስዕል መጽሐፍ ጥቅም ላይ ይውላል፣ ለምሳሌ በፖም ፎቶ ስር “ፖም” ተብሎ ተጽፏል። እና በድመት ፎቶ ስር "ድመት" የሚለው ቃል አለ.
“ይህ ቅድመ-ስልጠና ከእይታ መዝገበ-ቃላት ጋር በመሠረቱ ስርዓቱን ለማሰልጠን የሚያስፈልገው የመጀመሪያ ደረጃ ትምህርት ነው። አንድ ዓይነት የሞተር ማህደረ ትውስታን ለማዳበር የምንሞክረው በዚህ መንገድ ነው” ሲል ሁዋንግ ተናግሯል።
ቀድሞ የሰለጠነው ሞዴል ምልክት የተደረገባቸው ምስሎችን ጨምሮ በውሂብ ስብስብ ይጣራል። በዚህ የስልጠና ደረጃ, ሞዴሉ ዓረፍተ ነገሮችን ለመስራት ይማራል. አዳዲስ ነገሮችን የያዘ ምስል ከታየ የ AI ሲስተም ትክክለኛ መግለጫዎችን ለመፍጠር ምስላዊ መዝገበ ቃላትን ይጠቀማል።
"በሙከራ ጊዜ ከአዳዲስ ነገሮች ጋር ለመስራት ስርዓቱ በቅድመ-ስልጠና ወቅት እና በቀጣይ ማሻሻያ ወቅት የተማረውን ያዋህዳል" ይላል ዋንግ.
በውጤቶቹ መሰረት
ወደ የስራ አካባቢ ፈጣን ሽግግር
ከሌሎች ነገሮች በተጨማሪ አዲሱ የምስል መግለጫ ስርዓት ከ 2015 ጀምሮ በማይክሮሶፍት ምርቶች እና አገልግሎቶች ውስጥ ጥቅም ላይ ከዋለ ሞዴል ጋር ሲነፃፀር በእጥፍ ይበልጣል።
ሁሉም የማይክሮሶፍት ምርቶች እና አገልግሎቶች ተጠቃሚዎች ከዚህ ማሻሻያ የሚያገኙትን ጥቅም ግምት ውስጥ በማስገባት ሁአንግ አዲሱን ሞዴል ወደ Azure የስራ አካባቢ እንዲቀላቀል አድርጓል።
"ይህን የሚረብሽ የኤአይአይ ቴክኖሎጂን ወደ አዙር እንደ መድረክ እየወሰድነው ብዙ ደንበኞችን ለማገልገል ነው" ብሏል። "እና ይህ በምርምር ውስጥ አንድ ግኝት ብቻ አይደለም. ይህንን ግኝት በአዙሬ ምርት አካባቢ ውስጥ ለማካተት የፈጀበት ጊዜም ትልቅ ስኬት ነው።
ሁአንግ አክለው እንደ ሰው መሰል ውጤቶች ማሳካት በማይክሮሶፍት የግንዛቤ ኢንተለጀንስ ሲስተም ውስጥ የተዘረጋውን አዝማሚያ ቀጥሏል።
“ባለፉት አምስት ዓመታት ውስጥ፣ በአምስት ዋና ዋና ዘርፎች የሰው መሰል ውጤቶችን አግኝተናል፡ በንግግር ማወቂያ፣ በማሽን መተርጎም፣ ጥያቄዎችን በመመለስ፣ በማሽን ንባብ እና በፅሁፍ ግንዛቤ እና በ2020፣ COVID-19 ቢሆንም፣ በምስል መግለጫ " አለ ሁዋን።
በርዕሰ ጉዳይ
- ጣቢያውን ይጎብኙ
Azure ኮግኒቲቭ አገልግሎቶች ስለ ኮምፒውተር እይታ የበለጠ ለማወቅ (የኮምፒውተር ራዕይ ) - ጽሑፉን ያንብቡ
ታሪካዊ ስኬት - የማይክሮሶፍት ተመራማሪዎች በራስ-ሰር የንግግር እውቅና ውስጥ የሰውን ደረጃ አሳክተዋል።
ስርዓቱ ከዚህ በፊት እና አሁን AI በመጠቀም የሰጠውን የምስሎች መግለጫ ውጤቶች ያወዳድሩ
ፎቶ በጌቲ ምስሎች የቀረበ። የቀድሞ መግለጫ: በመቁረጫ ሰሌዳ ላይ ትኩስ ውሻን የሚያዘጋጅ ሰው ቅርብ. አዲስ መግለጫ፡- ሰው እንጀራ ይሠራል።
ፎቶ በጌቲ ምስሎች የቀረበ። የቀድሞ መግለጫ: አንድ ሰው ፀሐይ ስትጠልቅ ተቀምጧል. አዲስ መግለጫ፡ በባሕሩ ዳርቻ ላይ ያለው የእሳት ቃጠሎ።
ፎቶ በጌቲ ምስሎች የቀረበ። የቀድሞ መግለጫ: ሰማያዊ ሸሚዝ የለበሰ ሰው. አዲስ መግለጫ፡- የቀዶ ጥገና ማስክ ያደረጉ በርካታ ሰዎች።
ፎቶ በጌቲ ምስሎች የቀረበ። የቀድሞ መግለጫ፡ በስኬትቦርድ ላይ ያለ ሰው ግድግዳው ላይ በረረ። አዲስ መግለጫ፡ ቤዝቦል ተጫዋች ኳስ ይይዛል።
ምንጭ: hab.com