በ Azure AI ውስጥ ያለው የማይክሮሶፍት የቅርብ ጊዜ ቴክኖሎጂ ምስሎችን እና ሰዎችን ይገልጻል


የማይክሮሶፍት ተመራማሪዎች የምስል መግለጫ ጽሑፎችን ማመንጨት የሚችል ሰው ሰራሽ የማሰብ ችሎታ ያለው ስርዓት ፈጥረዋል፣ በብዙ አጋጣሚዎች፣ በሰዎች ከሚሰጡት መግለጫዎች የበለጠ ትክክለኛ ይሆናሉ። ይህ ስኬት ማይክሮሶፍት ምርቶቹን እና አገልግሎቶቹን ሁሉን አቀፍ እና ተደራሽ ለማድረግ ባደረገው ቁርጠኝነት ውስጥ ትልቅ ምዕራፍን አሳይቷል።

"የምስል መግለጫ የኮምፒዩተር እይታ ዋና ተግባራት አንዱ ነው, ይህም ሰፊ አገልግሎቶችን እንዲሰጥ ያደርገዋል" ሲል ሹዶንግ ሁዋንግ (ዙዶንግ ሁዋንግ), የማይክሮሶፍት ቴክኒካል ኦፊሰር እና CTO of Azure AI Cognitive Services በ Redmond, Washington.

አዲሱ ሞዴል አሁን በኮምፒውተር ቪዥን በኩል ለተጠቃሚዎች ይገኛል። Azure ኮግኒቲቭ አገልግሎቶችየ Azure AI አካል የሆነው እና ገንቢዎች የአገልግሎታቸውን መገኘት ለማሻሻል ይህን ባህሪ እንዲጠቀሙ ያስችላቸዋል። በተጨማሪም በ Seeing AI መተግበሪያ ውስጥ እየተካተተ ሲሆን በዚህ አመት መጨረሻ ላይ በማይክሮሶፍት ዎርድ እና አውትሉክ ለዊንዶውስ እና ማክ እንዲሁም በፓወር ፖይንት ለዊንዶውስ፣ ማክ እና በድር ላይ ይገኛል።

ራስ-ሰር መግለጫ ተጠቃሚዎች የማንኛውንም ምስል አስፈላጊ ይዘት እንዲደርሱ ያግዛቸዋል፣ በፍለጋ ውጤቶች ውስጥ የተመለሰ ፎቶም ሆነ ለአቀራረብ ምሳሌ።

"በድረ-ገጾች እና ሰነዶች ላይ የምስሎችን ይዘት (አማራጭ ወይም ተለዋጭ ጽሑፍ እየተባለ የሚጠራውን) የሚገልጹ የመግለጫ ፅሁፎችን መጠቀም በተለይ ማየት ለተሳናቸው ወይም ማየት ለተሳናቸው ሰዎች በጣም አስፈላጊ ነው" ብለዋል ሳቂብ ሼክ (ሳቂብ ሼክ), በ Redmond ውስጥ በማይክሮሶፍት AI መድረክ ቡድን የሶፍትዌር ስራ አስኪያጅ።

ለምሳሌ፣ የእሱ ቡድን ለዓይነ ስውራን እና ማየት ለተሳናቸው ሰዎች በመተግበሪያው ውስጥ የተሻሻለ የምስል መግለጫ ባህሪን እየተጠቀመ ነው። AI በመመልከት, ይህም ካሜራው እየቀረጸ ያለውን የሚገነዘብ እና ስለ እሱ የሚናገረው. መተግበሪያው በማህበራዊ ሚዲያ ላይ ጨምሮ ፎቶዎችን ለመግለጽ የመነጩ መግለጫ ጽሑፎችን ይጠቀማል።

"በሐሳብ ደረጃ፣ ሁሉም ሰው በሰነዶች፣ በድር ላይ፣ በማህበራዊ አውታረመረቦች ላይ ባሉ ምስሎች ላይ ሁሉ alt ጽሑፍ ማከል አለበት፣ ይህ ዓይነ ስውራን ይዘቱን እንዲደርሱበት እና በውይይቱ ውስጥ እንዲሳተፉ ያስችላቸዋል። ነገር ግን ወዮ፣ ሰዎች ይህን አያደርጉም” ይላሉ ሼኩ። "ነገር ግን፣ ሲጎድል አማራጭ ጽሑፍ ለመጨመር የምስል መግለጫ ባህሪውን የሚጠቀሙ ጥቂት መተግበሪያዎች አሉ።"
  
በ Azure AI ውስጥ ያለው የማይክሮሶፍት የቅርብ ጊዜ ቴክኖሎጂ ምስሎችን እና ሰዎችን ይገልጻል

የማይክሮሶፍት ሬድመንድ ላብ የምርምር ስራ አስኪያጅ ሊሩአን ዋንግ የምርምር ቡድንን በመምራት የሰውን ልጅ ውጤት አስመዝግቧል። ፎቶ: ዳን DeLong.

የአዳዲስ እቃዎች መግለጫ

"ምስሎችን መግለጽ ከኮምፒዩተር እይታ ዋና ተግባራት ውስጥ አንዱ ነው, ይህም በምስሉ ላይ የቀረበውን ዋና ይዘት ወይም ድርጊት ለመረዳት እና ለመግለጽ ሰው ሰራሽ የማሰብ ችሎታ ስርዓት ያስፈልገዋል" ሲል ሊሩአን ዋንግ ገልጿል.ሊጁን ዋንግ)፣ የማይክሮሶፍት ሬድመንድ ላብራቶሪ የምርምር ዋና ሥራ አስኪያጅ።

"ምን እየተካሄደ እንዳለ መረዳት አለብህ፣ በእቃዎች እና በድርጊቶች መካከል ያሉ ግንኙነቶች ምን እንደሆኑ ለማወቅ፣ እና ሁሉንም በሰዎች በሚነበብ ቋንቋ በአረፍተ ነገር ጠቅለል አድርገህ ግለጽ" አለችኝ።

ዋንግ የምርምር ቡድኑን መርቷል፣ ይህም በቤንችማርኪንግ ነው። nocaps (የልቦለድ ነገር መግለጫ ጽሑፍ በመጠን ፣ የአዳዲስ ዕቃዎች መጠነ ሰፊ መግለጫ) ከሰው ልጅ ጋር የሚወዳደር ውጤት አስገኝቷል እና በልጦ ነበር። ይህ ሙከራ የ AI ስርዓቶች ሞዴሉ በሰለጠነበት የውሂብ ስብስብ ውስጥ ያልተካተቱ የተገለጹ ዕቃዎችን መግለጫዎች ምን ያህል በጥሩ ሁኔታ እንደሚያመነጩ ለመገምገም ያስችልዎታል።

በተለምዶ የምስል መግለጫ ስርዓቶች የእነዚህ ምስሎች ጽሑፋዊ መግለጫዎች ማለትም በተፈረሙ ምስሎች ስብስቦች ላይ ምስሎችን በያዙ የውሂብ ስብስቦች ላይ የሰለጠኑ ናቸው።

"የ nocaps ፈተና ስርዓቱ ምን ያህል በስልጠና መረጃ ውስጥ ያልተገኙ አዳዲስ ነገሮችን መግለጽ እንደሚችል ያሳያል" ይላል ዋንግ.

ይህንን ችግር ለመፍታት፣ የማይክሮሶፍት ቡድን በምስሉ ላይ ካለው የተወሰነ ነገር ጋር የተቆራኘ የቃል መለያ ምስሎችን በያዘ ትልቅ የመረጃ ቋት ላይ አንድ ትልቅ AI ሞዴልን አስቀድሞ አሰልጥኗል።

ከሙሉ መግለጫ ፅሁፎች ይልቅ የቃላት መለያ ያላቸው የምስል ስብስቦች ለመፍጠር የበለጠ ቀልጣፋ ናቸው፣ ይህም የ Wang ቡድን ብዙ መረጃዎችን ወደ ሞዴላቸው እንዲመግብ ያስችለዋል። ይህ አቀራረብ ቡድኑ ምስላዊ የቃላት ዝርዝር ብሎ የሚጠራውን ሞዴል ሰጥቷል።

ሁዋንግ እንዳብራራው፣ የእይታ መዝገበ ቃላትን በመጠቀም የቅድመ-ትምህርት አቀራረብ ልጆችን ለንባብ ከማዘጋጀት ጋር ተመሳሳይ ነው፡- በመጀመሪያ፣ የግለሰብ ቃላት ከምስሎች ጋር የተቆራኙበት የስዕል መጽሐፍ ጥቅም ላይ ይውላል፣ ለምሳሌ በፖም ፎቶ ስር “ፖም” ተብሎ ተጽፏል። እና በድመት ፎቶ ስር "ድመት" የሚለው ቃል አለ.

“ይህ ቅድመ-ስልጠና ከእይታ መዝገበ-ቃላት ጋር በመሠረቱ ስርዓቱን ለማሰልጠን የሚያስፈልገው የመጀመሪያ ደረጃ ትምህርት ነው። አንድ ዓይነት የሞተር ማህደረ ትውስታን ለማዳበር የምንሞክረው በዚህ መንገድ ነው” ሲል ሁዋንግ ተናግሯል።

ቀድሞ የሰለጠነው ሞዴል ምልክት የተደረገባቸው ምስሎችን ጨምሮ በውሂብ ስብስብ ይጣራል። በዚህ የስልጠና ደረጃ, ሞዴሉ ዓረፍተ ነገሮችን ለመስራት ይማራል. አዳዲስ ነገሮችን የያዘ ምስል ከታየ የ AI ሲስተም ትክክለኛ መግለጫዎችን ለመፍጠር ምስላዊ መዝገበ ቃላትን ይጠቀማል።

"በሙከራ ጊዜ ከአዳዲስ ነገሮች ጋር ለመስራት ስርዓቱ በቅድመ-ስልጠና ወቅት እና በቀጣይ ማሻሻያ ወቅት የተማረውን ያዋህዳል" ይላል ዋንግ.
በውጤቶቹ መሰረት ምርምራ, በ nocaps ፈተናዎች ላይ ሲገመገም, የ AI ስርዓት ለተመሳሳይ ምስሎች ሰዎች ካደረጉት የበለጠ ትርጉም ያለው እና ትክክለኛ መግለጫዎችን አዘጋጅቷል.

ወደ የስራ አካባቢ ፈጣን ሽግግር 

ከሌሎች ነገሮች በተጨማሪ አዲሱ የምስል መግለጫ ስርዓት ከ 2015 ጀምሮ በማይክሮሶፍት ምርቶች እና አገልግሎቶች ውስጥ ጥቅም ላይ ከዋለ ሞዴል ​​ጋር ሲነፃፀር በእጥፍ ይበልጣል።

ሁሉም የማይክሮሶፍት ምርቶች እና አገልግሎቶች ተጠቃሚዎች ከዚህ ማሻሻያ የሚያገኙትን ጥቅም ግምት ውስጥ በማስገባት ሁአንግ አዲሱን ሞዴል ወደ Azure የስራ አካባቢ እንዲቀላቀል አድርጓል።

"ይህን የሚረብሽ የኤአይአይ ቴክኖሎጂን ወደ አዙር እንደ መድረክ እየወሰድነው ብዙ ደንበኞችን ለማገልገል ነው" ብሏል። "እና ይህ በምርምር ውስጥ አንድ ግኝት ብቻ አይደለም. ይህንን ግኝት በአዙሬ ምርት አካባቢ ውስጥ ለማካተት የፈጀበት ጊዜም ትልቅ ስኬት ነው።

ሁአንግ አክለው እንደ ሰው መሰል ውጤቶች ማሳካት በማይክሮሶፍት የግንዛቤ ኢንተለጀንስ ሲስተም ውስጥ የተዘረጋውን አዝማሚያ ቀጥሏል።

“ባለፉት አምስት ዓመታት ውስጥ፣ በአምስት ዋና ዋና ዘርፎች የሰው መሰል ውጤቶችን አግኝተናል፡ በንግግር ማወቂያ፣ በማሽን መተርጎም፣ ጥያቄዎችን በመመለስ፣ በማሽን ንባብ እና በፅሁፍ ግንዛቤ እና በ2020፣ COVID-19 ቢሆንም፣ በምስል መግለጫ " አለ ሁዋን።

በርዕሰ ጉዳይ

ስርዓቱ ከዚህ በፊት እና አሁን AI በመጠቀም የሰጠውን የምስሎች መግለጫ ውጤቶች ያወዳድሩ

በ Azure AI ውስጥ ያለው የማይክሮሶፍት የቅርብ ጊዜ ቴክኖሎጂ ምስሎችን እና ሰዎችን ይገልጻል

ፎቶ በጌቲ ምስሎች የቀረበ። የቀድሞ መግለጫ: በመቁረጫ ሰሌዳ ላይ ትኩስ ውሻን የሚያዘጋጅ ሰው ቅርብ. አዲስ መግለጫ፡- ሰው እንጀራ ይሠራል።

በ Azure AI ውስጥ ያለው የማይክሮሶፍት የቅርብ ጊዜ ቴክኖሎጂ ምስሎችን እና ሰዎችን ይገልጻል

ፎቶ በጌቲ ምስሎች የቀረበ። የቀድሞ መግለጫ: አንድ ሰው ፀሐይ ስትጠልቅ ተቀምጧል. አዲስ መግለጫ፡ በባሕሩ ዳርቻ ላይ ያለው የእሳት ቃጠሎ።

በ Azure AI ውስጥ ያለው የማይክሮሶፍት የቅርብ ጊዜ ቴክኖሎጂ ምስሎችን እና ሰዎችን ይገልጻል

ፎቶ በጌቲ ምስሎች የቀረበ። የቀድሞ መግለጫ: ሰማያዊ ሸሚዝ የለበሰ ሰው. አዲስ መግለጫ፡- የቀዶ ጥገና ማስክ ያደረጉ በርካታ ሰዎች።

በ Azure AI ውስጥ ያለው የማይክሮሶፍት የቅርብ ጊዜ ቴክኖሎጂ ምስሎችን እና ሰዎችን ይገልጻል

ፎቶ በጌቲ ምስሎች የቀረበ። የቀድሞ መግለጫ፡ በስኬትቦርድ ላይ ያለ ሰው ግድግዳው ላይ በረረ። አዲስ መግለጫ፡ ቤዝቦል ተጫዋች ኳስ ይይዛል።

ምንጭ: hab.com

አስተያየት ያክሉ