په Azure AI کې د مایکروسافټ وروستۍ ټیکنالوژي د خلکو او همدارنګه عکسونه بیانوي


د مایکروسافټ څیړونکو د مصنوعي استخباراتو سیسټم رامینځته کړی چې د عکس سرلیکونو رامینځته کولو وړتیا لري چې په ډیری قضیو کې د انسانانو لخوا رامینځته شوي توضیحاتو څخه ډیر دقیق وي. دا پرمختګ د مایکروسافټ په ژمنتیا کې یو مهم پړاو په نښه کړ چې خپل محصولات او خدمات ټول شموله او ټولو کاروونکو ته د لاسرسي وړ کړي.

"د انځور توضیح د کمپیوټر لید یو له اصلي کارونو څخه دی، کوم چې د خدماتو پراخه لړۍ ممکنه کوي،" Xuedong Huang (Xuedong Huang)، د مایکروسافټ تخنیکي افسر او په ریډمونډ، واشنګټن کې د Azure AI ادراکي خدماتو CTO.

نوی ماډل اوس د کمپیوټر ویژن له لارې پیرودونکو ته شتون لري Azure ادراکي خدمتونه، کوم چې د Azure AI برخه ده ، او پراختیا کونکو ته اجازه ورکوي چې دا ځانګړتیا وکاروي ترڅو د دوی خدماتو شتون ښه کړي. دا د Seeing AI ایپ کې هم شامل دی او د دې کال په وروستیو کې به د وینډوز او ماک لپاره مایکروسافټ ورډ او آؤټ لک کې ، او همدارنګه د وینډوز ، ماک او ویب لپاره پاورپاینټ کې شتون ولري.

اتومات توضیحات کاروونکو سره د هر عکس مهم مینځپانګې ته لاسرسي کې مرسته کوي ، که دا د لټون پایلو کې بیرته راستون شوی عکس وي یا د پریزنټشن لپاره مثال.

ثاقب شیخ وویل: "د سرلیکونو کارول چې په ویب پاڼو او اسنادو کې د عکسونو مینځپانګې (تعریف یا بدیل متن) تشریح کوي په ځانګړي توګه د ړندو یا د لید ضعیف خلکو لپاره مهم دي."ثاقب شیخ)، په ریډمونډ کې د مایکروسافټ د AI پلیټ فارم ګروپ کې د سافټویر مدیر.

د مثال په توګه، د هغه ټیم د ړندو او ضعیفه خلکو لپاره په اپلیکیشن کې د عکس توضیح کولو ښه ځانګړتیا کاروي. د AI لیدل، کوم چې پیژني هغه څه چې کیمره یې نیولې او په اړه یې وايي. ایپ د عکسونو تشریح کولو لپاره تولید شوي سرلیکونه کاروي ، پشمول په ټولنیزو رسنیو کې.

"په مثالي توګه، هرڅوک باید په اسنادو، ویب پاڼو، ټولنیزو شبکو کې په ټولو انځورونو کې alt متن اضافه کړي، ځکه چې دا ړوند خلکو ته اجازه ورکوي چې مینځپانګې ته لاسرسی ومومي او په خبرو اترو کې برخه واخلي. مګر، افسوس، خلک دا نه کوي، "شیخ وايي. "په هرصورت، یو څو ایپسونه شتون لري چې د انځور توضیح کولو ځانګړتیا کاروي ترڅو بدیل متن اضافه کړي کله چې دا ورک وي."
  
په Azure AI کې د مایکروسافټ وروستۍ ټیکنالوژي د خلکو او همدارنګه عکسونه بیانوي

لیروان وانګ، د مایکروسافټ په ریډمونډ لابراتوار کې د څیړنې عمومي مدیر، د یوې څیړنې ډلې مشري وکړه چې د انسان پایلې یې ترلاسه کړې او تیرې کړې. عکس: ډان ډیلونګ.

د نویو شیانو توضیحات

"د انځورونو تشریح کول د کمپیوټر لید یو له اصلي کارونو څخه دی، کوم چې د مصنوعي استخباراتو سیسټم ته اړتیا لري ترڅو په انځور کې وړاندې شوي اصلي مینځپانګې یا عمل درک او تشریح کړي،" لیروان وانګ (ليجوان وانګد مایکروسافټ ریډمونډ لابراتوار کې د څیړنې عمومي مدیر.

هغې وویل: "تاسو اړتیا لرئ پوه شئ چې څه تیریږي، معلومه کړئ چې د شیانو او عملونو ترمنځ اړیکې څه دي، او بیا دا ټول په یوه جمله کې د انسان د لوستلو وړ ژبه کې لنډیز او تشریح کړئ."

وانګ د څیړنې ټیم مشري وکړه، کوم چې په بنچمارکینګ کې nocaps (په پیمانه د ناول څیز کیپشن کول، د نویو شیانو لویه پیمانه توضیحات) د انسان سره پرتله کولو نتیجه ترلاسه کړه، او هغه یې تیر کړ. دا ازموینه تاسو ته اجازه درکوي ارزونه وکړئ چې د AI سیسټمونه د ښودل شوي شیانو توضیحات څومره ښه تولیدوي چې د ډیټا سیټ کې شامل ندي چې ماډل یې روزل شوی و.

عموما، د انځور تشریح سیسټمونه د ډیټا سیټونو په اړه روزل شوي چې انځورونه لري د دې انځورونو متني توضیحاتو سره، دا د لاسلیک شوي انځورونو په سیټونو کې دي.

وانګ وايي: "د nocaps ازموینه ښیې چې سیسټم څومره د نوي شیانو تشریح کولو توان لري چې د روزنې ډیټا کې ندي موندل شوي."

د دې ستونزې د حل لپاره، د مایکروسافټ ټیم د لوی ډیټاسیټ په اړه یو لوی AI ماډل مخکې له مخکې روزل شوی و چې د کلمې ټګ شوي عکسونه لري، هر یو په عکس کې یو ځانګړي شی ته نقشه شوی.

د بشپړ سرلیکونو پرځای د کلمو ټاګونو سره د عکس سیټونه د رامینځته کولو لپاره خورا مؤثر دي ، د وانګ ټیم ته اجازه ورکوي چې ډیری ډیټا په خپل ماډل کې تغذیه کړي. دې کړنالرې هغه ماډل ورکړ چې ټیم یې بصري لغتونه بولي.

لکه څنګه چې هوانګ څرګنده کړه، د بصري لغتونو په کارولو سره د زده کړې دمخه طریقه د لوستلو لپاره د ماشومانو چمتو کولو ته ورته ده: لومړی، د انځور کتاب کارول کیږي چې په کې انفرادي کلمې د انځورونو سره تړاو لري، د بیلګې په توګه، د مڼې د عکس لاندې "مڼه" لیکل کیږي. او د پیشو د عکس لاندې د "بلی" کلمه ده.

"دا دمخه روزنه د بصری لغتونو سره په اصل کې لومړنۍ زده کړې ده چې د سیسټم روزنې لپاره اړین دي. په دې توګه موږ هڅه کوو چې یو ډول موټرو حافظه رامینځته کړو ، "هوانګ وویل.

مخکې روزل شوی ماډل بیا د لیبل شوي عکسونو په شمول د ډیټا سیټ سره پاک شوی. د روزنې په دې مرحله کې، ماډل د جملو جوړول زده کوي. که چیرې یو عکس چې نوي توکي پکې وي څرګند شي ، د AI سیسټم د دقیق توضیحاتو رامینځته کولو لپاره بصري قاموس کاروي.

وانګ وايي: "د ازموینې په جریان کې د نویو شیانو سره د کار کولو لپاره، سیسټم هغه څه سره یوځای کوي چې د روزنې دمخه او وروسته د بیا رغونې په جریان کې یې زده کړل."
د پایلو له مخې څيړنې، کله چې د nocaps ازموینې ارزونه وشوه ، د AI سیسټم د ورته عکسونو لپاره د انسانانو په پرتله ډیر معنی لرونکي او دقیق توضیحات تولید کړل.

کاري چاپیریال ته ګړندی لیږد 

د نورو شیانو په مینځ کې ، د نوي عکس توضیحي سیسټم د 2015 راهیسې د مایکروسافټ محصولاتو او خدماتو کې کارول شوي ماډل دوه چنده ښه دی ، کله چې د بل صنعت معیار سره پرتله کیږي.

د هغو ګټو په پام کې نیولو سره چې د مایکروسافټ محصولاتو او خدماتو ټول کاروونکي به د دې پرمختګ څخه ترلاسه کړي، هوانګ د Azure کاري چاپیریال کې د نوي ماډل ادغام ګړندی کړ.

هغه وویل: "موږ دا ګډوډي AI ټیکنالوژي Azure ته د یو پلیټ فارم په توګه اخلو ترڅو د پیرودونکو پراخه لړۍ ته خدمت وکړي." "او دا یوازې په څیړنه کې پرمختګ نه دی. هغه وخت چې دا د Azure تولید چاپیریال کې د دې پرمختګ شاملولو لپاره اخیستی هم یو پرمختګ و.

هوانګ زیاته کړه چې د انسان په څیر پایلې ترلاسه کول د مایکروسافټ ادراکي استخباراتو سیسټمونو کې دمخه رامینځته شوي رجحان ته دوام ورکوي.

"په تیرو پنځو کلونو کې ، موږ په پنځو لوی برخو کې د انسان په څیر پایلې ترلاسه کړې: د وینا پیژندنه کې ، د ماشین ژباړې کې ، پوښتنو ته ځواب ویلو کې ، د ماشین لوستلو او متن پوهیدلو کې ، او په 2020 کې ، د COVID-19 سربیره ، د عکس توضیحاتو کې. "جوان وویل.

د موضوع په واسطه

د عکسونو د توضیحاتو پایلې پرتله کړئ کوم چې سیسټم دمخه د AI په کارولو سره ورکړی و

په Azure AI کې د مایکروسافټ وروستۍ ټیکنالوژي د خلکو او همدارنګه عکسونه بیانوي

عکس د ګیټي امیجز څخه مننه. مخکینی توضیحات: د یو سړي نږدې عکس چې د پرې کولو تخته کې ګرم سپی چمتو کوي. نوی تشریح: یو سړی ډوډۍ جوړوي.

په Azure AI کې د مایکروسافټ وروستۍ ټیکنالوژي د خلکو او همدارنګه عکسونه بیانوي

عکس د ګیټي امیجز څخه مننه. مخکینی تفصیل: یو سړی د لمر په غروب کې ناست دی. نوی توضیحات: په ساحل کې بون فائر.

په Azure AI کې د مایکروسافټ وروستۍ ټیکنالوژي د خلکو او همدارنګه عکسونه بیانوي

عکس د ګیټي امیجز څخه مننه. مخکینی توضیحات: یو سړی په نیلي کمیس کې. نوی توضیحات: ډیری خلک چې جراحي ماسکونه اغوندي.

په Azure AI کې د مایکروسافټ وروستۍ ټیکنالوژي د خلکو او همدارنګه عکسونه بیانوي

عکس د ګیټي امیجز څخه مننه. مخکینی توضیحات: یو سړی په سکیټ بورډ کې دیوال پورته کوي. نوی توضیحات: د بیسبال لوبغاړی یو بال نیسي.

سرچینه: www.habr.com

Add a comment