Azure AIలో Microsoft యొక్క తాజా సాంకేతికత చిత్రాలతో పాటు వ్యక్తులను వివరిస్తుంది


మైక్రోసాఫ్ట్ పరిశోధకులు ఒక కృత్రిమ మేధస్సు వ్యవస్థను రూపొందించారు, ఇది ఇమేజ్ క్యాప్షన్‌లను రూపొందించగలదు, ఇది చాలా సందర్భాలలో, మానవులు చేసిన వివరణల కంటే మరింత ఖచ్చితమైనదిగా మారుతుంది. ఈ పురోగతి మైక్రోసాఫ్ట్ తన ఉత్పత్తులు మరియు సేవలను కలుపుకొని మరియు వినియోగదారులందరికీ అందుబాటులో ఉండేలా చేయడంలో నిబద్ధతలో ఒక ప్రధాన మైలురాయిని గుర్తించింది.

"ఇమేజ్ డిస్క్రిప్షన్ అనేది కంప్యూటర్ విజన్ యొక్క ప్రధాన విధుల్లో ఒకటి, ఇది విస్తృతమైన సేవలను సాధ్యం చేస్తుంది" అని జుడాంగ్ హువాంగ్ (జుడాంగ్ హువాంగ్), ఒక మైక్రోసాఫ్ట్ టెక్నికల్ ఆఫీసర్ మరియు రెడ్‌మండ్, వాషింగ్టన్‌లోని అజూర్ AI కాగ్నిటివ్ సర్వీసెస్ యొక్క CTO.

కొత్త మోడల్ ఇప్పుడు కంప్యూటర్ విజన్ ద్వారా వినియోగదారులకు అందుబాటులో ఉంది అజూర్ కాగ్నిటివ్ సర్వీసెస్, ఇది Azure AIలో భాగం మరియు డెవలపర్‌లు తమ సేవల లభ్యతను మెరుగుపరచడానికి ఈ లక్షణాన్ని ఉపయోగించడానికి అనుమతిస్తుంది. ఇది సీయింగ్ AI యాప్‌లో కూడా చేర్చబడుతోంది మరియు Windows మరియు Mac కోసం Microsoft Word మరియు Outlookలో అలాగే Windows, Mac మరియు వెబ్‌లో PowerPointలో ఈ సంవత్సరం చివర్లో అందుబాటులో ఉంటుంది.

శోధన ఫలితాలలో అందించబడిన ఫోటో అయినా లేదా ప్రదర్శన కోసం ఉదాహరణ అయినా ఏదైనా చిత్రం యొక్క ముఖ్యమైన కంటెంట్‌ను యాక్సెస్ చేయడానికి వినియోగదారులకు స్వీయ వివరణ సహాయపడుతుంది.

"వెబ్ పేజీలు మరియు డాక్యుమెంట్‌లలో చిత్రాల కంటెంట్‌ను (ప్రత్యామ్నాయ లేదా ప్రత్యామ్నాయ టెక్స్ట్ అని పిలవబడేవి) వివరించే శీర్షికల ఉపయోగం అంధులు లేదా దృష్టి లోపం ఉన్నవారికి చాలా ముఖ్యమైనది" అని సాకిబ్ షేక్ (సాకిబ్ షేక్), రెడ్‌మండ్‌లోని మైక్రోసాఫ్ట్ యొక్క AI ప్లాట్‌ఫారమ్ గ్రూప్‌లో సాఫ్ట్‌వేర్ మేనేజర్.

ఉదాహరణకు, అతని బృందం అంధులు మరియు దృష్టి లోపం ఉన్న వ్యక్తుల కోసం యాప్‌లో మెరుగైన చిత్ర వివరణ లక్షణాన్ని ఉపయోగిస్తోంది. AI ని చూస్తున్నారు, ఇది కెమెరా ఏమి క్యాప్చర్ చేస్తుందో గుర్తించి దాని గురించి చెబుతుంది. సోషల్ మీడియాలో సహా ఫోటోలను వివరించడానికి యాప్ రూపొందించిన శీర్షికలను ఉపయోగిస్తుంది.

“ఆదర్శవంతంగా, ప్రతి ఒక్కరూ డాక్యుమెంట్‌లలో, వెబ్‌లో, సోషల్ నెట్‌వర్క్‌లలోని అన్ని చిత్రాలకు ఆల్ట్ టెక్స్ట్‌ని జోడించాలి, ఇది అంధులు కంటెంట్‌ను యాక్సెస్ చేయడానికి మరియు సంభాషణలో పాల్గొనడానికి అనుమతిస్తుంది. కానీ, అయ్యో, ప్రజలు దీన్ని చేయరు, ”అని షేక్ చెప్పారు. "అయితే, చిత్ర వివరణ లక్షణాన్ని ఉపయోగించే కొన్ని యాప్‌లు అది తప్పిపోయినప్పుడు ప్రత్యామ్నాయ వచనాన్ని జోడించడానికి ఉన్నాయి."
  
Azure AIలో Microsoft యొక్క తాజా సాంకేతికత చిత్రాలతో పాటు వ్యక్తులను వివరిస్తుంది

మైక్రోసాఫ్ట్ రెడ్‌మండ్ ల్యాబ్‌లో పరిశోధన జనరల్ మేనేజర్ లిరువాన్ వాంగ్, మానవ ఫలితాలను సాధించి, అధిగమించిన పరిశోధన బృందానికి నాయకత్వం వహించారు. ఫోటో: డాన్ డెలాంగ్.

కొత్త వస్తువుల వివరణ

"చిత్రాలను వివరించడం అనేది కంప్యూటర్ దృష్టి యొక్క ప్రధాన పనులలో ఒకటి, ఇది చిత్రంలో ప్రదర్శించబడిన ప్రధాన కంటెంట్ లేదా చర్యను అర్థం చేసుకోవడానికి మరియు వివరించడానికి ఒక కృత్రిమ మేధస్సు వ్యవస్థ అవసరం" అని లిరువాన్ వాంగ్ వివరించారు (లిజువాన్ వాంగ్), మైక్రోసాఫ్ట్ రెడ్‌మండ్ ల్యాబ్‌లో పరిశోధన జనరల్ మేనేజర్.

"మీరు ఏమి జరుగుతుందో అర్థం చేసుకోవాలి, వస్తువులు మరియు చర్యల మధ్య సంబంధాలు ఏమిటో గుర్తించాలి, ఆపై మానవులు చదవగలిగే భాషలో ఒక వాక్యంలో అన్నింటినీ సంగ్రహించి మరియు వివరించండి" అని ఆమె చెప్పింది.

వాంగ్ పరిశోధనా బృందానికి నాయకత్వం వహించాడు, ఇది బెంచ్‌మార్కింగ్‌లో ఉంది నోక్యాప్స్ (నవల ఆబ్జెక్ట్ క్యాప్షన్ ఎట్ స్కేల్, కొత్త వస్తువుల యొక్క పెద్ద-స్థాయి వివరణ) మానవుడితో పోల్చదగిన ఫలితాన్ని సాధించింది మరియు దానిని అధిగమించింది. మోడల్ శిక్షణ పొందిన డేటా సెట్‌లో చేర్చబడని వర్ణించబడిన వస్తువుల వివరణలను AI సిస్టమ్‌లు ఎంత బాగా ఉత్పత్తి చేస్తాయో అంచనా వేయడానికి ఈ పరీక్ష మిమ్మల్ని అనుమతిస్తుంది.

సాధారణంగా, చిత్ర వివరణ వ్యవస్థలు ఈ చిత్రాల యొక్క వచన వివరణతో కూడిన చిత్రాలను కలిగి ఉన్న డేటా సెట్‌లపై శిక్షణ పొందుతాయి, అంటే సంతకం చేసిన చిత్రాల సెట్‌లపై.

"శిక్షణ డేటాలో కనిపించని కొత్త వస్తువులను సిస్టమ్ ఎంత బాగా వివరించగలదో నోకాప్స్ పరీక్ష చూపిస్తుంది" అని వాంగ్ చెప్పారు.

ఈ సమస్యను పరిష్కరించడానికి, మైక్రోసాఫ్ట్ బృందం వర్డ్-ట్యాగ్ చేయబడిన చిత్రాలను కలిగి ఉన్న పెద్ద డేటాసెట్‌లో ఒక పెద్ద AI మోడల్‌కు ముందే శిక్షణ ఇచ్చింది, ప్రతి ఒక్కటి చిత్రంలో నిర్దిష్ట వస్తువుతో అనుబంధించబడింది.

పూర్తి క్యాప్షన్‌లకు బదులుగా వర్డ్ ట్యాగ్‌లతో ఇమేజ్ సెట్‌లు సృష్టించడానికి మరింత సమర్థవంతంగా ఉంటాయి, వాంగ్ బృందం వారి మోడల్‌లో చాలా డేటాను అందించడానికి అనుమతిస్తుంది. ఈ విధానం బృందం దృశ్య పదజాలం అని పిలిచే మోడల్‌ను అందించింది.

హువాంగ్ వివరించినట్లుగా, దృశ్య పదజాలం ఉపయోగించి పూర్వ అభ్యాస విధానం పిల్లలను చదవడానికి సిద్ధం చేయడం వలె ఉంటుంది: మొదట, చిత్రాలతో వ్యక్తిగత పదాలు అనుబంధించబడిన ఒక చిత్ర పుస్తకం ఉపయోగించబడుతుంది, ఉదాహరణకు, ఆపిల్ యొక్క ఫోటో క్రింద "యాపిల్" అని వ్రాయబడింది. మరియు పిల్లి ఫోటో కింద "పిల్లి" అనే పదం ఉంటుంది.

"దృశ్య పదజాలంతో కూడిన ఈ ముందస్తు శిక్షణ, సారాంశంలో, వ్యవస్థకు శిక్షణ ఇవ్వడానికి అవసరమైన ప్రారంభ విద్య. ఈ విధంగా మేము ఒక రకమైన మోటార్ మెమరీని అభివృద్ధి చేయడానికి ప్రయత్నిస్తాము, ”అని హువాంగ్ చెప్పారు.

ముందుగా శిక్షణ పొందిన మోడల్ లేబుల్ చేయబడిన చిత్రాలతో సహా డేటాసెట్‌తో శుద్ధి చేయబడుతుంది. శిక్షణ యొక్క ఈ దశలో, మోడల్ వాక్యాలను తయారు చేయడం నేర్చుకుంటుంది. కొత్త వస్తువులను కలిగి ఉన్న చిత్రం కనిపించినట్లయితే, AI సిస్టమ్ ఖచ్చితమైన వివరణలను రూపొందించడానికి దృశ్య నిఘంటువును ఉపయోగిస్తుంది.

"పరీక్ష సమయంలో కొత్త వస్తువులతో పనిచేయడానికి, సిస్టమ్ ముందస్తు శిక్షణ సమయంలో మరియు తదుపరి శుద్ధీకరణ సమయంలో నేర్చుకున్న వాటిని ఏకీకృతం చేస్తుంది" అని వాంగ్ చెప్పారు.
సోగ్లాస్నో రెజుల్తాటం పరిశోధన, nocaps పరీక్షలలో మూల్యాంకనం చేసినప్పుడు, AI వ్యవస్థ అదే చిత్రాల కోసం మానవులు చేసిన దానికంటే ఎక్కువ అర్థవంతమైన మరియు ఖచ్చితమైన వివరణలను అందించింది.

పని వాతావరణానికి వేగవంతమైన పరివర్తన 

ఇతర విషయాలతోపాటు, మరొక పరిశ్రమ బెంచ్‌మార్క్‌తో పోల్చినప్పుడు, 2015 నుండి మైక్రోసాఫ్ట్ ఉత్పత్తులు మరియు సేవలలో ఉపయోగించిన మోడల్ కంటే కొత్త ఇమేజ్ వివరణ సిస్టమ్ రెండింతలు బాగుంది.

మైక్రోసాఫ్ట్ ఉత్పత్తులు మరియు సేవల వినియోగదారులందరూ ఈ మెరుగుదల నుండి పొందే ప్రయోజనాలను పరిగణనలోకి తీసుకుని, హువాంగ్ కొత్త మోడల్‌ను అజూర్ వర్క్ ఎన్విరాన్‌మెంట్‌లో ఏకీకృతం చేయడాన్ని వేగవంతం చేశారు.

"మేము ఈ అంతరాయం కలిగించే AI సాంకేతికతను అజూర్‌కు విస్తృత శ్రేణి కస్టమర్‌లకు అందించడానికి ఒక వేదికగా తీసుకుంటున్నాము" అని ఆయన చెప్పారు. "మరియు ఇది పరిశోధనలో పురోగతి మాత్రమే కాదు. అజూర్ ఉత్పత్తి వాతావరణంలో ఈ పురోగతిని చేర్చడానికి పట్టిన సమయం కూడా ఒక పురోగతి."

మైక్రోసాఫ్ట్ యొక్క కాగ్నిటివ్ ఇంటెలిజెన్స్ సిస్టమ్స్‌లో ఇప్పటికే ఏర్పాటు చేసిన ట్రెండ్‌ను మానవ-వంటి ఫలితాలను సాధించడం కొనసాగుతుందని హువాంగ్ తెలిపారు.

“గత ఐదేళ్లలో, మేము ఐదు ప్రధాన రంగాలలో మానవ-సంబంధిత ఫలితాలను సాధించాము: ప్రసంగ గుర్తింపులో, యంత్ర అనువాదంలో, ప్రశ్నలకు సమాధానమివ్వడంలో, మెషిన్ రీడింగ్ మరియు టెక్స్ట్ అవగాహనలో మరియు 2020లో, COVID-19 ఉన్నప్పటికీ, చిత్ర వివరణలో ' అన్నాడు జువాన్.

ఈ అంశంపై

సిస్టమ్ ముందు మరియు ఇప్పుడు AIని ఉపయోగించి అందించిన చిత్రాల వివరణ ఫలితాలను సరిపోల్చండి

Azure AIలో Microsoft యొక్క తాజా సాంకేతికత చిత్రాలతో పాటు వ్యక్తులను వివరిస్తుంది

జెట్టి ఇమేజెస్ యొక్క ఫోటో కర్టసీ. మునుపటి వివరణ: కట్టింగ్ బోర్డ్‌పై హాట్ డాగ్‌ని సిద్ధం చేస్తున్న వ్యక్తి యొక్క క్లోజప్. కొత్త వివరణ: ఒక మనిషి బ్రెడ్ చేస్తాడు.

Azure AIలో Microsoft యొక్క తాజా సాంకేతికత చిత్రాలతో పాటు వ్యక్తులను వివరిస్తుంది

జెట్టి ఇమేజెస్ యొక్క ఫోటో కర్టసీ. మునుపటి వివరణ: ఒక వ్యక్తి సూర్యాస్తమయం వద్ద కూర్చున్నాడు. కొత్త వివరణ: బీచ్‌లో భోగి మంటలు.

Azure AIలో Microsoft యొక్క తాజా సాంకేతికత చిత్రాలతో పాటు వ్యక్తులను వివరిస్తుంది

జెట్టి ఇమేజెస్ యొక్క ఫోటో కర్టసీ. మునుపటి వివరణ: నీలిరంగు చొక్కా ధరించిన వ్యక్తి. కొత్త వివరణ: చాలా మంది వ్యక్తులు సర్జికల్ మాస్క్‌లు ధరించారు.

Azure AIలో Microsoft యొక్క తాజా సాంకేతికత చిత్రాలతో పాటు వ్యక్తులను వివరిస్తుంది

జెట్టి ఇమేజెస్ యొక్క ఫోటో కర్టసీ. మునుపటి వివరణ: స్కేట్‌బోర్డ్‌లో ఉన్న వ్యక్తి గోడ పైకి ఎగురుతున్నాడు. కొత్త వివరణ: బేస్ బాల్ ఆటగాడు బంతిని పట్టుకున్నాడు.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి