ప్రోహోస్టర్ > బ్లాగ్ > పరిపాలన > Azure AIలో Microsoft యొక్క తాజా సాంకేతికత చిత్రాలతో పాటు వ్యక్తులను వివరిస్తుంది
Azure AIలో Microsoft యొక్క తాజా సాంకేతికత చిత్రాలతో పాటు వ్యక్తులను వివరిస్తుంది
మైక్రోసాఫ్ట్ పరిశోధకులు ఒక కృత్రిమ మేధస్సు వ్యవస్థను రూపొందించారు, ఇది ఇమేజ్ క్యాప్షన్లను రూపొందించగలదు, ఇది చాలా సందర్భాలలో, మానవులు చేసిన వివరణల కంటే మరింత ఖచ్చితమైనదిగా మారుతుంది. ఈ పురోగతి మైక్రోసాఫ్ట్ తన ఉత్పత్తులు మరియు సేవలను కలుపుకొని మరియు వినియోగదారులందరికీ అందుబాటులో ఉండేలా చేయడంలో నిబద్ధతలో ఒక ప్రధాన మైలురాయిని గుర్తించింది.
"ఇమేజ్ డిస్క్రిప్షన్ అనేది కంప్యూటర్ విజన్ యొక్క ప్రధాన విధుల్లో ఒకటి, ఇది విస్తృతమైన సేవలను సాధ్యం చేస్తుంది" అని జుడాంగ్ హువాంగ్ (జుడాంగ్ హువాంగ్), ఒక మైక్రోసాఫ్ట్ టెక్నికల్ ఆఫీసర్ మరియు రెడ్మండ్, వాషింగ్టన్లోని అజూర్ AI కాగ్నిటివ్ సర్వీసెస్ యొక్క CTO.
కొత్త మోడల్ ఇప్పుడు కంప్యూటర్ విజన్ ద్వారా వినియోగదారులకు అందుబాటులో ఉంది అజూర్ కాగ్నిటివ్ సర్వీసెస్, ఇది Azure AIలో భాగం మరియు డెవలపర్లు తమ సేవల లభ్యతను మెరుగుపరచడానికి ఈ లక్షణాన్ని ఉపయోగించడానికి అనుమతిస్తుంది. ఇది సీయింగ్ AI యాప్లో కూడా చేర్చబడుతోంది మరియు Windows మరియు Mac కోసం Microsoft Word మరియు Outlookలో అలాగే Windows, Mac మరియు వెబ్లో PowerPointలో ఈ సంవత్సరం చివర్లో అందుబాటులో ఉంటుంది.
శోధన ఫలితాలలో అందించబడిన ఫోటో అయినా లేదా ప్రదర్శన కోసం ఉదాహరణ అయినా ఏదైనా చిత్రం యొక్క ముఖ్యమైన కంటెంట్ను యాక్సెస్ చేయడానికి వినియోగదారులకు స్వీయ వివరణ సహాయపడుతుంది.
"వెబ్ పేజీలు మరియు డాక్యుమెంట్లలో చిత్రాల కంటెంట్ను (ప్రత్యామ్నాయ లేదా ప్రత్యామ్నాయ టెక్స్ట్ అని పిలవబడేవి) వివరించే శీర్షికల ఉపయోగం అంధులు లేదా దృష్టి లోపం ఉన్నవారికి చాలా ముఖ్యమైనది" అని సాకిబ్ షేక్ (సాకిబ్ షేక్), రెడ్మండ్లోని మైక్రోసాఫ్ట్ యొక్క AI ప్లాట్ఫారమ్ గ్రూప్లో సాఫ్ట్వేర్ మేనేజర్.
ఉదాహరణకు, అతని బృందం అంధులు మరియు దృష్టి లోపం ఉన్న వ్యక్తుల కోసం యాప్లో మెరుగైన చిత్ర వివరణ లక్షణాన్ని ఉపయోగిస్తోంది. AI ని చూస్తున్నారు, ఇది కెమెరా ఏమి క్యాప్చర్ చేస్తుందో గుర్తించి దాని గురించి చెబుతుంది. సోషల్ మీడియాలో సహా ఫోటోలను వివరించడానికి యాప్ రూపొందించిన శీర్షికలను ఉపయోగిస్తుంది.
“ఆదర్శవంతంగా, ప్రతి ఒక్కరూ డాక్యుమెంట్లలో, వెబ్లో, సోషల్ నెట్వర్క్లలోని అన్ని చిత్రాలకు ఆల్ట్ టెక్స్ట్ని జోడించాలి, ఇది అంధులు కంటెంట్ను యాక్సెస్ చేయడానికి మరియు సంభాషణలో పాల్గొనడానికి అనుమతిస్తుంది. కానీ, అయ్యో, ప్రజలు దీన్ని చేయరు, ”అని షేక్ చెప్పారు. "అయితే, చిత్ర వివరణ లక్షణాన్ని ఉపయోగించే కొన్ని యాప్లు అది తప్పిపోయినప్పుడు ప్రత్యామ్నాయ వచనాన్ని జోడించడానికి ఉన్నాయి."
మైక్రోసాఫ్ట్ రెడ్మండ్ ల్యాబ్లో పరిశోధన జనరల్ మేనేజర్ లిరువాన్ వాంగ్, మానవ ఫలితాలను సాధించి, అధిగమించిన పరిశోధన బృందానికి నాయకత్వం వహించారు. ఫోటో: డాన్ డెలాంగ్.
కొత్త వస్తువుల వివరణ
"చిత్రాలను వివరించడం అనేది కంప్యూటర్ దృష్టి యొక్క ప్రధాన పనులలో ఒకటి, ఇది చిత్రంలో ప్రదర్శించబడిన ప్రధాన కంటెంట్ లేదా చర్యను అర్థం చేసుకోవడానికి మరియు వివరించడానికి ఒక కృత్రిమ మేధస్సు వ్యవస్థ అవసరం" అని లిరువాన్ వాంగ్ వివరించారు (లిజువాన్ వాంగ్), మైక్రోసాఫ్ట్ రెడ్మండ్ ల్యాబ్లో పరిశోధన జనరల్ మేనేజర్.
"మీరు ఏమి జరుగుతుందో అర్థం చేసుకోవాలి, వస్తువులు మరియు చర్యల మధ్య సంబంధాలు ఏమిటో గుర్తించాలి, ఆపై మానవులు చదవగలిగే భాషలో ఒక వాక్యంలో అన్నింటినీ సంగ్రహించి మరియు వివరించండి" అని ఆమె చెప్పింది.
వాంగ్ పరిశోధనా బృందానికి నాయకత్వం వహించాడు, ఇది బెంచ్మార్కింగ్లో ఉంది నోక్యాప్స్ (నవల ఆబ్జెక్ట్ క్యాప్షన్ ఎట్ స్కేల్, కొత్త వస్తువుల యొక్క పెద్ద-స్థాయి వివరణ) మానవుడితో పోల్చదగిన ఫలితాన్ని సాధించింది మరియు దానిని అధిగమించింది. మోడల్ శిక్షణ పొందిన డేటా సెట్లో చేర్చబడని వర్ణించబడిన వస్తువుల వివరణలను AI సిస్టమ్లు ఎంత బాగా ఉత్పత్తి చేస్తాయో అంచనా వేయడానికి ఈ పరీక్ష మిమ్మల్ని అనుమతిస్తుంది.
సాధారణంగా, చిత్ర వివరణ వ్యవస్థలు ఈ చిత్రాల యొక్క వచన వివరణతో కూడిన చిత్రాలను కలిగి ఉన్న డేటా సెట్లపై శిక్షణ పొందుతాయి, అంటే సంతకం చేసిన చిత్రాల సెట్లపై.
"శిక్షణ డేటాలో కనిపించని కొత్త వస్తువులను సిస్టమ్ ఎంత బాగా వివరించగలదో నోకాప్స్ పరీక్ష చూపిస్తుంది" అని వాంగ్ చెప్పారు.
ఈ సమస్యను పరిష్కరించడానికి, మైక్రోసాఫ్ట్ బృందం వర్డ్-ట్యాగ్ చేయబడిన చిత్రాలను కలిగి ఉన్న పెద్ద డేటాసెట్లో ఒక పెద్ద AI మోడల్కు ముందే శిక్షణ ఇచ్చింది, ప్రతి ఒక్కటి చిత్రంలో నిర్దిష్ట వస్తువుతో అనుబంధించబడింది.
పూర్తి క్యాప్షన్లకు బదులుగా వర్డ్ ట్యాగ్లతో ఇమేజ్ సెట్లు సృష్టించడానికి మరింత సమర్థవంతంగా ఉంటాయి, వాంగ్ బృందం వారి మోడల్లో చాలా డేటాను అందించడానికి అనుమతిస్తుంది. ఈ విధానం బృందం దృశ్య పదజాలం అని పిలిచే మోడల్ను అందించింది.
హువాంగ్ వివరించినట్లుగా, దృశ్య పదజాలం ఉపయోగించి పూర్వ అభ్యాస విధానం పిల్లలను చదవడానికి సిద్ధం చేయడం వలె ఉంటుంది: మొదట, చిత్రాలతో వ్యక్తిగత పదాలు అనుబంధించబడిన ఒక చిత్ర పుస్తకం ఉపయోగించబడుతుంది, ఉదాహరణకు, ఆపిల్ యొక్క ఫోటో క్రింద "యాపిల్" అని వ్రాయబడింది. మరియు పిల్లి ఫోటో కింద "పిల్లి" అనే పదం ఉంటుంది.
"దృశ్య పదజాలంతో కూడిన ఈ ముందస్తు శిక్షణ, సారాంశంలో, వ్యవస్థకు శిక్షణ ఇవ్వడానికి అవసరమైన ప్రారంభ విద్య. ఈ విధంగా మేము ఒక రకమైన మోటార్ మెమరీని అభివృద్ధి చేయడానికి ప్రయత్నిస్తాము, ”అని హువాంగ్ చెప్పారు.
ముందుగా శిక్షణ పొందిన మోడల్ లేబుల్ చేయబడిన చిత్రాలతో సహా డేటాసెట్తో శుద్ధి చేయబడుతుంది. శిక్షణ యొక్క ఈ దశలో, మోడల్ వాక్యాలను తయారు చేయడం నేర్చుకుంటుంది. కొత్త వస్తువులను కలిగి ఉన్న చిత్రం కనిపించినట్లయితే, AI సిస్టమ్ ఖచ్చితమైన వివరణలను రూపొందించడానికి దృశ్య నిఘంటువును ఉపయోగిస్తుంది.
"పరీక్ష సమయంలో కొత్త వస్తువులతో పనిచేయడానికి, సిస్టమ్ ముందస్తు శిక్షణ సమయంలో మరియు తదుపరి శుద్ధీకరణ సమయంలో నేర్చుకున్న వాటిని ఏకీకృతం చేస్తుంది" అని వాంగ్ చెప్పారు.
సోగ్లాస్నో రెజుల్తాటం పరిశోధన, nocaps పరీక్షలలో మూల్యాంకనం చేసినప్పుడు, AI వ్యవస్థ అదే చిత్రాల కోసం మానవులు చేసిన దానికంటే ఎక్కువ అర్థవంతమైన మరియు ఖచ్చితమైన వివరణలను అందించింది.
పని వాతావరణానికి వేగవంతమైన పరివర్తన
ఇతర విషయాలతోపాటు, మరొక పరిశ్రమ బెంచ్మార్క్తో పోల్చినప్పుడు, 2015 నుండి మైక్రోసాఫ్ట్ ఉత్పత్తులు మరియు సేవలలో ఉపయోగించిన మోడల్ కంటే కొత్త ఇమేజ్ వివరణ సిస్టమ్ రెండింతలు బాగుంది.
మైక్రోసాఫ్ట్ ఉత్పత్తులు మరియు సేవల వినియోగదారులందరూ ఈ మెరుగుదల నుండి పొందే ప్రయోజనాలను పరిగణనలోకి తీసుకుని, హువాంగ్ కొత్త మోడల్ను అజూర్ వర్క్ ఎన్విరాన్మెంట్లో ఏకీకృతం చేయడాన్ని వేగవంతం చేశారు.
"మేము ఈ అంతరాయం కలిగించే AI సాంకేతికతను అజూర్కు విస్తృత శ్రేణి కస్టమర్లకు అందించడానికి ఒక వేదికగా తీసుకుంటున్నాము" అని ఆయన చెప్పారు. "మరియు ఇది పరిశోధనలో పురోగతి మాత్రమే కాదు. అజూర్ ఉత్పత్తి వాతావరణంలో ఈ పురోగతిని చేర్చడానికి పట్టిన సమయం కూడా ఒక పురోగతి."
మైక్రోసాఫ్ట్ యొక్క కాగ్నిటివ్ ఇంటెలిజెన్స్ సిస్టమ్స్లో ఇప్పటికే ఏర్పాటు చేసిన ట్రెండ్ను మానవ-వంటి ఫలితాలను సాధించడం కొనసాగుతుందని హువాంగ్ తెలిపారు.
“గత ఐదేళ్లలో, మేము ఐదు ప్రధాన రంగాలలో మానవ-సంబంధిత ఫలితాలను సాధించాము: ప్రసంగ గుర్తింపులో, యంత్ర అనువాదంలో, ప్రశ్నలకు సమాధానమివ్వడంలో, మెషిన్ రీడింగ్ మరియు టెక్స్ట్ అవగాహనలో మరియు 2020లో, COVID-19 ఉన్నప్పటికీ, చిత్ర వివరణలో ' అన్నాడు జువాన్.
సిస్టమ్ ముందు మరియు ఇప్పుడు AIని ఉపయోగించి అందించిన చిత్రాల వివరణ ఫలితాలను సరిపోల్చండి
జెట్టి ఇమేజెస్ యొక్క ఫోటో కర్టసీ. మునుపటి వివరణ: కట్టింగ్ బోర్డ్పై హాట్ డాగ్ని సిద్ధం చేస్తున్న వ్యక్తి యొక్క క్లోజప్. కొత్త వివరణ: ఒక మనిషి బ్రెడ్ చేస్తాడు.
జెట్టి ఇమేజెస్ యొక్క ఫోటో కర్టసీ. మునుపటి వివరణ: ఒక వ్యక్తి సూర్యాస్తమయం వద్ద కూర్చున్నాడు. కొత్త వివరణ: బీచ్లో భోగి మంటలు.
జెట్టి ఇమేజెస్ యొక్క ఫోటో కర్టసీ. మునుపటి వివరణ: నీలిరంగు చొక్కా ధరించిన వ్యక్తి. కొత్త వివరణ: చాలా మంది వ్యక్తులు సర్జికల్ మాస్క్లు ధరించారు.
జెట్టి ఇమేజెస్ యొక్క ఫోటో కర్టసీ. మునుపటి వివరణ: స్కేట్బోర్డ్లో ఉన్న వ్యక్తి గోడ పైకి ఎగురుతున్నాడు. కొత్త వివరణ: బేస్ బాల్ ఆటగాడు బంతిని పట్టుకున్నాడు.