Azure AI හි මයික්‍රොසොෆ්ට් හි නවතම තාක්‍ෂණය රූප මෙන්ම පුද්ගලයින් විස්තර කරයි


මයික්‍රොසොෆ්ට් පර්යේෂකයන් විසින් කෘත්‍රිම බුද්ධි පද්ධතියක් නිර්මාණය කර ඇත, එය බොහෝ අවස්ථාවලදී මිනිසුන් විසින් කරන ලද විස්තර වලට වඩා නිවැරදි බවට පත්වන රූප සිරස්තල ජනනය කළ හැකිය. මෙම ප්‍රගතිය මයික්‍රොසොෆ්ට් හි ප්‍රධාන සන්ධිස්ථානයක් සනිටුහන් කළේ සිය නිෂ්පාදන සහ සේවාවන් ඇතුළත් කර සියලු පරිශීලකයින්ට ප්‍රවේශ විය හැකි බවට පත් කිරීමටයි.

“පරිගණක දර්ශනයේ ප්‍රධාන කාර්යයක් වන්නේ රූප විස්තරය වන අතර එමඟින් පුළුල් පරාසයක සේවාවන් ලබා ගත හැකිය,” Xuedong Huang (Xuedong Huang), මයික්‍රොසොෆ්ට් තාක්ෂණික නිලධාරියෙකු සහ වොෂින්ටනයේ රෙඩ්මන්ඩ් හි Azure AI සංජානන සේවා CTO.

නව මාදිලිය දැන් පරිගණක දැක්ම හරහා පාරිභෝගිකයින්ට ලබා ගත හැකිය Azure සංජානන සේවා, Azure AI හි කොටසක් වන අතර, සංවර්ධකයින්ට ඔවුන්ගේ සේවාවන් ලබා ගැනීමේ හැකියාව වැඩිදියුණු කිරීමට මෙම විශේෂාංගය භාවිතා කිරීමට ඉඩ සලසයි. එය Seeing AI යෙදුමට ද ඇතුළත් කර ඇති අතර Windows සහ Mac සඳහා Microsoft Word සහ Outlook මෙන්ම Windows, Mac සහ වෙබය සඳහා PowerPoint හි මෙම වසර අගදී ලබා ගත හැක.

ස්වයං විස්තරය පරිශීලකයින්ට සෙවුම් ප්‍රතිඵලවල ලබා දුන් ඡායාරූපයක් හෝ ඉදිරිපත් කිරීමක් සඳහා වූ උපමාවක් වේවා, ඕනෑම රූපයක වැදගත් අන්තර්ගතයට ප්‍රවේශ වීමට උදවු කරයි.

"වෙබ් පිටු සහ ලේඛනවල රූපවල අන්තර්ගතය (ඊනියා විකල්ප හෝ විකල්ප පෙළ) විස්තර කරන සිරස්තල භාවිතය අන්ධ හෝ දෘශ්‍යාබාධිත පුද්ගලයින් සඳහා විශේෂයෙන් වැදගත් වේ," Saqib Sheikh (සකීබ් ෂෙයික්), Redmond හි Microsoft හි AI Platform Group හි මෘදුකාංග කළමනාකරු.

උදාහරණයක් ලෙස, ඔහුගේ කණ්ඩායම අන්ධ සහ දෘශ්‍යාබාධිත පුද්ගලයින් සඳහා යෙදුමේ වැඩිදියුණු කළ රූප විස්තර විශේෂාංගයක් භාවිතා කරයි. AI දකිනවා, එය කැමරාව ග්‍රහණය කරන දේ හඳුනාගෙන ඒ ගැන කියයි. යෙදුම සමාජ මාධ්‍ය ඇතුළු ඡායාරූප විස්තර කිරීමට ජනනය කළ සිරස්තල භාවිතා කරයි.

“ඉතා මැනවින්, සෑම කෙනෙකුම ලේඛනවල, වෙබයේ, සමාජ ජාලවල ඇති සියලුම පින්තූරවලට විකල්ප පෙළ එක් කළ යුතුය, මෙය අන්ධ පුද්ගලයින්ට අන්තර්ගතයට ප්‍රවේශ වීමට සහ සංවාදයට සහභාගී වීමට ඉඩ සලසයි. නමුත්, අහෝ, මිනිසුන් මෙය නොකරයි, ”ෂෙයික් පවසයි. "කෙසේ වෙතත්, එය අතුරුදහන් වූ විට විකල්ප පෙළ එක් කිරීමට රූප විස්තර විශේෂාංගය භාවිතා කරන යෙදුම් කිහිපයක් තිබේ."
  
Azure AI හි මයික්‍රොසොෆ්ට් හි නවතම තාක්‍ෂණය රූප මෙන්ම පුද්ගලයින් විස්තර කරයි

මයික්‍රොසොෆ්ට් හි Redmond Lab හි පර්යේෂණ සාමාන්‍යාධිකාරී Liruan Wang, මානව ප්‍රතිඵල අත්කරගත් සහ අභිබවා ගිය පර්යේෂණ කණ්ඩායමකට නායකත්වය දුන්නේය. ඡායාරූපය: Dan DeLong.

නව වස්තූන් පිළිබඳ විස්තරය

"පින්තූර විස්තර කිරීම පරිගණක දර්ශනයේ ප්‍රධාන කර්තව්‍යයක් වන අතර, රූපයේ ඉදිරිපත් කර ඇති ප්‍රධාන අන්තර්ගතය හෝ ක්‍රියාව තේරුම් ගැනීමට සහ විස්තර කිරීමට කෘතිම බුද්ධි පද්ධතියක් අවශ්‍ය වේ," ලිරුවන් වැන්ග් පැහැදිලි කළේය (ලිජුවන් වැන්ග්), Microsoft හි Redmond රසායනාගාරයේ පර්යේෂණ සාමාන්‍යාධිකාරී.

"ඔබට සිදුවන්නේ කුමක්ද යන්න තේරුම් ගත යුතු අතර, වස්තූන් සහ ක්රියාවන් අතර ඇති සම්බන්ධතා මොනවාදැයි සොයා බැලිය යුතුය, ඉන්පසු මිනිසාට කියවිය හැකි භාෂාවෙන් වාක්යයකින් ඒ සියල්ල සාරාංශ කර විස්තර කරන්න," ඇය පැවසුවාය.

මිණුම් සලකුණු කිරීමේදී පර්යේෂණ කණ්ඩායමට වැන්ග් නායකත්වය දුන්නේය nocaps (පරිමාණයෙන් නව වස්තු සිරස්තල, නව වස්තු පිළිබඳ මහා පරිමාණ විස්තරයක්) මනුෂ්‍ය ප්‍රතිඵලයක් හා සැසඳිය හැකි ප්‍රතිඵලයක් ලබා ගෙන එය අභිබවා ගියේය. මෙම පරීක්ෂණය මඟින් AI පද්ධති මඟින් ආකෘතිය පුහුණු කළ දත්ත කට්ටලයට ඇතුළත් නොවන නිරූපිත වස්තූන් පිළිබඳ විස්තර කෙතරම් හොඳින් උත්පාදනය කරන්නේ දැයි ඇගයීමට ඉඩ සලසයි.

සාමාන්‍යයෙන්, රූප විස්තර පද්ධති පුහුණු කරනු ලබන්නේ මෙම පින්තූරවල පාඨමය විස්තරයක් සමඟ රූප අඩංගු දත්ත කට්ටල මත, එනම් අත්සන් කළ රූප කට්ටල මත ය.

"නොකැප්ස් පරීක්ෂණයෙන් පෙන්නුම් කරන්නේ පුහුණු දත්තවල සොයාගත නොහැකි නව වස්තු විස්තර කිරීමට පද්ධතියට හැකි වන්නේ කෙසේද යන්නයි," වැන්ග් පවසයි.

මෙම ගැටළුව විසඳීම සඳහා, Microsoft කණ්ඩායම වචන-ටැග් කළ පින්තූර අඩංගු විශාල දත්ත කට්ටලයක් මත විශාල AI ආකෘතියක් පූර්ව-පුහුණු කර ඇත, ඒ සෑම එකක්ම රූපයේ නිශ්චිත වස්තුවකට සිතියම්ගත කර ඇත.

සම්පූර්ණ සිරස්තල වෙනුවට වචන ටැග් සහිත රූප කට්ටල නිර්මාණය කිරීමට වඩාත් කාර්යක්ෂම වේ, Wang ගේ කණ්ඩායමට ඔවුන්ගේ ආකෘතියට දත්ත රාශියක් ලබා දීමට ඉඩ සලසයි. මෙම ප්‍රවේශය කණ්ඩායම දෘශ්‍ය වචන මාලාවක් ලෙස හඳුන්වන ආකෘතියට ලබා දුන්නේය.

Huang පැහැදිලි කළ පරිදි, දෘශ්‍ය වචන මාලාව භාවිතා කරන පෙර ඉගෙනීමේ ප්‍රවේශය ළමයින් කියවීම සඳහා සූදානම් කිරීමට සමාන වේ: පළමුව, පින්තූර පොතක් භාවිතා කරයි, එහි තනි වචන රූප සමඟ සම්බන්ධ වේ, උදාහරණයක් ලෙස, ඇපල් ගෙඩියක ඡායාරූපයක් යටතේ "ඇපල්" ලියා ඇත. සහ බළලෙකුගේ ඡායාරූපයක් යටතේ "පූසා" යන වචනය ඇත.

“දෘෂ්‍ය වචන මාලාව සමඟ මෙම පූර්ව පුහුණුව, සාරාංශයක් ලෙස, පද්ධතිය පුහුණු කිරීමට අවශ්‍ය මූලික අධ්‍යාපනයයි. අපි මෝටර් මතකය වර්ගයක් වර්ධනය කිරීමට උත්සාහ කරන්නේ මේ ආකාරයටයි," Huang පැවසීය.

පෙර-පුහුණු කළ ආකෘතිය පසුව ලේබල් කළ රූප ඇතුළු දත්ත කට්ටලයක් සමඟ පිරිපහදු කරනු ලැබේ. පුහුණුවේ මෙම අදියරේදී, ආකෘතිය වාක්ය සෑදීමට ඉගෙන ගනී. නව වස්තු අඩංගු රූපයක් දිස්වන්නේ නම්, AI පද්ධතිය නිවැරදි විස්තර නිර්මාණය කිරීමට දෘශ්‍ය ශබ්දකෝෂය භාවිතා කරයි.

"පරීක්ෂා කිරීමේදී නව වස්තූන් සමඟ වැඩ කිරීම සඳහා, පද්ධතිය පෙර පුහුණුවීම්වලදී සහ පසුව පිරිපහදු කිරීමේදී ඉගෙන ගත් දේ ඒකාබද්ධ කරයි," වැන්ග් පවසයි.
ප්රතිඵල අනුව පර්යේෂණ, nocaps පරීක්ෂණ මත ඇගයීමට ලක් කළ විට, AI පද්ධතිය එකම පින්තූර සඳහා මිනිසුන් කළාට වඩා පොහොසත් සහ වඩාත් නිවැරදි විස්තරයක් නිපදවා ඇත.

වැඩ කරන පරිසරයට වේගවත් සංක්‍රමණය 

වෙනත් දේ අතර, නව රූප විස්තර පද්ධතිය 2015 සිට මයික්‍රොසොෆ්ට් නිෂ්පාදන සහ සේවාවන්හි භාවිතා කරන ලද ආකෘතිය මෙන් දෙගුණයක් හොඳ ය, වෙනත් කර්මාන්ත මිණුම් ලකුණක් සමඟ සසඳන විට.

මයික්‍රොසොෆ්ට් නිෂ්පාදන සහ සේවාවන්හි සියලුම පරිශීලකයින්ට මෙම වැඩිදියුණු කිරීමෙන් ලැබෙන ප්‍රතිලාභ සැලකිල්ලට ගනිමින්, Huang නව මාදිලිය Azure වැඩ පරිසරයට ඒකාබද්ධ කිරීම වේගවත් කළේය.

“අපි මෙම කඩාකප්පල්කාරී AI තාක්‍ෂණය Azure වෙත ගෙන යන්නේ පුළුල් පරාසයක ගනුදෙනුකරුවන්ට සේවා සැපයීම සඳහා වේදිකාවක් ලෙසයි,” ඔහු පැවසීය. “මෙය පර්යේෂණයේ ප්‍රගතියක් පමණක් නොවේ. මෙම ඉදිරි ගමන Azure නිෂ්පාදන පරිසරයට ඇතුළත් කිරීමට ගත වූ කාලයද ඉදිරි ගමනක් විය.

මයික්‍රොසොෆ්ට් හි ප්‍රජානන බුද්ධි පද්ධති තුළ දැනටමත් පිහිටුවා ඇති ප්‍රවණතාවක් මිනිසාට සමාන ප්‍රතිඵල ලබා ගැනීම දිගටම කරගෙන යන බව Huang වැඩිදුරටත් පැවසීය.

“පසුගිය වසර පහ තුළ, අපි ප්‍රධාන ක්ෂේත්‍ර පහක් තුළ මිනිසුන්ට සමාන ප්‍රතිඵල අත්කර ගෙන ඇත: කථන හඳුනාගැනීම, යන්ත්‍ර පරිවර්තනය, ප්‍රශ්නවලට පිළිතුරු දීම, යන්ත්‍ර කියවීම සහ පෙළ අවබෝධය සහ 2020 දී, COVID-19 තිබියදීත්, රූප විස්තරය තුළ ' ජුවාන් කීවේය.

මාතෘකාව අනුව

පද්ධතිය පෙර සහ දැන් AI භාවිතයෙන් ලබා දුන් රූපවල විස්තරයේ ප්‍රතිඵල සසඳන්න

Azure AI හි මයික්‍රොසොෆ්ට් හි නවතම තාක්‍ෂණය රූප මෙන්ම පුද්ගලයින් විස්තර කරයි

Getty Images හි ඡායාරූප අනුග්‍රහයෙනි. පෙර විස්තරය: කැපුම් පුවරුවක හොට් ඩෝග් සූදානම් කරන මිනිසෙකුගේ සමීප රූපය. නව විස්තරය: මිනිසෙක් පාන් සාදයි.

Azure AI හි මයික්‍රොසොෆ්ට් හි නවතම තාක්‍ෂණය රූප මෙන්ම පුද්ගලයින් විස්තර කරයි

Getty Images හි ඡායාරූප අනුග්‍රහයෙනි. පෙර විස්තරය: මිනිසෙක් හිරු බැස යන විට වාඩි වී සිටී. නව විස්තරය: වෙරළේ ගිනි මැලය.

Azure AI හි මයික්‍රොසොෆ්ට් හි නවතම තාක්‍ෂණය රූප මෙන්ම පුද්ගලයින් විස්තර කරයි

Getty Images හි ඡායාරූප අනුග්‍රහයෙනි. පෙර විස්තරය: නිල් කමිසයක් ඇඳගත් මිනිසෙක්. නව විස්තරය: ශල්‍ය වෙස් මුහුණු පැළඳ සිටින කිහිප දෙනෙක්.

Azure AI හි මයික්‍රොසොෆ්ට් හි නවතම තාක්‍ෂණය රූප මෙන්ම පුද්ගලයින් විස්තර කරයි

Getty Images හි ඡායාරූප අනුග්‍රහයෙනි. පෙර විස්තරය: ස්කේට්බෝඩ් එකේ මිනිසෙක් බිත්තිය උඩට පියාසර කරයි. නව විස්තරය: බේස්බෝල් ක්‍රීඩකයෙක් පන්දුවක් අල්ලා ගනී.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න