Microsoft-ын хамгийн сүүлийн үеийн Azure AI технологи нь хүмүүсийг дүрслэхээс гадна дүрсийг дүрсэлдэг


Майкрософт компанийн судлаачид зургийн тайлбар үүсгэх чадвартай хиймэл оюун ухааны системийг бүтээжээ. Энэ нь ихэнх тохиолдолд хүний ​​хийсэн тайлбараас илүү нарийвчлалтай болдог. Энэхүү нээлт нь Майкрософт бүтээгдэхүүн, үйлчилгээгээ бүх хэрэглэгчдэд хүртээмжтэй, хүртээмжтэй болгох амлалтад томоохон алхам болсон юм.

"Зургийн тайлбар нь компьютерийн харааны үндсэн функцүүдийн нэг бөгөөд олон төрлийн үйлчилгээг боломжтой болгодог" гэж Шюдон Хуан хэлэв.Шюдон Хуан), Вашингтоны Редмонд дахь Azure AI танин мэдэхүйн үйлчилгээний Microsoft-ын Техникийн ажилтан, CTO.

Шинэ загвар нь одоо компьютерийн Vision хаягаар дамжуулан хэрэглэгчдэд хүрч байна Azure танин мэдэхүйн үйлчилгээ, энэ нь Azure AI-ийн нэг хэсэг бөгөөд хөгжүүлэгчдэд үйлчилгээнийхээ хүртээмжийг сайжруулахын тулд энэ функцийг ашиглах боломжийг олгодог. Энэ нь мөн Seeing AI программд багтсан бөгөөд энэ оны сүүлээр Windows болон Mac-д зориулсан Microsoft Word, Outlook, мөн Windows, Mac болон вэбэд зориулсан PowerPoint дээр ашиглах боломжтой болно.

Автомат тайлбар нь хайлтын илэрцэд буцаж ирсэн зураг эсвэл үзүүлэнгийн дүрслэлээс үл хамааран аливаа зургийн чухал агуулгад хандахад хэрэглэгчдэд тусалдаг.

"Вэб хуудас, баримт бичигт байгаа зургийн агуулгыг тайлбарласан тайлбарыг ашиглах нь хараагүй эсвэл харааны бэрхшээлтэй хүмүүст онцгой ач холбогдолтой" гэж Сакиб Шейх хэлэв.Сакиб Шайх), Редмонд дахь Microsoft-ын AI платформ группын програм хангамжийн менежер.

Тухайлбал, түүний баг хараагүй болон харааны бэрхшээлтэй хүмүүст зориулсан аппликейшнд дүрс дүрслэх сайжруулсан функцийг ашиглаж байна. АИ-г харах, энэ нь камер юу авч байгааг таньж, энэ тухай өгүүлдэг. Аппликейшн нь олон нийтийн мэдээллийн хэрэгсэл зэрэг зургуудыг дүрслэхийн тулд үүсгэсэн тайлбарыг ашигладаг.

"Хүн бүр баримт бичиг, вэб, олон нийтийн сүлжээн дэх бүх зураг дээр өөр текст нэмэх хэрэгтэй, учир нь энэ нь хараагүй хүмүүст контент руу нэвтэрч, харилцан ярианд оролцох боломжийг олгодог. Гэвч харамсалтай нь хүмүүс үүнийг хийдэггүй" гэж Шейх хэлэв. "Гэхдээ зургийн тайлбарын функцийг ашигладаг цөөн хэдэн програмууд байхгүй үед өөр текст нэмэх боломжтой."
  
Microsoft-ын хамгийн сүүлийн үеийн Azure AI технологи нь хүмүүсийг дүрслэхээс гадна дүрсийг дүрсэлдэг

Майкрософт компанийн Редмонд лабораторийн судалгааны ерөнхий менежер Лируан Ванг судалгааны багийг удирдаж, хүний ​​үр дүнд хүрч, түүнээс давсан байна. Зураг: Дан ДеЛонг.

Шинэ объектуудын тайлбар

"Зургийг дүрслэх нь компьютерийн харааны үндсэн ажлуудын нэг бөгөөд зураг дээр үзүүлсэн гол агуулга, үйлдлийг ойлгох, дүрслэх хиймэл оюун ухааны системийг шаарддаг" гэж Лируан Ван тайлбарлав.Лижуан Ван), Microsoft-ын Редмонд лабораторийн судалгааны ерөнхий менежер.

"Чи юу болж байгааг ойлгож, объект, үйлдлүүдийн хоорондын хамаарлыг олж мэдээд, дараа нь бүгдийг нь хүн унших хэлээр өгүүлбэрээр нэгтгэн тайлбарлах хэрэгтэй" гэж тэр хэлэв.

Ван судалгааны багийг удирдаж, харьцуулалт хийсэн nocaps (шинэ объектын тайлбар, шинэ объектын том хэмжээний тайлбар) нь хүнийхтэй дүйцэхүйц үр дүнд хүрч, түүнээс давсан. Энэхүү туршилт нь AI систем нь тухайн загварыг сургасан өгөгдлийн багцад ороогүй дүрслэгдсэн объектуудын тайлбарыг хэр сайн бүтээж байгааг үнэлэх боломжийг танд олгоно.

Дүрмээр бол дүрсийг тайлбарлах системийг эдгээр зургийн текстийн тайлбарын хамт дүрсэлсэн өгөгдлийн багц, өөрөөр хэлбэл гарын үсэг зурсан зургийн багц дээр сургадаг.

"Nocaps тест нь сургалтын өгөгдөлд олдоогүй шинэ объектуудыг систем хэр сайн дүрсэлж чаддагийг харуулж байна" гэж Ван хэлэв.

Энэ асуудлыг шийдэхийн тулд Майкрософт багийнхан зураг дээрх тодорхой объекттой холбоотой үгээр тэмдэглэгдсэн зургуудыг агуулсан том өгөгдлийн багц дээр том AI загварыг урьдчилан бэлтгэсэн.

Бүрэн тайлбарын оронд үгийн шошго бүхий зургийн багц нь үүсгэхэд илүү үр дүнтэй бөгөөд Вангийн багт загвартаа маш их өгөгдөл оруулах боломжийг олгодог. Энэ арга нь загварт багаас харааны толь бичиг гэж нэрлэдэг зүйлийг өгсөн.

Хуангийн тайлбарласнаар харааны үгсийн санг ашиглах сургалтын өмнөх арга нь хүүхдийг ном уншихад бэлтгэхтэй адил юм: нэгдүгээрт, зурагтай номыг бие даасан үгсийг дүрстэй холбодог, жишээлбэл, алимны зургийн доор "алим" гэж бичсэн байдаг. муурны зургийн дор "муур" гэсэн үг байдаг.

“Үзэгдэх үгсийн сан бүхий энэхүү урьдчилсан сургалт нь уг системийг сургахад шаардлагатай анхан шатны боловсрол юм. Ингэж бид нэгэн төрлийн моторт ой санамжийг хөгжүүлэхийг хичээдэг” гэж Хуан хэлэв.

Урьдчилан бэлтгэгдсэн загварыг дараа нь шошготой дүрс бүхий өгөгдлийн багцаар сайжруулдаг. Сургалтын энэ үе шатанд загвар өмсөгч өгүүлбэр зохиож сурдаг. Хэрэв шинэ объект агуулсан зураг гарч ирвэл AI систем нь үнэн зөв тайлбар үүсгэхийн тулд харааны толь бичгийг ашигладаг.

"Туршилтын явцад шинэ объектуудтай ажиллахын тулд систем нь сургалтын өмнөх болон дараагийн сайжруулалтын явцад сурсан зүйлээ нэгтгэдэг" гэж Ван хэлэв.
Согласно үр дүнд хүрсэн судалгаа, nocaps тестүүд дээр үнэлгээ хийхэд AI систем нь ижил зургуудын хувьд хүмүүсээс илүү утга учиртай, үнэн зөв тайлбарыг гаргажээ.

Ажлын орчинд илүү хурдан шилжих 

Бусад зүйлсийн дотор шинэ дүрсний тайлбарын систем нь 2015 оноос хойш Майкрософт бүтээгдэхүүн, үйлчилгээнд ашиглагдаж байсан загвараас хоёр дахин сайн бөгөөд энэ нь өөр салбарын жишиг үзүүлэлттэй харьцуулахад юм.

Энэхүү сайжруулалтаас Microsoft-ын бүтээгдэхүүн, үйлчилгээний бүх хэрэглэгчид хүртэх ашиг тусыг харгалзан Хуан шинэ загварыг Azure ажлын орчинд нэгтгэх ажлыг хурдасгав.

"Бид энэхүү эвдэрсэн AI технологийг Azure-д өргөн хүрээний хэрэглэгчдэд үйлчлэх платформ болгон авч байна" гэж тэр хэлэв. “Энэ бол зүгээр нэг судалгааны нээлт биш. Энэхүү нээлтийг Azure үйлдвэрлэлийн орчинд оруулахад зарцуулсан цаг хугацаа нь мөн нээлт байлаа."

Хуан хэлэхдээ, хүнтэй төстэй үр дүнд хүрэх нь Microsoft-ын танин мэдэхүйн оюун ухааны системд аль хэдийн бий болсон чиг хандлагыг үргэлжлүүлж байна.

“Сүүлийн таван жилийн хугацаанд бид яриа таних, машин орчуулга, асуултад хариулах, машин унших, текстийг ойлгох, мөн 2020 онд COVID-19-ийг үл харгалзан зургийн тайлбар зэрэг таван үндсэн чиглэлээр хүнтэй төстэй үр дүнд хүрсэн. гэж Хуан хэлэв.

Сэдвийн дагуу

Системийн өмнө нь өгсөн болон одоо хиймэл оюун ухааныг ашиглаж байсан зургийн тайлбарын үр дүнг харьцуул

Microsoft-ын хамгийн сүүлийн үеийн Azure AI технологи нь хүмүүсийг дүрслэхээс гадна дүрсийг дүрсэлдэг

Гэрэл зургийг Getty Images сайтаас авав. Өмнөх тайлбар: Хайчлах тавцан дээр халуун нохой бэлтгэж буй хүний ​​ойрын зураг. Шинэ тайлбар: Хүн талх хийдэг.

Microsoft-ын хамгийн сүүлийн үеийн Azure AI технологи нь хүмүүсийг дүрслэхээс гадна дүрсийг дүрсэлдэг

Гэрэл зургийг Getty Images сайтаас авав. Өмнөх тайлбар: Нар жаргах үед эрэгтэй хүн сууж байна. Шинэ тайлбар: Далайн эрэг дээрх галын гал.

Microsoft-ын хамгийн сүүлийн үеийн Azure AI технологи нь хүмүүсийг дүрслэхээс гадна дүрсийг дүрсэлдэг

Гэрэл зургийг Getty Images сайтаас авав. Өмнөх тайлбар: Цэнхэр цамцтай хүн. Шинэ тайлбар: Мэс заслын маск зүүсэн хэд хэдэн хүмүүс.

Microsoft-ын хамгийн сүүлийн үеийн Azure AI технологи нь хүмүүсийг дүрслэхээс гадна дүрсийг дүрсэлдэг

Гэрэл зургийг Getty Images сайтаас авав. Өмнөх тайлбар: Тэшүүр унасан хүн хана өөд нисч байна. Шинэ тайлбар: Бейсболын тоглогч бөмбөг барьж байна.

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх