Майкрософт компанийн судлаачид зургийн тайлбар үүсгэх чадвартай хиймэл оюун ухааны системийг бүтээжээ. Энэ нь ихэнх тохиолдолд хүний хийсэн тайлбараас илүү нарийвчлалтай болдог. Энэхүү нээлт нь Майкрософт бүтээгдэхүүн, үйлчилгээгээ бүх хэрэглэгчдэд хүртээмжтэй, хүртээмжтэй болгох амлалтад томоохон алхам болсон юм.
"Зургийн тайлбар нь компьютерийн харааны үндсэн функцүүдийн нэг бөгөөд олон төрлийн үйлчилгээг боломжтой болгодог" гэж Шюдон Хуан хэлэв.
Шинэ загвар нь одоо компьютерийн Vision хаягаар дамжуулан хэрэглэгчдэд хүрч байна
Автомат тайлбар нь хайлтын илэрцэд буцаж ирсэн зураг эсвэл үзүүлэнгийн дүрслэлээс үл хамааран аливаа зургийн чухал агуулгад хандахад хэрэглэгчдэд тусалдаг.
"Вэб хуудас, баримт бичигт байгаа зургийн агуулгыг тайлбарласан тайлбарыг ашиглах нь хараагүй эсвэл харааны бэрхшээлтэй хүмүүст онцгой ач холбогдолтой" гэж Сакиб Шейх хэлэв.
Тухайлбал, түүний баг хараагүй болон харааны бэрхшээлтэй хүмүүст зориулсан аппликейшнд дүрс дүрслэх сайжруулсан функцийг ашиглаж байна.
"Хүн бүр баримт бичиг, вэб, олон нийтийн сүлжээн дэх бүх зураг дээр өөр текст нэмэх хэрэгтэй, учир нь энэ нь хараагүй хүмүүст контент руу нэвтэрч, харилцан ярианд оролцох боломжийг олгодог. Гэвч харамсалтай нь хүмүүс үүнийг хийдэггүй" гэж Шейх хэлэв. "Гэхдээ зургийн тайлбарын функцийг ашигладаг цөөн хэдэн програмууд байхгүй үед өөр текст нэмэх боломжтой."
Майкрософт компанийн Редмонд лабораторийн судалгааны ерөнхий менежер Лируан Ванг судалгааны багийг удирдаж, хүний үр дүнд хүрч, түүнээс давсан байна. Зураг: Дан ДеЛонг.
Шинэ объектуудын тайлбар
"Зургийг дүрслэх нь компьютерийн харааны үндсэн ажлуудын нэг бөгөөд зураг дээр үзүүлсэн гол агуулга, үйлдлийг ойлгох, дүрслэх хиймэл оюун ухааны системийг шаарддаг" гэж Лируан Ван тайлбарлав.
"Чи юу болж байгааг ойлгож, объект, үйлдлүүдийн хоорондын хамаарлыг олж мэдээд, дараа нь бүгдийг нь хүн унших хэлээр өгүүлбэрээр нэгтгэн тайлбарлах хэрэгтэй" гэж тэр хэлэв.
Ван судалгааны багийг удирдаж, харьцуулалт хийсэн
Дүрмээр бол дүрсийг тайлбарлах системийг эдгээр зургийн текстийн тайлбарын хамт дүрсэлсэн өгөгдлийн багц, өөрөөр хэлбэл гарын үсэг зурсан зургийн багц дээр сургадаг.
"Nocaps тест нь сургалтын өгөгдөлд олдоогүй шинэ объектуудыг систем хэр сайн дүрсэлж чаддагийг харуулж байна" гэж Ван хэлэв.
Энэ асуудлыг шийдэхийн тулд Майкрософт багийнхан зураг дээрх тодорхой объекттой холбоотой үгээр тэмдэглэгдсэн зургуудыг агуулсан том өгөгдлийн багц дээр том AI загварыг урьдчилан бэлтгэсэн.
Бүрэн тайлбарын оронд үгийн шошго бүхий зургийн багц нь үүсгэхэд илүү үр дүнтэй бөгөөд Вангийн багт загвартаа маш их өгөгдөл оруулах боломжийг олгодог. Энэ арга нь загварт багаас харааны толь бичиг гэж нэрлэдэг зүйлийг өгсөн.
Хуангийн тайлбарласнаар харааны үгсийн санг ашиглах сургалтын өмнөх арга нь хүүхдийг ном уншихад бэлтгэхтэй адил юм: нэгдүгээрт, зурагтай номыг бие даасан үгсийг дүрстэй холбодог, жишээлбэл, алимны зургийн доор "алим" гэж бичсэн байдаг. муурны зургийн дор "муур" гэсэн үг байдаг.
“Үзэгдэх үгсийн сан бүхий энэхүү урьдчилсан сургалт нь уг системийг сургахад шаардлагатай анхан шатны боловсрол юм. Ингэж бид нэгэн төрлийн моторт ой санамжийг хөгжүүлэхийг хичээдэг” гэж Хуан хэлэв.
Урьдчилан бэлтгэгдсэн загварыг дараа нь шошготой дүрс бүхий өгөгдлийн багцаар сайжруулдаг. Сургалтын энэ үе шатанд загвар өмсөгч өгүүлбэр зохиож сурдаг. Хэрэв шинэ объект агуулсан зураг гарч ирвэл AI систем нь үнэн зөв тайлбар үүсгэхийн тулд харааны толь бичгийг ашигладаг.
"Туршилтын явцад шинэ объектуудтай ажиллахын тулд систем нь сургалтын өмнөх болон дараагийн сайжруулалтын явцад сурсан зүйлээ нэгтгэдэг" гэж Ван хэлэв.
Согласно үр дүнд хүрсэн
Ажлын орчинд илүү хурдан шилжих
Бусад зүйлсийн дотор шинэ дүрсний тайлбарын систем нь 2015 оноос хойш Майкрософт бүтээгдэхүүн, үйлчилгээнд ашиглагдаж байсан загвараас хоёр дахин сайн бөгөөд энэ нь өөр салбарын жишиг үзүүлэлттэй харьцуулахад юм.
Энэхүү сайжруулалтаас Microsoft-ын бүтээгдэхүүн, үйлчилгээний бүх хэрэглэгчид хүртэх ашиг тусыг харгалзан Хуан шинэ загварыг Azure ажлын орчинд нэгтгэх ажлыг хурдасгав.
"Бид энэхүү эвдэрсэн AI технологийг Azure-д өргөн хүрээний хэрэглэгчдэд үйлчлэх платформ болгон авч байна" гэж тэр хэлэв. “Энэ бол зүгээр нэг судалгааны нээлт биш. Энэхүү нээлтийг Azure үйлдвэрлэлийн орчинд оруулахад зарцуулсан цаг хугацаа нь мөн нээлт байлаа."
Хуан хэлэхдээ, хүнтэй төстэй үр дүнд хүрэх нь Microsoft-ын танин мэдэхүйн оюун ухааны системд аль хэдийн бий болсон чиг хандлагыг үргэлжлүүлж байна.
“Сүүлийн таван жилийн хугацаанд бид яриа таних, машин орчуулга, асуултад хариулах, машин унших, текстийг ойлгох, мөн 2020 онд COVID-19-ийг үл харгалзан зургийн тайлбар зэрэг таван үндсэн чиглэлээр хүнтэй төстэй үр дүнд хүрсэн. гэж Хуан хэлэв.
Сэдвийн дагуу
- Сайт руу зочилно уу
Azure танин мэдэхүйн үйлчилгээ компьютерийн харааны талаар илүү ихийг мэдэхийн тулд (Компьютерийн зөн ) - Өгүүллийг уншина уу
Түүхэн амжилт - Microsoft-ын судлаачид яриаг автоматаар таних хүний түвшинд хүрсэн.
Системийн өмнө нь өгсөн болон одоо хиймэл оюун ухааныг ашиглаж байсан зургийн тайлбарын үр дүнг харьцуул
Гэрэл зургийг Getty Images сайтаас авав. Өмнөх тайлбар: Хайчлах тавцан дээр халуун нохой бэлтгэж буй хүний ойрын зураг. Шинэ тайлбар: Хүн талх хийдэг.
Гэрэл зургийг Getty Images сайтаас авав. Өмнөх тайлбар: Нар жаргах үед эрэгтэй хүн сууж байна. Шинэ тайлбар: Далайн эрэг дээрх галын гал.
Гэрэл зургийг Getty Images сайтаас авав. Өмнөх тайлбар: Цэнхэр цамцтай хүн. Шинэ тайлбар: Мэс заслын маск зүүсэн хэд хэдэн хүмүүс.
Гэрэл зургийг Getty Images сайтаас авав. Өмнөх тайлбар: Тэшүүр унасан хүн хана өөд нисч байна. Шинэ тайлбар: Бейсболын тоглогч бөмбөг барьж байна.
Эх сурвалж: www.habr.com