Microsoft'un Azure AI'daki en son teknolojisi, insanları olduğu kadar görüntüleri de tanımlar


Microsoft araştırmacıları, çoğu durumda insan açıklamalarından daha doğru olan resim altyazıları oluşturabilen bir yapay zeka sistemi oluşturdu. Bu atılım, Microsoft'un ürünlerini ve hizmetlerini tüm kullanıcılar için kapsayıcı ve erişilebilir hale getirme kararlılığında önemli bir kilometre taşına işaret ediyor.

Xuedong Huang, "Görüntü tanımlama, geniş bir hizmet yelpazesine olanak sağlayan bilgisayarlı görmenin temel işlevlerinden biridir" dedi.Xuedong Huang), Microsoft teknik çalışanı ve Redmond, Washington'daki Azure AI Bilişsel Hizmetler'in baş teknoloji sorumlusu.

Yeni model artık Computer Vision aracılığıyla tüketicilere sunuluyor. Azure Bilişsel HizmetlerAzure AI'nin bir parçası olan ve geliştiricilerin, hizmetlerinin kullanılabilirliğini iyileştirmek için bu özelliği kullanmalarına olanak tanıyan. Ayrıca Seeing AI uygulamasına da dahil edilen bu özellik, bu yılın sonlarında Windows ve Mac için Microsoft Word ve Outlook'un yanı sıra Windows, Mac ve web için PowerPoint'te de kullanıma sunulacak.

Otomatik açıklama, kullanıcıların herhangi bir görselin önemli içeriğine erişmesine yardımcı olur; bu, ister bir arama sonucunda döndürülen bir fotoğraf, ister bir sunum için bir çizim olsun.

Saqib Sheikh, "Web sayfalarında ve belgelerde görsellerin içeriğini (alternatif veya alternatif metin olarak adlandırılan) açıklayan altyazıların kullanılması, kör veya az gören kişiler için özellikle önemlidir" dedi (Saqib Shaikh), Microsoft'un Redmond'daki AI Platformları grubundaki yazılım yöneticisi.

Örneğin ekibi, uygulamada görme engelli ve görme engelli kişilere yönelik geliştirilmiş bir görsel açıklama özelliği kullanıyor AI görmek, kameranın neyi çektiğini tanır ve onun hakkında konuşur. Uygulama, sosyal ağlar da dahil olmak üzere fotoğrafları tanımlamak için oluşturulan altyazıları kullanır.

"İdeal olarak herkesin belgelerdeki, çevrimiçi ve sosyal medyadaki tüm görsellere alternatif metin eklemesi gerekir; çünkü bu, kör kişilerin içeriğe erişmesine ve sohbete katılmasına olanak tanır. Ama ne yazık ki insanlar bunu yapmıyor” diyor Şeyh. "Ancak, mevcut olmadığında alternatif metin eklemek için görsel açıklama özelliğini kullanan birkaç uygulama var."
  
Microsoft'un Azure AI'daki en son teknolojisi, insanları olduğu kadar görüntüleri de tanımlar

Microsoft'un Redmond laboratuvarında kıdemli araştırma yöneticisi olan Lijuan Wang, insan benzeri ve daha iyi sonuçlar elde eden bir araştırma ekibine liderlik etti. Fotoğraf: Dan DeLong.

Yeni nesnelerin açıklaması

Lijuan Wang, "Görüntü tanımlama, görüntüde temsil edilen ana içeriği veya eylemi anlamak ve açıklamak için bir yapay zeka sistemi gerektiren bilgisayarlı görmenin ana görevlerinden biridir" diye açıkladı (Lijuan Wang), Microsoft'un Redmond laboratuvarında kıdemli araştırma yöneticisi.

"Neler olup bittiğini anlamanız, nesneler ve eylemler arasındaki ilişkilerin ne olduğunu anlamanız ve ardından bunların hepsini insanın anlayabileceği bir dilde bir cümleyle özetlemeniz ve açıklamanız gerekiyor" dedi.

Wang, kıyaslama yapan araştırma ekibine liderlik etti. büyük harf (büyük ölçekte yeni nesnelerin altyazılanması, yeni nesnelerin büyük ölçekli tanımlanması) insanlarla karşılaştırılabilir sonuçlar elde etti ve onları aştı. Bu test, yapay zeka sistemlerinin, modelin eğitildiği veri setinin parçası olmayan tasvir edilen nesnelerin açıklamalarını ne kadar iyi ürettiğini değerlendirir.

Tipik olarak görüntü tanımlama sistemleri, bu görüntülerin metinsel açıklamalarının eşlik ettiği görüntüleri içeren veri kümeleri, yani etiketli görüntü kümeleri üzerinde eğitilir.

Wang, "Nocaps testi, sistemin eğitim verilerinde bulunmayan yeni nesneleri ne kadar iyi tanımlayabildiğini gösteriyor" diyor.

Bu sorunu çözmek için Microsoft ekibi, her biri görüntüdeki belirli bir nesneyle ilişkilendirilen sözcük etiketli görüntüler içeren geniş bir veri kümesi üzerinde büyük bir yapay zeka modelini önceden eğitti.

Tam başlıklar yerine kelime etiketleri içeren görsel setleri oluşturmak daha verimliydi; bu da Wang'ın ekibinin modellerine çok fazla veri beslemesine olanak tanıdı. Bu yaklaşım, modele ekibin görsel kelime dağarcığı dediği şeyi verdi.

Huang'ın açıkladığı gibi, görsel kelime öğretimi öncesi yaklaşımı çocukları okumaya hazırlamaya benzer: İlk olarak, tek tek kelimelerin resimlerle ilişkilendirildiği resimli bir kitap kullanılır; örneğin bir elma fotoğrafının altında "elma" yazar ve Bir kedi fotoğrafının altında "kedi" kelimesi yer alıyor.

“Görsel sözlükle yapılan bu ön eğitim, aslında sistemi eğitmek için gereken başlangıç ​​eğitimidir. Huang, "Bu şekilde bir tür motor hafızası geliştirmeye çalışıyoruz" dedi.

Önceden eğitilmiş model daha sonra altyazılı görseller içeren bir veri kümesi kullanılarak iyileştirilir. Eğitimin bu aşamasında model cümle kurmayı öğrenir. Yeni nesneler içeren bir görüntü ortaya çıkarsa AI sistemi, doğru açıklamalar oluşturmak için görsel bir sözlük kullanır.

Wang, "Test sırasında yeni nesnelerle başa çıkmak için sistem, eğitim öncesi ve sonraki geliştirme sırasında öğrendiklerini birleştiriyor" diyor.
sonuçlara göre araştırmaNocaps testleriyle değerlendirildiğinde yapay zeka sistemi, aynı görüntüler için insanların yaptığından daha anlamlı ve doğru açıklamalar üretti.

Çalışma ortamına hızlandırılmış geçiş 

Diğer özelliklerinin yanı sıra, yeni görüntü tanımlama sistemi, başka bir sektör karşılaştırmasına göre 2015'ten bu yana Microsoft ürün ve hizmetlerinde kullanılan modelden iki kat daha iyi.

Tüm Microsoft ürün ve hizmetlerinin kullanıcılarının bu iyileştirmeden elde edeceği faydalar göz önüne alındığında Huang, yeni modelin Azure masaüstü ortamına entegrasyonunu hızlandırdı.

"Bu çığır açan yapay zeka teknolojisini daha geniş bir müşteri yelpazesine hizmet verecek bir platform olarak Azure'a taşıyoruz" dedi. "Ve bu sadece araştırma alanında bir atılım değil. Bu atılımın Azure üretim ortamına dahil edilmesi için geçen süre de bir atılımdı."

Huang, insan benzeri sonuçlara ulaşmanın, Microsoft'un bilişsel zeka sistemlerinde halihazırda yerleşik olan bir trendi sürdürdüğünü ekledi.

Juan, "Geçtiğimiz beş yılda beş ana alanda insan düzeyinde sonuçlar elde ettik: konuşma tanıma, makine çevirisi, soru yanıtlama, makine okuma ve metin anlama ve 2020'de COVID-19'a rağmen görüntü tanımlama" dedi.

Konuya göre

Sistemin daha önce ve şimdi AI kullanarak verdiği görüntü açıklamalarının sonuçlarını karşılaştırın

Microsoft'un Azure AI'daki en son teknolojisi, insanları olduğu kadar görüntüleri de tanımlar

Getty Images kütüphanesinden fotoğraf. Önceki açıklama: Kesme tahtasında sosisli sandviç pişiren bir adamın yakın çekimi. Yeni açıklama: Bir adam ekmek yapar.

Microsoft'un Azure AI'daki en son teknolojisi, insanları olduğu kadar görüntüleri de tanımlar

Getty Images kütüphanesinden fotoğraf. Önceki açıklama: Bir adam gün batımında oturuyor. Yeni açıklama: Sahilde şenlik ateşi.

Microsoft'un Azure AI'daki en son teknolojisi, insanları olduğu kadar görüntüleri de tanımlar

Getty Images kütüphanesinden fotoğraf. Önceki açıklama: Mavi gömlekli bir adam. Yeni açıklama: Birkaç kişi cerrahi maske takıyor.

Microsoft'un Azure AI'daki en son teknolojisi, insanları olduğu kadar görüntüleri de tanımlar

Getty Images kütüphanesinden fotoğraf. Önceki açıklama: kaykay üzerindeki bir adam duvara doğru uçuyor. Yeni açıklama: Bir beyzbol oyuncusu topu yakalıyor.

Kaynak: habr.com

Yorum ekle