Yapay Zeka Önyargısı Hakkında

Yapay Zeka Önyargısı Hakkında

tl; dr:

  • Makine öğrenimi verilerdeki kalıpları arar. Ancak yapay zeka "önyargılı" olabilir, yani yanlış kalıpları bulabilir. Örneğin, fotoğrafa dayalı bir cilt kanseri tespit sistemi, bir doktorun muayenehanesinde çekilen görüntülere özel önem verebilir. Makine öğrenimi yapamaz понимать: algoritmaları yalnızca sayılardaki kalıpları tanımlar ve veriler temsili değilse, işlemenin sonucu da öyle olur. Ve makine öğreniminin mekaniği nedeniyle bu tür hataları yakalamak zor olabilir.
  • En belirgin ve göz korkutucu sorun alanı insan çeşitliliğidir. Kişilere ilişkin verilerin daha toplama aşamasında objektifliğini kaybetmesinin birçok nedeni bulunmaktadır. Ancak bu sorunun yalnızca insanları etkilediğini düşünmeyin: Bir depodaki su baskınını veya arızalı bir gaz türbinini tespit etmeye çalışırken de aynı zorluklar ortaya çıkar. Bazı sistemler ten rengine karşı önyargılı olabilir, diğerleri ise Siemens sensörlerine karşı önyargılı olabilir.
  • Bu tür sorunlar makine öğrenimi için yeni değildir ve ona özgü olmaktan çok uzaktır. Herhangi bir karmaşık yapıda yanlış varsayımlarda bulunulur ve belirli bir kararın neden alındığını anlamak her zaman zordur. Bununla kapsamlı bir şekilde mücadele etmemiz gerekiyor: Doğrulama için araçlar ve süreçler oluşturun ve kullanıcıları, yapay zeka önerilerini körü körüne takip etmemeleri için eğitin. Makine öğrenimi bazı şeyleri bizden çok daha iyi yapıyor; ancak örneğin köpekler uyuşturucuları tespit etmede insanlardan çok daha etkilidir; bu da onları tanık olarak kullanmak ve ifadelerine dayanarak hüküm vermek için bir neden değildir. Ve bu arada köpekler herhangi bir makine öğrenme sisteminden çok daha akıllıdır.

Makine öğrenimi günümüzün en önemli temel teknoloji trendlerinden biridir. Bu, teknolojinin önümüzdeki on yılda çevremizdeki dünyayı değiştirmesinin en önemli yollarından biridir. Bu değişikliklerin bazı yönleri endişe kaynağıdır. Örneğin, makine öğreniminin işgücü piyasası üzerindeki potansiyel etkisi veya etik olmayan amaçlarla kullanılması (örneğin otoriter rejimler tarafından). Bu yazının ele aldığı başka bir sorun daha var: yapay zeka önyargısı.

Bu kolay bir hikaye değil.

Yapay Zeka Önyargısı Hakkında
Google'ın yapay zekası kedileri bulabilir. 2012'deki bu haber o zamanlar özeldi.

“Yapay Zeka Önyargısı” nedir?

"Ham veri" hem bir tezat hem de kötü bir fikirdir; verilerin iyi ve dikkatli bir şekilde hazırlanması gerekmektedir. —Geoffrey Bocker

2013'ten önce, örneğin fotoğraflardaki kedileri tanıyan bir sistem oluşturmak için mantıksal adımları tanımlamanız gerekiyordu. Bir görüntüdeki köşeleri bulma, gözleri tanıma, kürk dokularını analiz etme, pençeleri sayma vb. Daha sonra tüm bileşenleri bir araya getirin ve bunun gerçekten işe yaramadığını keşfedin. Tıpkı mekanik bir ata benzer; teorik olarak yapılabilir ancak pratikte tarif edilemeyecek kadar karmaşıktır. Sonuçta yüzlerce (hatta binlerce) elle yazılmış kural ortaya çıkar. Ve tek bir çalışan model değil.

Makine öğreniminin ortaya çıkışıyla birlikte, belirli bir nesneyi tanımak için "manuel" kuralları kullanmayı bıraktık. Bunun yerine, "bu" X'ten bin örnek, "diğer" Y'den bin örnek alıyoruz ve bilgisayarın istatistiksel analizlerine dayalı bir model oluşturmasını sağlıyoruz. Daha sonra bu modele bazı örnek veriler veriyoruz ve o da belirli bir hassasiyetle kümelerden birine uyup uymadığını belirliyor. Makine öğrenimi, bir insanın yazmasından ziyade verilerden bir model oluşturur. Sonuçlar, özellikle görüntü ve desen tanıma alanında etkileyici ve bu nedenle tüm teknoloji endüstrisi artık makine öğrenimine (ML) yöneliyor.

Ama bu o kadar basit değil. Gerçek dünyada, binlerce X veya Y örneğiniz aynı zamanda A, B, J, L, O, R ve hatta L'yi de içerir. Bunlar eşit şekilde dağılmayabilir ve bazıları o kadar sık ​​meydana gelebilir ki sistem daha fazla ödeme yapar. İlginizi çeken nesnelerden çok onlara dikkat edin.

Bu pratikte ne anlama geliyor? En sevdiğim örnek, görüntü tanıma sistemlerinin çimenlik bir tepeye bakıp "koyun" deyin. Nedeni çok açık: Örnek "koyun" fotoğraflarının çoğu, yaşadıkları çayırlarda çekiliyor ve bu fotoğraflarda çim, küçük beyaz tüylerden çok daha fazla yer kaplıyor ve sistemin en önemli gördüğü şey çimdir. .

Daha ciddi örnekler var. Yakın zamanda bir tane proje fotoğraflarda cilt kanserini tespit etmek için. Dermatologların, oluşumların boyutunu kaydetmek için sıklıkla cetveli cilt kanseri belirtileriyle birlikte fotoğrafladığı ortaya çıktı. Sağlıklı cildin örnek fotoğraflarında cetvel yoktur. Bir yapay zeka sistemi için bu tür cetveller (daha doğrusu "cetvel" olarak tanımladığımız pikseller), örnek kümeleri arasındaki farklardan biri haline geldi ve bazen ciltteki küçük bir döküntüden daha önemli hale geldi. Yani cilt kanserini tanımlamak için oluşturulan bir sistem bazen bunun yerine yöneticileri tanıdı.

Buradaki kilit nokta, sistemin neye baktığına dair anlamsal bir anlayışa sahip olmamasıdır. Bir dizi piksele bakıyoruz ve içlerinde bir koyun, deri veya cetvel görüyoruz, ancak sistem yalnızca bir sayı doğrusundan ibaret. Üç boyutlu uzayı görmüyor, nesneleri, dokuları ya da koyunları görmüyor. Sadece verilerdeki kalıpları görüyor.

Bu tür sorunları teşhis etmenin zorluğu, sinir ağının (makine öğrenme sisteminiz tarafından oluşturulan model) binlerce yüz binlerce düğümden oluşmasıdır. Bir modele bakıp nasıl karar verdiğini görmenin kolay bir yolu yoktur. Böyle bir yola sahip olmak, sürecin makine öğrenimi kullanmadan tüm kuralları manuel olarak tanımlayacak kadar basit olduğu anlamına gelir. İnsanlar makine öğreniminin bir tür kara kutuya dönüşmesinden endişe ediyor. (Bu karşılaştırmanın neden hala çok fazla olduğunu biraz sonra açıklayacağım.)

Bu, genel anlamda, yapay zeka veya makine öğrenimindeki önyargı sorunudur: Verilerdeki kalıpları bulmaya yönelik bir sistem, yanlış kalıpları bulabilir ve siz bunu fark etmeyebilirsiniz. Bu, teknolojinin temel bir özelliğidir ve akademide ve büyük teknoloji şirketlerinde onunla çalışan herkes için açıktır. Ancak sonuçları karmaşıktır ve bu sonuçlara yönelik olası çözümlerimiz de karmaşıktır.

Önce sonuçlarından bahsedelim.

Yapay Zeka Önyargısı Hakkında
Yapay zeka, bizim için dolaylı olarak çok sayıda algılanamayan sinyale dayanarak belirli insan kategorileri lehine seçim yapabilir.

Yapay Zeka Önyargı Senaryoları

En açık ve korkutucu şekilde bu sorun insan çeşitliliği söz konusu olduğunda kendini gösterebilir. Son zamanlarda bir söylenti vardıAmazon'un iş adaylarının ilk taraması için bir makine öğrenimi sistemi oluşturmaya çalıştığı. Amazon çalışanları arasında erkek sayısı daha fazla olduğundan, "başarılı işe alım" örnekleri de daha çok erkeklerden oluşuyor ve sistemin önerdiği özgeçmiş seçiminde de daha fazla erkek bulunuyor. Amazon bunu fark etti ve sistemi üretime sokmadı.

Bu örnekte en önemli şey, özgeçmişte cinsiyet belirtilmemesine rağmen sistemin erkek adayları tercih ettiği yönünde söylentilerin çıkmasıydı. Sistem, "iyi işe alım" örneklerinde başka kalıplar da gördü: örneğin, kadınlar başarılarını tanımlamak için özel kelimeler kullanabilir veya özel hobilere sahip olabilirler. Elbette sistem "hokey"in ne olduğunu, "insanların" kim olduğunu ya da "başarı"nın ne olduğunu bilmiyordu; sadece metnin istatistiksel analizini yapıyordu. Ancak onun gördüğü kalıplar büyük olasılıkla insanlar tarafından fark edilmeyecektir ve bunlardan bazılarını (örneğin, farklı cinsiyetlerden insanların başarıyı farklı şekilde tanımlaması) onlara baksak bile muhtemelen bizim için zor olacaktır.

Daha da kötüsü. Açık tende kanseri bulmada çok iyi olan bir makine öğrenimi sistemi, koyu tende iyi performans göstermeyebilir veya tam tersi. Mutlaka önyargı nedeniyle değil, muhtemelen farklı bir ten rengi için farklı özellikler seçerek ayrı bir model oluşturmanız gerektiği için. Makine öğrenmesi sistemleri görüntü tanıma gibi dar bir alanda bile birbirinin yerine geçemez. İstediğiniz doğruluğu elde edene kadar, ilgilendiğiniz verilerdeki özellikleri iyi bir şekilde ele almak için, bazen sadece deneme yanılma yoluyla sistemde ince ayarlamalar yapmanız gerekir. Ancak fark edemeyeceğiniz şey, sistemin bir grup için %98 oranında doğru, diğer grup için ise yalnızca %91 (insan analizinden bile daha doğru) olduğudur.

Şu ana kadar ağırlıklı olarak insanlara ve onların özelliklerine ilişkin örnekler kullandım. Bu soruna ilişkin tartışma esas olarak bu konuya odaklanmaktadır. Ancak insanlara karşı önyargının sorunun yalnızca bir parçası olduğunu anlamak önemlidir. Makine öğrenimini pek çok şey için kullanacağız ve örnekleme hatası bunların hepsiyle alakalı olacak. Öte yandan insanlarla çalışıyorsanız verilerdeki önyargı onlarla ilgili olmayabilir.

Bunu anlamak için cilt kanseri örneğine dönelim ve sistem arızasına ilişkin üç varsayımsal olasılığı ele alalım.

  1. İnsanların heterojen dağılımı: Farklı cilt tonlarında dengesiz sayıda fotoğraf, pigmentasyon nedeniyle yanlış pozitiflere veya yanlış negatiflere yol açar.
  2. Sistemin eğitildiği veriler, sıklıkla ortaya çıkan, heterojen bir şekilde dağılmış, insanlarla ilişkilendirilmeyen ve teşhis değeri olmayan bir özelliği içeriyor: cilt kanseri fotoğraflarında cetvel veya koyun fotoğraflarında çim. Bu durumda sistem, insan gözünün "cetvel" olarak tanımladığı bir şeyin görüntüsünde pikseller bulursa sonuç farklı olacaktır.
  3. Veriler, kişinin arasa bile göremeyeceği bir üçüncü taraf özelliği içeriyor.

Bu ne anlama geliyor? Verilerin farklı insan gruplarını farklı şekilde temsil edebileceğini önceden biliyoruz ve en azından bu tür istisnaları aramayı planlayabiliriz. Başka bir deyişle, insan grupları hakkındaki verilerin zaten bir miktar önyargı içerdiğini varsaymak için pek çok sosyal neden var. Fotoğrafa cetvelle bakarsak, bu cetveli göreceğiz - daha önce onu görmezden geldik, bunun önemli olmadığını biliyorduk ve sistemin hiçbir şey bilmediğini unutuyorduk.

Peki ya sağlıksız cildinizin tüm fotoğrafları bir ofiste akkor ışık altında çekilse ve sağlıklı cildiniz floresan ışığı altında çekilse? Sağlıklı cilt çekimlerini tamamladıktan sonra, sağlıksız cilt çekimlerini yapmadan önce telefonunuzun işletim sistemini güncellediyseniz ve Apple veya Google, gürültü azaltma algoritmasını biraz değiştirse ne olur? Kişi bu özellikleri ne kadar arasa da bunu fark edemez. Ancak makine kullanım sistemi bunu hemen görecek ve kullanacaktır. Hiçbir şey bilmiyor.

Şu ana kadar sahte korelasyonlardan bahsettik, ancak veriler doğru olabilir ve sonuçlar da doğru olabilir, ancak bunları etik, yasal veya yönetimsel nedenlerle kullanmak istemezsiniz. Örneğin bazı yargı bölgelerinde, kadınlar daha güvenli sürücüler olsa da kadınların sigortalarında indirim almasına izin verilmemektedir. Geçmiş verileri analiz ederken kadın isimlerine daha düşük bir risk faktörü atayan bir sistemi kolaylıkla hayal edebiliriz. Tamam, isimleri seçimden kaldıralım. Ancak Amazon örneğini hatırlayın: Sistem, diğer faktörlere dayalı olarak cinsiyeti belirleyebilir (cinsiyetin ne olduğunu, hatta bir arabanın ne olduğunu bilmese bile) ve düzenleyici, sizin belirlediğiniz tarifeleri geriye dönük olarak analiz edene kadar bunu fark etmeyeceksiniz. teklif ederseniz ve ücret öderseniz para cezasına çarptırılırsınız.

Son olarak, bu tür sistemleri yalnızca insanları ve sosyal etkileşimleri içeren projeler için kullanacağımız varsayılmaktadır. Bu yanlış. Gaz türbinleri yapıyorsanız, muhtemelen ürününüzdeki onlarca veya yüzlerce sensör tarafından iletilen telemetriye makine öğrenimini uygulamak isteyeceksiniz (ses, video, sıcaklık ve diğer sensörler, bir makine oluşturmak için çok kolay bir şekilde uyarlanabilecek veriler üretir). öğrenme modeli). Varsayımsal olarak şöyle diyebilirsiniz: "İşte arızalanmadan önce arızalanan bin türbinin verileri ve burada arızalanmayan bin türbinin verileri. Aralarındaki farkın ne olduğunu anlatmak için bir model oluşturun. Şimdi Siemens sensörlerinin kötü türbinlerin %75'ine, iyi türbinlerin ise yalnızca %12'sine kurulduğunu hayal edin (arızalarla hiçbir bağlantısı yoktur). Sistem, Siemens sensörlerine sahip türbinleri bulmak için bir model oluşturacak. Hata!

Yapay Zeka Önyargısı Hakkında
Resim — Moritz Hardt, UC Berkeley

Yapay Zeka Önyargısını Yönetmek

Bunun hakkında ne yapabiliriz? Konuya üç açıdan yaklaşabilirsiniz:

  1. Sistemi eğitmek için veri toplama ve yönetmede metodolojik titizlik.
  2. Model davranışını analiz etmek ve teşhis etmek için teknik araçlar.
  3. Makine öğrenimini ürünlere uygularken eğitin, eğitin ve dikkatli olun.

Molière'in "Asaletteki Burjuvalar" kitabında bir espri vardır: Bir adama edebiyatın düzyazı ve şiir olarak ikiye ayrıldığı söylendi ve o, hayatı boyunca farkında olmadan düzyazı konuştuğunu keşfettiğinde çok sevindi. Muhtemelen bugün istatistikçiler de böyle hissediyor: farkında olmadan kariyerlerini yapay zekaya ve örnekleme hatasına adadılar. Örnekleme hatasını aramak ve bu konuda endişelenmek yeni bir sorun değil, sadece çözümüne sistematik bir şekilde yaklaşmamız gerekiyor. Yukarıda da belirtildiği gibi bazı durumlarda bunu insan verileriyle ilgili sorunları inceleyerek yapmak aslında daha kolaydır. Farklı insan gruplarına karşı önyargılarımız olabileceğini önceden varsayıyoruz, ancak Siemens sensörlerine ilişkin bir önyargıyı hayal etmek bile bizim için çok zor.

Elbette tüm bunlarda yeni olan şey, insanların artık doğrudan istatistiksel analiz yapmamasıdır. Anlaşılması zor, büyük, karmaşık modeller oluşturan makineler tarafından gerçekleştirilir. Şeffaflık konusu önyargı sorununun temel boyutlarından biridir. Sistemin yalnızca önyargılı olmadığından değil, aynı zamanda önyargısını tespit etmenin bir yolu olmadığından ve makine öğreniminin, test edilebilecek açık mantıksal adımlardan oluşması gereken diğer otomasyon biçimlerinden farklı olduğundan korkuyoruz.

Burada iki problem mevcut. Hala makine öğrenimi sistemlerinin bir tür denetimini gerçekleştirebiliriz. Ve başka herhangi bir sistemi denetlemek aslında hiç de kolay değil.

İlk olarak, makine öğrenimi alanındaki modern araştırmaların yönlerinden biri, makine öğrenimi sistemlerinin önemli işlevlerini belirlemeye yönelik yöntemlerin araştırılmasıdır. Bununla birlikte, makine öğrenimi (şu anki haliyle) hızla değişen, tamamen yeni bir bilim alanıdır; bu nedenle, bugün imkansız olan şeylerin yakın gelecekte tam anlamıyla gerçeğe dönüşemeyeceğini düşünmeyin. Proje OpenAI - bunun ilginç bir örneği.

İkincisi, mevcut sistemlerin veya organizasyonların karar verme sürecini test edip anlayabileceğiniz fikri teoride iyidir, ancak pratikte öyledir. Büyük bir organizasyonda kararların nasıl alındığını anlamak kolay değildir. Resmi bir karar alma süreci olsa bile bu, insanların gerçekte nasıl etkileşimde bulunduğunu yansıtmaz ve çoğu zaman karar verme konusunda mantıksal, sistematik bir yaklaşıma sahip değildirler. Meslektaşımın söylediği gibi Vijay Pande, insanlar da kara kutulardır.

Birbiriyle örtüşen birkaç şirket ve kurumdaki bin kişiyi ele aldığımızda sorun daha da karmaşık hale geliyor. Uzay Mekiğinin dönüşte parçalanacağını ve NASA'daki kişilerin kötü bir şey olabileceğine dair onlara neden veren bilgilere sahip olduğunu biliyoruz, ancak sistem genel olarak Bunu bilmiyordum. Hatta NASA, önceki mekiğini kaybettikten sonra benzer bir denetimden geçti, ancak çok benzer bir nedenden dolayı bir mekiğini daha kaybetti. Kuruluşların ve kişilerin test edilebilecek, anlaşılabilecek ve değiştirilebilecek açık, mantıksal kurallara uyduğunu iddia etmek kolaydır; ancak deneyimler bunun aksini kanıtlıyor. Bu "Gosplan'ın yanılsaması'.

Makine öğrenimini sık sık veritabanlarıyla, özellikle de ilişkisel olanlarla karşılaştırırım; bilgisayar biliminin ve etrafındaki dünyanın yeteneklerini değiştiren, her şeyin bir parçası haline gelen ve farkında olmadan sürekli kullandığımız yeni bir temel teknoloji. Veritabanlarının da sorunları vardır ve bunlar da benzer niteliktedir: Sistem kötü varsayımlar veya kötü veriler üzerine kurulmuş olabilir, ancak fark edilmesi zor olacaktır ve sistemi kullanan kişiler, soru sormadan onlara söyleneni yapacaktır. Bir zamanlar adınızı yanlış yazan vergi memurlarıyla ilgili pek çok eski şaka vardır ve onları hatayı düzeltmeye ikna etmek, adınızı değiştirmekten çok daha zordur. Bunu düşünmenin birçok yolu var, ancak hangisinin daha iyi olduğu açık değil: SQL'deki teknik bir sorun olarak mı, yoksa Oracle sürümündeki bir hata olarak mı, yoksa bürokratik kurumların başarısızlığı olarak mı? Sistemin yazım hatası düzeltme özelliğinin bulunmamasına yol açan bir süreçte hata bulmak ne kadar zor? İnsanlar şikayet etmeye başlamadan önce bu çözülebilir miydi?

Bu sorun, navigatördeki güncel olmayan veriler nedeniyle sürücülerin nehirlere doğru ilerlediği hikayelerde daha da basit bir şekilde gösterilmektedir. Tamam, haritaların sürekli güncellenmesi gerekiyor. Peki arabanızın denize uçması konusunda TomTom'un ne kadar suçu var?

Bunu söylememin nedeni evet, makine öğrenmesi önyargısının sorun yaratacağıdır. Ancak bu sorunlar geçmişte karşılaştığımız sorunlara benzer olacak ve geçmişte olduğu kadar fark edilip çözülebilecek (ya da çözülemeyecek). Bu nedenle yapay zeka önyargısının zarara yol açtığı bir senaryonun büyük bir kuruluşta çalışan kıdemli araştırmacıların başına gelmesi pek olası değildir. Büyük olasılıkla, bazı önemsiz teknoloji yüklenicileri veya yazılım satıcıları, anlamadıkları açık kaynak bileşenleri, kütüphaneleri ve araçları kullanarak dizlerinin üzerine bir şeyler yazacaktır. Ve şanssız müşteri, ürün açıklamasındaki "yapay zeka" ibaresini satın alacak ve hiçbir soru sormadan bunu düşük ücretli çalışanlarına dağıtarak onlara yapay zekanın söylediklerini yapmalarını emredecek. Veritabanlarında olan da tam olarak budur. Bu bir yapay zeka sorunu, hatta bir yazılım sorunu bile değil. Bu insan faktörüdür.

Sonuç

Makine öğrenimi, bir köpeğe öğretebileceğiniz her şeyi yapabilir; ancak köpeğe tam olarak ne öğrettiğinizden asla emin olamazsınız.

Çoğu zaman "yapay zeka" teriminin yalnızca bu tür konuşmaların önüne geçtiğini düşünüyorum. Bu terim, onu, yani bu zekayı gerçekten bizim yarattığımız yönünde yanlış bir izlenim veriyor. HAL9000 ya da Skynet'e doğru yola çıktığımızı - aslında öyle bir şey ki anlar. Ama hayır. Bunlar sadece makinelerdir ve bunları örneğin bir çamaşır makinesiyle karşılaştırmak çok daha doğrudur. İnsandan çok daha iyi çamaşır yıkıyor ama eğer ona çamaşır yerine bulaşık koyarsan, o... onları yıkar. Bulaşıklar bile temiz olacak. Ancak bu beklediğiniz gibi olmayacak ve sistemin yemeklerle ilgili ön yargıları olduğu için de bu olmayacak. Çamaşır makinesi bulaşıkların veya kıyafetlerin ne olduğunu bilmiyor; bu sadece bir otomasyon örneğidir ve kavramsal olarak süreçlerin daha önce otomatikleştirilmesinden hiçbir farkı yoktur.

İster arabalardan, ister uçaklardan, ister veri tabanlarından söz edelim, bu sistemler hem çok güçlü hem de çok sınırlı olacak. Tamamen insanların bu sistemleri nasıl kullandıklarına, niyetlerinin iyi mi kötü mü olduğuna ve nasıl çalıştıklarını ne kadar anladıklarına bağlı olacak.

Dolayısıyla “yapay zeka matematiktir, dolayısıyla önyargıları olamaz” demek tamamen yanlıştır. Ancak makine öğreniminin "doğası gereği öznel" olduğunu söylemek de aynı derecede yanlıştır. Makine öğrenimi verilerdeki kalıpları bulur ve hangi kalıpları bulacağı verilere, veriler de bize bağlıdır. Tıpkı bizim onlarla yaptığımız gibi. Makine öğrenimi bazı şeyleri bizden çok daha iyi yapıyor; ancak örneğin köpekler uyuşturucuları tespit etmede insanlardan çok daha etkilidir; bu da onları tanık olarak kullanmak ve ifadelerine dayanarak hüküm vermek için bir neden değildir. Ve bu arada köpekler herhangi bir makine öğrenme sisteminden çok daha akıllıdır.

Çeviri: Diana Letskaya.
Düzenleme: Alexey Ivanov.
topluluğu: @PonchikNews.

Kaynak: habr.com

Yorum ekle