O pristrasnosti umjetne inteligencije

O pristrasnosti umjetne inteligencije

tl;

  • Mašinsko učenje traži obrasce u podacima. Ali umjetna inteligencija može biti "pristrasna" - to jest, pronaći obrasce koji su pogrešni. Na primjer, sistem za otkrivanje raka kože zasnovan na fotografijama mogao bi obratiti posebnu pažnju na slike snimljene u ordinaciji. Mašinsko učenje ne može da razumiju: njegovi algoritmi samo identifikuju obrasce u brojevima, a ako podaci nisu reprezentativni, bit će i rezultat njihove obrade. A otkrivanje takvih grešaka može biti teško zbog same mehanike mašinskog učenja.
  • Najočigledniji i najzastrašujući problem je ljudska raznolikost. Postoji mnogo razloga zašto podaci o ljudima mogu izgubiti objektivnost čak iu fazi prikupljanja. Ali nemojte misliti da ovaj problem pogađa samo ljude: potpuno iste poteškoće nastaju kada pokušavate otkriti poplavu u skladištu ili neispravnu plinsku turbinu. Neki sistemi mogu biti pristrasni prema boji kože, drugi će biti pristrasni prema Siemens senzorima.
  • Takvi problemi nisu novi za mašinsko učenje i daleko od toga da su jedinstveni za njega. U bilo kojoj složenoj strukturi se prave pogrešne pretpostavke i uvijek je teško razumjeti zašto je određena odluka donesena. Moramo se boriti protiv ovoga na sveobuhvatan način: kreirati alate i procese za verifikaciju - i educirati korisnike kako ne bi slijepo slijedili preporuke AI. Mašinsko učenje radi neke stvari mnogo bolje od nas – ali psi su, na primjer, mnogo efikasniji od ljudi u otkrivanju droge, što nije razlog da ih koristimo kao svjedoke i donosimo presude na osnovu njihovog svjedočenja. A psi su, inače, mnogo pametniji od bilo kog sistema mašinskog učenja.

Mašinsko učenje je jedan od najvažnijih fundamentalnih tehnoloških trendova današnjice. Ovo je jedan od glavnih načina na koji će tehnologija promijeniti svijet oko nas u narednoj deceniji. Neki aspekti ovih promjena su razlog za zabrinutost. Na primjer, potencijalni utjecaj strojnog učenja na tržište rada ili njegovo korištenje u neetičke svrhe (na primjer, od strane autoritarnih režima). Postoji još jedan problem koji ovaj post rješava: pristrasnost veštačke inteligencije.

Ovo nije laka priča.

O pristrasnosti umjetne inteligencije
Google AI može pronaći mačke. Ova vijest iz 2012. je tada bila nešto posebno.

Šta je “AI Bias”?

“Sirovi podaci” su i oksimoron i loša ideja; podaci moraju biti dobro i pažljivo pripremljeni. — Geoffrey Boker

Negdje prije 2013. godine, da biste napravili sistem koji, recimo, prepoznaje mačke na fotografijama, morali ste opisati logične korake. Kako pronaći uglove na slici, prepoznati oči, analizirati teksture za krzno, prebrojati šape i tako dalje. Zatim spojite sve komponente i otkrijte da to zapravo ne radi. Slično kao mehanički konj - teoretski se može napraviti, ali u praksi je previše složen za opisivanje. Krajnji rezultat su stotine (ili čak hiljade) rukopisnih pravila. I ni jedan radni model.

Sa pojavom mašinskog učenja, prestali smo koristiti "ručna" pravila za prepoznavanje određenog objekta. Umjesto toga, uzimamo hiljadu uzoraka "ovo", X, hiljadu uzoraka "drugo", Y, i dajemo kompjuteru da napravi model na osnovu njihove statističke analize. Zatim ovom modelu dajemo neke uzorke podataka i on sa određenom preciznošću određuje da li odgovara jednom od skupova. Mašinsko učenje generiše model na osnovu podataka, a ne od čoveka koji ga piše. Rezultati su impresivni, posebno u području prepoznavanja slika i uzoraka, i zato se cijela tehnološka industrija sada seli na strojno učenje (ML).

Ali to nije tako jednostavno. U stvarnom svijetu, vaše hiljade primjera X ili Y također sadrže A, B, J, L, O, R, pa čak i L. Oni možda neće biti ravnomjerno raspoređeni, a neki se mogu pojaviti tako često da će sistem platiti više obratite pažnju na njih nego na predmete koji vas zanimaju.

Šta to znači u praksi? Moj omiljeni primjer je sistem za prepoznavanje slika pogledaj travnato brdo i reci "ovca". Jasno je zašto: većina primjera fotografija "ovca" snimljena je na livadama na kojima žive, a na ovim slikama trava zauzima mnogo više prostora od malih bijelih pahuljica, a sistem smatra da je ona najvažnija. .

Ima ozbiljnijih primjera. Jedna skorašnja nacrt za otkrivanje raka kože na fotografijama. Pokazalo se da dermatolozi često fotografišu vladar zajedno s manifestacijama raka kože kako bi zabilježili veličinu formacija. Na primjerima fotografija zdrave kože nema ravnala. Za AI sistem, takvi lenjiri (tačnije, pikseli koje definišemo kao „lenjir“) postali su jedna od razlika između skupova primera, a ponekad i važniji od malog osipa na koži. Dakle, sistem stvoren za identifikaciju raka kože ponekad umjesto toga prepoznaje vladare.

Ključna stvar je da sistem nema semantičko razumijevanje onoga što gleda. Gledamo skup piksela i vidimo u njima ovcu, kožu ili lenjire, ali sistem je samo brojevna prava. Ona ne vidi trodimenzionalni prostor, ne vidi objekte, teksture ili ovce. Ona jednostavno vidi obrasce u podacima.

Poteškoća u dijagnosticiranju takvih problema je u tome što se neuronska mreža (model koji generiše vaš sistem mašinskog učenja) sastoji od hiljada stotina hiljada čvorova. Ne postoji jednostavan način da pogledate model i vidite kako donosi odluku. Posjedovanje takvog načina značilo bi da je proces dovoljno jednostavan da se sva pravila opisuju ručno, bez korištenja strojnog učenja. Ljudi se brinu da je mašinsko učenje postalo nešto poput crne kutije. (Malo kasnije ću objasniti zašto je ovo poređenje još uvijek previše.)

Ovo je, uopšteno govoreći, problem pristranosti u veštačkoj inteligenciji ili mašinskom učenju: sistem za pronalaženje obrazaca u podacima može pronaći pogrešne obrasce, a vi to možda nećete primetiti. Ovo je temeljna karakteristika tehnologije i očigledna je svima koji s njom rade u akademskim krugovima i velikim tehnološkim kompanijama. Ali njegove posljedice su složene, kao i naša moguća rješenja za te posljedice.

Razgovarajmo prvo o posljedicama.

O pristrasnosti umjetne inteligencije
AI može, implicitno za nas, napraviti izbor u korist određenih kategorija ljudi, na osnovu velikog broja neprimjetnih signala

Scenariji AI pristranosti

Najočiglednije i zastrašujuće, ovaj problem se može manifestovati kada je u pitanju ljudska različitost. Nedavno bilo je glasinada je Amazon pokušao da izgradi sistem mašinskog učenja za početno ispitivanje kandidata za posao. Budući da među radnicima Amazona ima više muškaraca, primjeri “uspješnog zapošljavanja” su i češće muškarci, a bilo je više muškaraca u odabiru životopisa koje je sistem predložio. Amazon je to primijetio i nije pustio sistem u proizvodnju.

Najvažnija stvar u ovom primjeru je da se pričalo da sistem favorizuje muške kandidate, uprkos činjenici da pol nije naveden u životopisu. Sistem je uočio i druge obrasce u primjerima "dobrog zapošljavanja": na primjer, žene mogu koristiti posebne riječi za opis postignuća ili imaju posebne hobije. Naravno, sistem nije znao ni šta je „hokej“, ni ko su „ljudi“, ni šta je „uspeh“ – jednostavno je izvršio statističku analizu teksta. Ali obrasci koje je vidjela ljudi bi najvjerovatnije ostali neprimijećeni, a neke od njih (na primjer, činjenicu da ljudi različitog spola različito opisuju uspjeh) bi nam vjerojatno bilo teško vidjeti čak i kada bismo ih pogledali.

Dalje - gore. Sistem mašinskog učenja koji je veoma dobar u pronalaženju raka na bledoj koži možda neće biti tako dobar na tamnoj koži, ili obrnuto. Ne nužno zbog pristranosti, već zato što vjerojatno trebate napraviti poseban model za drugu boju kože, birajući različite karakteristike. Sistemi mašinskog učenja nisu zamenljivi čak ni u tako uskoj oblasti kao što je prepoznavanje slika. Morate podesiti sistem, ponekad samo putem pokušaja i grešaka, kako biste dobro upravljali funkcijama u podacima koji vas zanimaju dok ne postignete željenu tačnost. Ali ono što možda nećete primijetiti je da je sistem tačan 98% vremena za jednu grupu, a samo 91% (čak tačnije od ljudske analize) za drugu.

Do sada sam uglavnom koristio primjere koji se odnose na ljude i njihove karakteristike. Diskusija oko ovog problema uglavnom se fokusira na ovu temu. Ali važno je shvatiti da je pristrasnost prema ljudima samo dio problema. Koristit ćemo strojno učenje za mnoge stvari, a greška uzorkovanja bit će relevantna za sve njih. S druge strane, ako radite s ljudima, pristrasnost u podacima možda nije povezana s njima.

Da bismo ovo razumjeli, vratimo se na primjer raka kože i razmotrimo tri hipotetičke mogućnosti za otkaz sistema.

  1. Heterogena distribucija ljudi: neuravnotežen broj fotografija različitih nijansi kože, što dovodi do lažno pozitivnih ili lažno negativnih zbog pigmentacije.
  2. Podaci na kojima je sistem obučen sadrže čestu i heterogeno raspoređenu karakteristiku koja nije povezana s ljudima i nema dijagnostičku vrijednost: lenjir na fotografijama raka kože ili trava na fotografijama ovaca. U ovom slučaju, rezultat će biti drugačiji ako sistem pronađe piksele na slici nečega što ljudsko oko identificira kao „vladar“.
  3. Podaci sadrže karakteristiku treće strane koju osoba ne može vidjeti čak i ako je traži.

Šta to znači? A priori znamo da podaci mogu različito predstavljati različite grupe ljudi, a u najmanju ruku možemo planirati da tražimo takve izuzetke. Drugim riječima, postoji mnogo društvenih razloga za pretpostavku da podaci o grupama ljudi već sadrže određenu pristrasnost. Ako pogledamo fotografiju sa lenjirom, videćemo ovaj lenjir – jednostavno smo ga ranije ignorisali, znajući da to nije bitno, a zaboravljajući da sistem ništa ne zna.

Ali šta ako su sve vaše fotografije nezdrave kože snimljene u kancelariji pod žarnom niti, a vaša zdrava koža pod fluorescentnim svjetlom? Šta ako, nakon što završite snimanje zdrave kože, prije snimanja nezdrave kože, ažurirate operativni sistem na svom telefonu, a Apple ili Google malo izmijene algoritam za smanjenje šuma? Čovjek to ne može primijetiti, ma koliko tražio takve osobine. Ali sistem upotrebe mašina će to odmah videti i koristiti. Ona ne zna ništa.

Do sada smo govorili o lažnim korelacijama, ali takođe može biti da su podaci tačni i rezultati tačni, ali ne želite da ih koristite iz etičkih, pravnih ili upravljačkih razloga. Neke jurisdikcije, na primjer, ne dozvoljavaju ženama da ostvare popust na osiguranje, iako su žene možda sigurniji vozači. Lako možemo zamisliti sistem koji bi pri analizi istorijskih podataka dodijelio niži faktor rizika ženskim imenima. U redu, hajde da uklonimo imena iz selekcije. Ali zapamtite primjer Amazona: sistem može odrediti spol na osnovu drugih faktora (iako ne zna koji je spol, pa čak ni šta je automobil), a vi to nećete primijetiti dok regulator retroaktivno ne analizira vaše tarife ponuditi i naplatiti ćete biti kažnjeni.

Konačno, često se pretpostavlja da ćemo takve sisteme koristiti samo za projekte koji uključuju ljude i društvene interakcije. Ovo je pogrešno. Ako pravite plinske turbine, vjerojatno ćete htjeti primijeniti mašinsko učenje na telemetriju koju prenose desetine ili stotine senzora na vašem proizvodu (audio, video, temperaturni i bilo koji drugi senzori generiraju podatke koji se mogu vrlo lako prilagoditi za stvaranje mašine model učenja). Hipotetički, mogli biste reći: „Evo podataka od hiljadu turbina koje su otkazale prije nego što su otkazale, a evo podataka od hiljadu turbina koje nisu otkazale. Izgradite model da vidite koja je razlika između njih.” E, sad zamislite da su Siemens senzori ugrađeni na 75% loših turbina, a samo na 12% dobrih (nema veze sa kvarovima). Sistem će izgraditi model za pronalaženje turbina sa Siemens senzorima. Ups!

O pristrasnosti umjetne inteligencije
Slika — Moritz Hardt, UC Berkeley

Upravljanje AI pristrasnošću

Šta možemo učiniti povodom toga? Problemu možete pristupiti iz tri ugla:

  1. Metodološka strogost u prikupljanju i upravljanju podacima za obuku sistema.
  2. Tehnički alati za analizu i dijagnosticiranje ponašanja modela.
  3. Trenirajte, obrazujte i budite pažljivi kada implementirate mašinsko učenje u proizvode.

U Molijerovoj knjizi „Buržuj u plemstvu“ postoji vic: jednom čoveku je rečeno da se književnost deli na prozu i poeziju, i on se obradovao kada je otkrio da je celog života govorio u prozi, a da to nije znao. Tako se vjerovatno danas osjećaju statističari: a da toga nisu svjesni, svoju karijeru su posvetili vještačkoj inteligenciji i grešci uzorkovanja. Traženje greške uzorkovanja i briga oko toga nije nov problem, samo treba sistematski pristupiti njegovom rješavanju. Kao što je gore spomenuto, u nekim slučajevima je to zapravo lakše učiniti proučavanjem problema vezanih za podatke o ljudima. A priori pretpostavljamo da možemo imati predrasude prema različitim grupama ljudi, ali teško nam je i zamisliti predrasude o Siemens senzorima.

Ono što je novo u svemu ovome, naravno, jeste da ljudi više ne rade statističke analize direktno. Izvode ga mašine koje stvaraju velike, složene modele koje je teško razumjeti. Pitanje transparentnosti je jedan od glavnih aspekata problema pristrasnosti. Bojimo se da sistem nije samo pristrasan, već da ne postoji način da se otkrije njegova pristrasnost i da se mašinsko učenje razlikuje od drugih oblika automatizacije, koji bi se trebali sastojati od jasnih logičkih koraka koji se mogu testirati.

Ovdje postoje dva problema. Možda ćemo još uvijek moći provesti neku vrstu revizije sistema mašinskog učenja. A revizija bilo kojeg drugog sistema zapravo nije lakša.

Prvo, jedan od pravaca savremenih istraživanja u oblasti mašinskog učenja je potraga za metodama za identifikaciju važne funkcionalnosti sistema mašinskog učenja. Međutim, mašinsko učenje (u svom trenutnom stanju) je potpuno nova oblast nauke koja se brzo menja, pa nemojte misliti da stvari koje su danas nemoguće ne mogu uskoro postati sasvim stvarne. Projekt OpenAI - zanimljiv primjer ovoga.

Drugo, ideja da se može testirati i razumjeti proces donošenja odluka postojećih sistema ili organizacija je dobra u teoriji, ali tako i u praksi. Razumevanje načina na koji se donose odluke u velikoj organizaciji nije lako. Čak i ako postoji formalni proces donošenja odluka, on ne odražava način na koji ljudi zapravo komuniciraju, a oni sami često nemaju logičan, sistematski pristup donošenju svojih odluka. Kao što je rekao moj kolega Vijay Pande, ljudi su takođe crne kutije.

Uzmite hiljadu ljudi u nekoliko kompanija i institucija koje se preklapaju i problem postaje još složeniji. Znamo nakon činjenice da je Space Shuttle bio predodređen da se raspadne po povratku, a pojedinci unutar NASA-e imali su informacije koje su im dale razlog da pomisle da bi se nešto loše moglo dogoditi, ali sistem generalno Nisam znao ovo. NASA je čak prošla sličnu reviziju nakon što je izgubila svoj prethodni šatl, a ipak je izgubila još jedan iz vrlo sličnog razloga. Lako je tvrditi da organizacije i ljudi slijede jasna, logična pravila koja se mogu testirati, razumjeti i promijeniti – ali iskustvo dokazuje suprotno. Ovo "Gosplanova zabluda".

Često upoređujem mašinsko učenje sa bazama podataka, posebno relacionim – novom fundamentalnom tehnologijom koja je promenila mogućnosti informatike i sveta oko nje, koja je postala deo svega, a koju neprestano koristimo, a da toga nismo ni svesni. Baze podataka također imaju problema, i oni su slične prirode: sistem može biti izgrađen na lošim pretpostavkama ili lošim podacima, ali će to biti teško primijetiti, a ljudi koji koriste sistem radit će ono što im on kaže bez postavljanja pitanja. Postoji mnogo starih viceva o poreznicima koji su nekada pogrešno napisali vaše ime, a uvjeriti ih da isprave grešku mnogo je teže nego stvarno promijeniti vaše ime. Postoji mnogo načina da se razmišlja o tome, ali nije jasno šta je bolje: kao tehnički problem u SQL-u, ili kao greška u izdanju Oraclea, ili kao neuspjeh birokratskih institucija? Koliko je teško pronaći grešku u procesu koji je doveo do toga da sistem nema funkciju ispravljanja greške u kucanju? Da li se ovo moglo otkriti prije nego što su se ljudi počeli žaliti?

Ovaj problem još jednostavnije ilustruju priče kada vozači voze u rijeke zbog zastarjelih podataka u navigatoru. U redu, karte se moraju stalno ažurirati. Ali koliko je TomTom kriv za to što je vaš automobil odnio u more?

Razlog zašto ovo kažem je taj da će pristrasnost mašinskog učenja stvoriti probleme. Ali ovi problemi će biti slični onima s kojima smo se suočavali u prošlosti, i mogu se primijetiti i riješiti (ili ne) jednako dobro kao što smo to mogli u prošlosti. Prema tome, malo je vjerovatno da će se dogoditi scenarij u kojem AI pristrasnost uzrokuje štetu starijim istraživačima koji rade u velikoj organizaciji. Najvjerovatnije će neki beznačajni tehnološki izvođač ili prodavač softvera napisati nešto na koljenima, koristeći komponente otvorenog koda, biblioteke i alate koje ne razumiju. A nesretni klijent će kupiti frazu "umjetna inteligencija" u opisu proizvoda i, bez ikakvih pitanja, distribuirati je svojim slabo plaćenim zaposlenicima, naređujući im da rade ono što AI kaže. Upravo to se dogodilo sa bazama podataka. Ovo nije problem umjetne inteligencije, pa čak ni softverski problem. Ovo je ljudski faktor.

zaključak

Mašinsko učenje može učiniti sve što možete naučiti psa - ali nikada ne možete biti sigurni šta ste tačno naučili psa.

Često se osjećam kao da termin "vještačka inteligencija" samo ometa ovakve razgovore. Ovaj izraz ostavlja lažan utisak da smo ga mi zapravo stvorili - tu inteligenciju. Da smo na putu za HAL9000 ili Skynet - nešto što je zapravo razume. Ali ne. Ovo su samo mašine i mnogo je tačnije uporediti ih sa, recimo, veš mašinom. Ona pere veš mnogo bolje od čoveka, ali ako stavite sudove u nju umesto veša, ona... će ih oprati. Posuđe će čak postati čisto. Ali ovo neće biti ono što ste očekivali, a to se neće dogoditi jer sistem ima bilo kakve predrasude u pogledu posuđa. Mašina za pranje veša ne zna šta je suđe ili šta je odeća - to je samo primer automatizacije, konceptualno ne razlikuje od načina na koji su procesi automatizovani ranije.

Bilo da govorimo o automobilima, avionima ili bazama podataka, ovi sistemi će biti i vrlo moćni i vrlo ograničeni. Oni će u potpunosti zavisiti od toga kako ljudi koriste ove sisteme, da li su njihove namere dobre ili loše i koliko razumeju kako oni rade.

Stoga je potpuno pogrešno reći da je “vještačka inteligencija matematika, pa ne može imati predrasude”. Ali jednako je pogrešno reći da je mašinsko učenje „subjektivne prirode“. Mašinsko učenje pronalazi obrasce u podacima, a koje će obrasce pronaći ovisi o podacima, a podaci o nama. Baš kao što radimo s njima. Mašinsko učenje radi neke stvari mnogo bolje od nas – ali psi su, na primjer, mnogo efikasniji od ljudi u otkrivanju droge, što nije razlog da ih koristimo kao svjedoke i donosimo presude na osnovu njihovog svjedočenja. A psi su, inače, mnogo pametniji od bilo kog sistema mašinskog učenja.

Prevod: Diana Letskaya.
Uređivanje: Aleksej Ivanov.
Zajednica: @PonchikNews.

izvor: www.habr.com

Dodajte komentar