Om Artificial Intelligence Bias

Om Artificial Intelligence Bias

tl; dr:

  • Maskinlæring ser etter mønstre i data. Men kunstig intelligens kan være «biased» – det vil si finne mønstre som er feil. For eksempel kan et fotobasert hudkreftdeteksjonssystem være spesielt oppmerksom på bilder tatt på et legekontor. Maskinlæring kan ikke å forstå: Algoritmene identifiserer bare mønstre i tall, og hvis dataene ikke er representative, vil resultatet av behandlingen også gjøre det. Og å fange slike feil kan være vanskelig på grunn av selve mekanikken til maskinlæring.
  • Det mest åpenbare og skremmende problemområdet er menneskelig mangfold. Det er mange grunner til at data om personer kan miste objektivitet selv på innsamlingsstadiet. Men ikke tro at dette problemet bare påvirker mennesker: nøyaktig de samme vanskelighetene oppstår når du prøver å oppdage en flom i et lager eller en mislykket gassturbin. Noen systemer kan være partisk mot hudfarge, andre vil være partisk mot Siemens-sensorer.
  • Slike problemer er ikke nye for maskinlæring, og de er langt fra unike for den. Det gjøres feil antagelser i enhver kompleks struktur, og det er alltid vanskelig å forstå hvorfor en bestemt beslutning ble tatt. Vi må bekjempe dette på en omfattende måte: lage verktøy og prosesser for verifisering – og utdanne brukere slik at de ikke blindt følger AI-anbefalingene. Maskinlæring gjør enkelte ting mye bedre enn vi kan - men hunder, for eksempel, er mye mer effektive enn mennesker til å oppdage narkotika, noe som ikke er en grunn til å bruke dem som vitner og avgjøre vurderinger basert på deres vitnesbyrd. Og hunder er forresten mye smartere enn noe maskinlæringssystem.

Maskinlæring er en av de viktigste grunnleggende teknologitrendene i dag. Dette er en av de viktigste måtene teknologien vil forandre verden rundt oss i det neste tiåret. Noen aspekter ved disse endringene er grunn til bekymring. For eksempel den potensielle effekten av maskinlæring på arbeidsmarkedet, eller bruken av den til uetiske formål (for eksempel av autoritære regimer). Det er et annet problem som dette innlegget adresserer: kunstig intelligens skjevhet.

Dette er ingen lett historie.

Om Artificial Intelligence Bias
Googles AI kan finne katter. Denne nyheten fra 2012 var noe spesielt den gang.

Hva er "AI Bias"?

"Rådata" er både en oksymoron og en dårlig idé; data må utarbeides godt og nøye. — Geoffrey Boker

Et sted før 2013, for å lage et system som for eksempel gjenkjenner katter på fotografier, måtte du beskrive logiske trinn. Hvordan finne hjørner i et bilde, gjenkjenne øyne, analysere teksturer for pels, telle poter og så videre. Sett deretter alle komponentene sammen og oppdage at det egentlig ikke fungerer. Omtrent som en mekanisk hest - teoretisk kan den lages, men i praksis er den for kompleks til å beskrive. Sluttresultatet er hundrevis (eller til og med tusenvis) av håndskrevne regler. Og ikke en eneste arbeidsmodell.

Med bruken av maskinlæring, sluttet vi å bruke "manuelle" regler for å gjenkjenne et bestemt objekt. I stedet tar vi tusen prøver av "dette", X, tusen prøver av "annet", Y, og lar datamaskinen bygge en modell basert på deres statistiske analyse. Vi gir deretter denne modellen noen prøvedata og den avgjør med en viss presisjon om den passer til et av settene. Maskinlæring genererer en modell fra data i stedet for fra et menneske som skriver den. Resultatene er imponerende, spesielt innen bilde- og mønstergjenkjenning, og det er derfor hele teknologibransjen nå går over til maskinlæring (ML).

Men det er ikke så enkelt. I den virkelige verden inneholder dine tusenvis av eksempler på X eller Y også A, B, J, L, O, R og til og med L. Disse er kanskje ikke jevnt fordelt, og noen kan forekomme så ofte at systemet vil betale mer oppmerksomhet til dem enn til gjenstander som interesserer deg.

Hva betyr dette i praksis? Mitt favoritteksempel er når bildegjenkjenningssystemer se på en gressbakke og si "sau". Det er tydelig hvorfor: de fleste eksempelfotografier av "sauer" er tatt i engene der de bor, og på disse bildene tar gresset mye mer plass enn de små hvite dunene, og det er gresset systemet anser som viktigst .

Det finnes mer alvorlige eksempler. En nylig prosjekt for å oppdage hudkreft i fotografier. Det viste seg at hudleger ofte fotograferer linjalen sammen med manifestasjoner av hudkreft for å registrere størrelsen på formasjonene. Det er ingen linjaler i eksempelfotografiene av sunn hud. For et AI-system har slike linjaler (mer presist pikslene som vi definerer som en "linjal") blitt en av forskjellene mellom sett med eksempler, og noen ganger viktigere enn et lite utslett på huden. Så et system laget for å identifisere hudkreft anerkjente noen ganger herskere i stedet.

Det sentrale her er at systemet ikke har noen semantisk forståelse av hva det ser på. Vi ser på et sett med piksler og ser i dem en sau, skinn eller linjaler, men systemet er bare en talllinje. Hun ser ikke tredimensjonalt rom, ser ikke gjenstander, teksturer eller sauer. Hun ser rett og slett mønstre i dataene.

Vanskeligheten med å diagnostisere slike problemer er at det nevrale nettverket (modellen som genereres av ditt maskinlæringssystem) består av tusenvis av hundretusenvis av noder. Det er ingen enkel måte å se på en modell og se hvordan den tar en avgjørelse. Å ha en slik måte vil bety at prosessen er enkel nok til å beskrive alle reglene manuelt, uten å bruke maskinlæring. Folk bekymrer seg for at maskinlæring har blitt noe av en svart boks. (Jeg skal forklare litt senere hvorfor denne sammenligningen fortsatt er for mye.)

Dette er, generelt sett, problemet med skjevhet i kunstig intelligens eller maskinlæring: et system for å finne mønstre i data kan finne feil mønstre, og du legger kanskje ikke merke til det. Dette er en grunnleggende egenskap ved teknologien, og den er åpenbar for alle som jobber med den i akademia og hos store teknologiselskaper. Men konsekvensene er komplekse, og det samme er våre mulige løsninger på disse konsekvensene.

La oss snakke om konsekvensene først.

Om Artificial Intelligence Bias
AI kan, implisitt for oss, ta et valg til fordel for visse kategorier av mennesker, basert på et stort antall umerkelige signaler

AI Bias Scenarier

Mest åpenbart og skremmende kan dette problemet manifestere seg når det kommer til menneskelig mangfold. Nylig det gikk et rykteat Amazon prøvde å bygge et maskinlæringssystem for innledende screening av jobbkandidater. Siden det er flere menn blant Amazon-arbeidere, er eksempler på "vellykket ansettelse" også oftere menn, og det var flere menn i utvalget av CV foreslått av systemet. Amazon la merke til dette og slapp ikke systemet i produksjon.

Det viktigste i dette eksemplet er at systemet ryktes å favorisere mannlige søkere, til tross for at kjønn ikke var spesifisert på CV-en. Systemet så andre mønstre i eksempler på "gode ansettelser": for eksempel kan kvinner bruke spesielle ord for å beskrive prestasjoner, eller ha spesielle hobbyer. Selvfølgelig visste ikke systemet hva "hockey" var, eller hvem "folk" var, eller hva "suksess" var - det utførte ganske enkelt en statistisk analyse av teksten. Men mønstrene hun så ville mest sannsynlig forbli ubemerket av mennesker, og noen av dem (for eksempel det faktum at mennesker av ulike kjønn beskriver suksess forskjellig) ville nok vært vanskelig for oss å se selv om vi så på dem.

Videre - verre. Et maskinlæringssystem som er veldig flinke til å finne kreft på blek hud, fungerer kanskje ikke like godt på mørk hud, eller omvendt. Ikke nødvendigvis på grunn av skjevhet, men fordi du sannsynligvis må bygge en egen modell for en annen hudfarge, og velge forskjellige egenskaper. Maskinlæringssystemer er ikke utskiftbare selv i et så smalt område som bildegjenkjenning. Du må finpusse systemet, noen ganger bare gjennom prøving og feiling, for å få god kontroll på funksjonene i dataene du er interessert i til du oppnår nøyaktigheten du ønsker. Men det du kanskje ikke legger merke til er at systemet er nøyaktig 98 % av tiden med en gruppe, og bare 91 % (enda mer nøyaktig enn menneskelig analyse) med den andre.

Så langt har jeg hovedsakelig brukt eksempler knyttet til mennesker og deres egenskaper. Diskusjonen rundt dette problemet fokuserer hovedsakelig på dette temaet. Men det er viktig å forstå at skjevhet mot mennesker bare er en del av problemet. Vi kommer til å bruke maskinlæring til mange ting, og prøvetakingsfeil vil være relevant for dem alle. På den annen side, hvis du jobber med mennesker, kan skjevheten i dataene ikke være relatert til dem.

For å forstå dette, la oss gå tilbake til hudkrefteksemplet og vurdere tre hypotetiske muligheter for systemsvikt.

  1. Heterogen fordeling av mennesker: et ubalansert antall fotografier av forskjellige hudtoner, som fører til falske positive eller falske negativer på grunn av pigmentering.
  2. Dataene som systemet er trent på inneholder en hyppig forekommende og heterogent distribuert funksjon som ikke er assosiert med mennesker og som ikke har noen diagnostisk verdi: en linjal i fotografier av hudkreft eller gress i fotografier av sau. I dette tilfellet vil resultatet bli annerledes hvis systemet finner piksler i bildet av noe som det menneskelige øyet identifiserer som en "linjal".
  3. Dataene inneholder en tredjepartskarakteristikk som en person ikke kan se selv om han ser etter den.

Hva betyr det? Vi vet på forhånd at data kan representere ulike grupper mennesker forskjellig, og vi kan i det minste planlegge å se etter slike unntak. Det er med andre ord mange sosiale grunner til å anta at data om grupper av mennesker allerede inneholder en viss skjevhet. Hvis vi ser på bildet med linjalen, vil vi se denne linjalen - vi ignorerte den rett og slett før, vel vitende om at det ikke betyr noe, og glemmer at systemet ikke vet noe.

Men hva om alle bildene dine av usunn hud ble tatt på et kontor under glødelys, og den sunne huden din ble tatt under fluorescerende lys? Hva om du, etter at du var ferdig med å fotografere sunn hud, før du fotograferte usunn hud, oppdaterte operativsystemet på telefonen din, og Apple eller Google endret støyreduksjonsalgoritmen litt? En person kan ikke legge merke til dette, uansett hvor mye han ser etter slike funksjoner. Men maskinbrukssystemet vil umiddelbart se og bruke dette. Hun vet ingenting.

Så langt har vi snakket om falske korrelasjoner, men det kan også være at dataene er nøyaktige og resultatene er korrekte, men du vil ikke bruke dem av etiske, juridiske eller ledelsesmessige årsaker. Noen jurisdiksjoner, for eksempel, tillater ikke kvinner å få rabatt på forsikringen, selv om kvinner kan være tryggere sjåfører. Vi kan lett forestille oss et system som, når vi analyserer historiske data, vil gi kvinnenavn en lavere risikofaktor. Ok, la oss fjerne navn fra utvalget. Men husk Amazon-eksemplet: systemet kan bestemme kjønn basert på andre faktorer (selv om det ikke vet hva kjønn er, eller til og med hva en bil er), og du vil ikke legge merke til dette før regulatoren med tilbakevirkende kraft analyserer tariffene du tilbud og belaster deg vil du bli bøtelagt.

Til slutt er det ofte antatt at vi kun vil bruke slike systemer til prosjekter som involverer mennesker og sosiale interaksjoner. Dette er feil. Hvis du lager gassturbiner, vil du sannsynligvis bruke maskinlæring på telemetrien som overføres av titalls eller hundrevis av sensorer på produktet ditt (lyd, video, temperatur og andre sensorer genererer data som veldig enkelt kan tilpasses for å lage en maskin læringsmodell). Hypotetisk kan du si: «Her er data fra tusen turbiner som sviktet før de sviktet, og her er data fra tusen turbiner som ikke sviktet. Bygg en modell for å fortelle hva forskjellen er mellom dem.» Vel, se for deg at Siemens-sensorer er installert på 75 % av dårlige turbiner, og bare 12 % av de gode (det er ingen sammenheng med feil). Systemet skal bygge en modell for å finne turbiner med Siemens-sensorer. Oops!

Om Artificial Intelligence Bias
Bilde — Moritz Hardt, UC Berkeley

Administrere AI Bias

Hva kan vi gjøre med det? Du kan nærme deg problemet fra tre vinkler:

  1. Metodisk strenghet ved innsamling og håndtering av data for opplæring av systemet.
  2. Tekniske verktøy for å analysere og diagnostisere modellatferd.
  3. Tren, utdann og vær forsiktig når du implementerer maskinlæring i produkter.

Det er en vits i Molières bok «The Bourgeois in the Nobility»: En mann ble fortalt at litteraturen er delt inn i prosa og poesi, og han var henrykt over å oppdage at han hadde talt i prosa hele livet, uten å vite det. Det er sannsynligvis slik statistikere føler i dag: uten å være klar over det, har de viet karrieren til kunstig intelligens og prøvetakingsfeil. Å se etter prøvetakingsfeil og bekymre deg for det er ikke et nytt problem, vi trenger bare å systematisk nærme oss løsningen. Som nevnt ovenfor er det i noen tilfeller faktisk lettere å gjøre dette ved å studere problemer knyttet til persondata. Vi antar på forhånd at vi kan ha fordommer angående ulike grupper mennesker, men det er vanskelig for oss å forestille oss en fordom om Siemens-sensorer.

Det som er nytt med alt dette, er selvfølgelig at folk ikke lenger gjør statistisk analyse direkte. Det utføres av maskiner som lager store, komplekse modeller som er vanskelige å forstå. Spørsmålet om åpenhet er en av hovedaspektene ved problemet med skjevhet. Vi frykter at systemet ikke bare er partisk, men at det ikke er noen måte å oppdage dets skjevhet, og at maskinlæring er forskjellig fra andre former for automatisering, som skal bestå av klare logiske trinn som kan testes.

Det er to problemer her. Vi kan fortsatt være i stand til å gjennomføre en slags revisjon av maskinlæringssystemer. Og å revidere et hvilket som helst annet system er faktisk ikke enklere.

For det første er en av retningene til moderne forskning innen maskinlæring søket etter metoder for å identifisere viktig funksjonalitet til maskinlæringssystemer. Når det er sagt, er maskinlæring (i sin nåværende tilstand) et helt nytt vitenskapsfelt som endrer seg raskt, så ikke tro at ting som er umulige i dag ikke snart kan bli helt reelle. Prosjekt OpenAI - et interessant eksempel på dette.

For det andre er ideen om at du kan teste og forstå beslutningsprosessen til eksisterende systemer eller organisasjoner god i teorien, men så som så i praksis. Det er ikke lett å forstå hvordan beslutninger tas i en stor organisasjon. Selv om det er en formell beslutningsprosess, gjenspeiler den ikke hvordan mennesker faktisk samhandler, og de selv har ofte ikke en logisk, systematisk tilnærming til å ta sine beslutninger. Som min kollega sa Vijay Pande, mennesker er også svarte bokser.

Ta tusen mennesker i flere overlappende bedrifter og institusjoner, og problemet blir enda mer komplekst. Vi vet etter det faktum at romfergen var bestemt til å gå i stykker ved retur, og enkeltpersoner innen NASA hadde informasjon som ga dem grunn til å tro at noe ille kan skje, men systemet som regel Jeg visste ikke dette. NASA gikk til og med nettopp gjennom en lignende revisjon etter å ha mistet sin forrige skyttel, og likevel mistet den en annen av en veldig lignende grunn. Det er lett å argumentere for at organisasjoner og mennesker følger klare, logiske regler som kan testes, forstås og endres – men erfaring viser det motsatte. denne "Gosplans vrangforestilling'.

Jeg sammenligner ofte maskinlæring med databaser, spesielt relasjonsbaserte – en ny grunnleggende teknologi som har endret mulighetene til informatikk og verden rundt den, som har blitt en del av alt, som vi bruker konstant uten å være klar over det. Databaser har også problemer, og de er av lignende karakter: Systemet kan være bygget på dårlige forutsetninger eller dårlige data, men det vil være vanskelig å legge merke til, og personene som bruker systemet vil gjøre det det forteller dem uten å stille spørsmål. Det er mange gamle vitser om skattefolk som en gang har stavet navnet ditt feil, og å overbevise dem om å rette feilen er mye vanskeligere enn å faktisk endre navnet ditt. Det er mange måter å tenke på dette på, men det er ikke klart hvilken som er bedre: som et teknisk problem i SQL, eller som en feil i en Oracle-utgivelse, eller som en svikt i byråkratiske institusjoner? Hvor vanskelig er det å finne en feil i en prosess som har ført til at systemet ikke har en funksjon for skrivefeilretting? Kunne dette vært funnet ut før folk begynte å klage?

Dette problemet illustreres enda enklere av historier når sjåfører kjører inn i elver på grunn av utdaterte data i navigatoren. Ok, kart må oppdateres kontinuerlig. Men hvor mye har TomTom skylden for at bilen din ble blåst ut på havet?

Grunnen til at jeg sier dette er at ja, maskinlæringsskjevhet vil skape problemer. Men disse problemene vil ligne på de vi har møtt tidligere, og de kan legges merke til og løses (eller ikke) omtrent like godt som vi var i stand til tidligere. Derfor er det usannsynlig at et scenario der AI-bias forårsaker skade vil skje med seniorforskere som jobber i en stor organisasjon. Mest sannsynlig vil en ubetydelig teknologientreprenør eller programvareleverandør skrive noe på knærne ved å bruke åpen kildekode-komponenter, biblioteker og verktøy som de ikke forstår. Og den uheldige klienten vil kjøpe uttrykket "kunstig intelligens" i produktbeskrivelsen og, uten å stille noen spørsmål, distribuere det til sine lavtlønnede ansatte, og beordre dem til å gjøre det AI-en sier. Dette er akkurat det som skjedde med databaser. Dette er ikke et problem med kunstig intelligens, eller til og med et programvareproblem. Dette er den menneskelige faktoren.

Konklusjon

Maskinlæring kan gjøre alt du kan lære en hund – men du kan aldri være sikker på hva akkurat du lærte hunden.

Jeg føler ofte at begrepet "kunstig intelligens" bare kommer i veien for samtaler som dette. Dette begrepet gir et falskt inntrykk av at vi faktisk har skapt det - denne intelligensen. At vi er på vei til HAL9000 eller Skynet – noe som faktisk forstår. Men nei. Dette er bare maskiner, og det er mye mer nøyaktig å sammenligne dem med for eksempel en vaskemaskin. Hun vasker mye bedre enn et menneske, men hvis du putter oppvask i henne i stedet for klesvask, vil hun... vaske dem. Oppvasken vil til og med bli ren. Men dette blir ikke det du forventet, og dette vil ikke skje fordi systemet har noen fordommer angående retter. Vaskemaskinen vet ikke hva oppvask er eller hva klær er - den er bare et eksempel på automatisering, konseptuelt ikke forskjellig fra hvordan prosesser ble automatisert før.

Enten vi snakker om biler, fly eller databaser, vil disse systemene være både svært kraftige og svært begrensede. De vil avhenge helt av hvordan folk bruker disse systemene, om intensjonene deres er gode eller dårlige, og hvor mye de forstår hvordan de fungerer.

Derfor, å si at "kunstig intelligens er matematikk, så det kan ikke ha skjevheter" er helt feil. Men det er like falskt å si at maskinlæring er "subjektiv av natur." Maskinlæring finner mønstre i data, og hvilke mønstre den finner avhenger av dataene, og dataene avhenger av oss. Akkurat som det vi gjør med dem. Maskinlæring gjør enkelte ting mye bedre enn vi kan - men hunder, for eksempel, er mye mer effektive enn mennesker til å oppdage narkotika, noe som ikke er en grunn til å bruke dem som vitner og avgjøre vurderinger basert på deres vitnesbyrd. Og hunder er forresten mye smartere enn noe maskinlæringssystem.

Oversettelse: Diana Letskaya.
Redigering: Aleksey Ivanov.
Samfunnet: @PonchikNews.

Kilde: www.habr.com

Legg til en kommentar