Om Artificial Intelligence Bias

Om Artificial Intelligence Bias

tl; dr:

  • Maskinlæring leder efter mønstre i data. Men kunstig intelligens kan være "biased" - det vil sige finde mønstre, der er forkerte. For eksempel kan et fotobaseret hudkræftdetektionssystem være særlig opmærksom på billeder taget på en læges kontor. Maskinlæring kan ikke at forstå: dens algoritmer identificerer kun mønstre i tal, og hvis dataene ikke er repræsentative, vil resultatet af dens behandling også være. Og det kan være svært at fange sådanne fejl på grund af selve maskinlæringens mekanik.
  • Det mest åbenlyse og skræmmende problemområde er menneskelig mangfoldighed. Der er mange grunde til, at data om personer kan miste objektivitet selv på indsamlingsstadiet. Men tro ikke, at dette problem kun påvirker mennesker: nøjagtig de samme vanskeligheder opstår, når man forsøger at opdage en oversvømmelse i et lager eller en mislykket gasturbine. Nogle systemer kan være præget af hudfarve, andre vil være præget af Siemens-sensorer.
  • Sådanne problemer er ikke nye for maskinlæring, og de er langt fra unikke for det. Forkerte antagelser er lavet i enhver kompleks struktur, og det er altid svært at forstå, hvorfor en bestemt beslutning blev truffet. Det skal vi bekæmpe på en omfattende måde: skabe værktøjer og processer til verifikation – og uddanne brugerne, så de ikke blindt følger AI-anbefalinger. Maskinlæring gør nogle ting meget bedre, end vi kan – men hunde er for eksempel meget mere effektive end mennesker til at opdage stoffer, hvilket ikke er en grund til at bruge dem som vidner og dømme baseret på deres vidnesbyrd. Og hunde er i øvrigt meget smartere end noget maskinlæringssystem.

Maskinlæring er en af ​​de vigtigste grundlæggende teknologitrends i dag. Dette er en af ​​de vigtigste måder, hvorpå teknologi vil ændre verden omkring os i det næste årti. Nogle aspekter af disse ændringer giver anledning til bekymring. For eksempel maskinlæringens potentielle indvirkning på arbejdsmarkedet eller dens anvendelse til uetiske formål (for eksempel af autoritære regimer). Der er et andet problem, som dette indlæg adresserer: kunstig intelligens bias.

Det er ikke en nem historie.

Om Artificial Intelligence Bias
Googles AI kan finde katte. Denne nyhed fra 2012 var noget særligt dengang.

Hvad er "AI Bias"?

"Rå data" er både en oxymoron og en dårlig idé; data skal udarbejdes godt og omhyggeligt. — Geoffrey Boker

Et sted før 2013, for at lave et system, der f.eks. genkender katte på fotografier, skulle man beskrive logiske trin. Sådan finder du hjørner i et billede, genkender øjne, analyserer teksturer for pels, tæller poter og så videre. Sæt derefter alle komponenterne sammen og opdag, at det ikke rigtig virker. Meget ligesom en mekanisk hest - teoretisk kan den laves, men i praksis er den for kompleks til at beskrive. Slutresultatet er hundredvis (eller endda tusindvis) af håndskrevne regler. Og ikke en eneste arbejdsmodel.

Med fremkomsten af ​​maskinlæring holdt vi op med at bruge "manuelle" regler til at genkende et bestemt objekt. I stedet tager vi tusinde prøver af "dette", X, tusinde prøver af "andet", Y, og får computeren til at bygge en model baseret på deres statistiske analyse. Vi giver derefter denne model nogle prøvedata, og den afgør med en vis præcision, om den passer til et af sættene. Maskinlæring genererer en model ud fra data snarere end fra et menneske, der skriver den. Resultaterne er imponerende, især inden for billed- og mønstergenkendelse, og det er derfor, hele tech-industrien nu går over til maskinlæring (ML).

Men det er ikke så enkelt. I den virkelige verden indeholder dine tusindvis af eksempler på X eller Y også A, B, J, L, O, R og endda L. Disse er muligvis ikke jævnt fordelt, og nogle kan forekomme så ofte, at systemet vil betale mere opmærksomhed på dem end på genstande, der interesserer dig.

Hvad betyder det i praksis? Mit foretrukne eksempel er, når billedgenkendelsessystemer kig på en græsklædt bakke og sig "får". Det er tydeligt hvorfor: De fleste af eksemplerne fotografier af "får" er taget på engene, hvor de bor, og på disse billeder fylder græsset meget mere end de små hvide fnug, og det er græsset, som systemet anser for vigtigst .

Der er mere seriøse eksempler. En nylig projekt til påvisning af hudkræft på fotografier. Det viste sig, at dermatologer ofte fotograferer linealen sammen med manifestationerne af hudkræft for at registrere størrelsen af ​​formationerne. Der er ingen linealer i eksempelfotografierne af sund hud. For et AI-system er sådanne linealer (mere præcist de pixels, som vi definerer som en "lineal") blevet en af ​​forskellene mellem sæt eksempler, og nogle gange vigtigere end et lille udslæt på huden. Så et system skabt til at identificere hudkræft anerkendte nogle gange herskere i stedet for.

Det centrale her er, at systemet ikke har nogen semantisk forståelse af, hvad det ser på. Vi ser på et sæt pixels og ser i dem et får, skind eller linealer, men systemet er kun en tallinje. Hun ser ikke tredimensionelt rum, ser ikke genstande, teksturer eller får. Hun ser simpelthen mønstre i dataene.

Vanskeligheden ved at diagnosticere sådanne problemer er, at det neurale netværk (modellen genereret af dit maskinlæringssystem) består af tusindvis af hundredtusindvis af noder. Der er ingen nem måde at se på en model og se, hvordan den træffer en beslutning. At have en sådan måde ville betyde, at processen er enkel nok til at beskrive alle reglerne manuelt, uden at bruge maskinlæring. Folk bekymrer sig om, at maskinlæring er blevet noget af en sort boks. (Jeg vil forklare lidt senere, hvorfor denne sammenligning stadig er for meget.)

Dette er i generelle vendinger problemet med bias i kunstig intelligens eller maskinlæring: et system til at finde mønstre i data kan finde de forkerte mønstre, og du bemærker det måske ikke. Dette er et grundlæggende kendetegn ved teknologien, og det er indlysende for alle, der arbejder med det i den akademiske verden og hos store tech-virksomheder. Men dets konsekvenser er komplekse, og det er vores mulige løsninger på disse konsekvenser også.

Lad os tale om konsekvenserne først.

Om Artificial Intelligence Bias
AI kan, implicit for os, træffe et valg til fordel for visse kategorier af mennesker, baseret på et stort antal umærkelige signaler

AI Bias Scenarier

Mest åbenlyst og skræmmende kan dette problem manifestere sig, når det kommer til menneskelig mangfoldighed. For nylig der var et rygteat Amazon forsøgte at bygge et maskinlæringssystem til indledende screening af jobkandidater. Da der er flere mænd blandt Amazon-arbejdere, er eksempler på "succesfuld ansættelse" også oftere mænd, og der var flere mænd i udvælgelsen af ​​CV'er foreslået af systemet. Amazon bemærkede dette og frigav ikke systemet i produktion.

Det vigtigste i dette eksempel er, at systemet rygtedes at favorisere mandlige ansøgere, på trods af at køn ikke var angivet på CV'et. Systemet så andre mønstre i eksempler på "gode ansættelser": for eksempel kan kvinder bruge specielle ord til at beskrive præstationer eller have specielle hobbyer. Selvfølgelig vidste systemet ikke, hvad "hockey" var, eller hvem "mennesker" var, eller hvad "succes" var - det udførte simpelthen en statistisk analyse af teksten. Men de mønstre, hun så, ville højst sandsynligt forblive ubemærket af mennesker, og nogle af dem (for eksempel det faktum, at mennesker af forskellige køn beskriver succes forskelligt) ville nok være svære for os at se, selvom vi så på dem.

Yderligere - værre. Et maskinlæringssystem, der er meget godt til at finde kræft på bleg hud, fungerer muligvis ikke så godt på mørk hud, eller omvendt. Ikke nødvendigvis på grund af bias, men fordi du sandsynligvis skal bygge en separat model til en anden hudfarve, og vælge forskellige egenskaber. Maskinlæringssystemer er ikke udskiftelige, selv i et så snævert område som billedgenkendelse. Du er nødt til at finjustere systemet, nogle gange blot gennem forsøg og fejl, for at få et godt styr på funktionerne i de data, du er interesseret i, indtil du opnår den nøjagtighed, du ønsker. Men hvad du måske ikke bemærker er, at systemet er nøjagtigt 98 % af tiden med den ene gruppe og kun 91 % (selvom det er mere nøjagtigt end menneskelig analyse) med den anden.

Indtil videre har jeg hovedsageligt brugt eksempler på mennesker og deres egenskaber. Diskussionen omkring dette problem fokuserer hovedsageligt på dette emne. Men det er vigtigt at forstå, at skævhed over for mennesker kun er en del af problemet. Vi vil bruge maskinlæring til mange ting, og prøveudtagningsfejl vil være relevant for dem alle. På den anden side, hvis du arbejder med mennesker, er skævheden i dataene muligvis ikke relateret til dem.

For at forstå dette, lad os vende tilbage til hudkræfteksemplet og overveje tre hypotetiske muligheder for systemfejl.

  1. Heterogen fordeling af mennesker: et ubalanceret antal fotografier af forskellige hudtoner, hvilket fører til falske positive eller falske negativer på grund af pigmentering.
  2. De data, som systemet er trænet på, indeholder en hyppigt forekommende og heterogent fordelt træk, som ikke er forbundet med mennesker og ikke har nogen diagnostisk værdi: en lineal i fotografier af hudkræft eller græs i fotografier af får. I dette tilfælde vil resultatet være anderledes, hvis systemet finder pixels i billedet af noget, som det menneskelige øje identificerer som en "lineal".
  3. Dataene indeholder en tredjepartskarakteristik, som en person ikke kan se, selvom han leder efter den.

Hvad betyder det? Vi ved på forhånd, at data kan repræsentere forskellige grupper af mennesker forskelligt, og vi kan som minimum planlægge at lede efter sådanne undtagelser. Der er med andre ord masser af sociale grunde til at antage, at data om grupper af mennesker allerede indeholder en vis bias. Hvis vi ser på billedet med linealen, vil vi se denne lineal - vi ignorerede den simpelthen før, vel vidende at det ikke betyder noget, og glemmer at systemet ikke ved noget.

Men hvad nu hvis alle dine billeder af usund hud blev taget på et kontor under glødende lys, og din sunde hud blev taget under fluorescerende lys? Hvad hvis du, efter du var færdig med at optage sund hud, før du optager usund hud, opdaterede operativsystemet på din telefon, og Apple eller Google ændrede støjreduktionsalgoritmen lidt? En person kan ikke bemærke dette, uanset hvor meget han leder efter sådanne funktioner. Men maskinbrugssystemet vil straks se og bruge dette. Hun ved ikke noget.

Indtil videre har vi talt om falske sammenhænge, ​​men det kan også være, at dataene er nøjagtige, og resultaterne er korrekte, men du ønsker ikke at bruge dem af etiske, juridiske eller ledelsesmæssige årsager. Nogle jurisdiktioner, for eksempel, tillader ikke kvinder at modtage rabat på deres forsikring, selvom kvinder kan være mere sikre chauffører. Vi kan nemt forestille os et system, der, når vi analyserer historiske data, vil tildele kvindenavne en lavere risikofaktor. Okay, lad os fjerne navne fra markeringen. Men husk Amazon-eksemplet: systemet kan bestemme køn baseret på andre faktorer (selvom det ikke ved, hvad køn er, eller endda hvad en bil er), og du vil ikke bemærke dette, før regulatoren med tilbagevirkende kraft analyserer de takster, du tilbud og afgifter dig vil du blive idømt en bøde.

Endelig antages det ofte, at vi kun vil bruge sådanne systemer til projekter, der involverer mennesker og sociale interaktioner. Det er forkert. Hvis du laver gasturbiner, vil du sandsynligvis anvende maskinlæring på telemetrien, der transmitteres af titusindvis eller hundredvis af sensorer på dit produkt (lyd, video, temperatur og andre sensorer genererer data, der meget let kan tilpasses til at skabe en maskine læringsmodel). Hypotetisk kunne man sige: "Her er data fra tusinde møller, der fejlede, før de fejlede, og her er data fra tusinde møller, der ikke fejlede. Byg en model for at fortælle, hvad forskellen er mellem dem." Tja, forestil dig nu, at Siemens-sensorer er installeret på 75% af dårlige turbiner og kun 12% af de gode (der er ingen forbindelse med fejl). Systemet vil bygge en model til at finde turbiner med Siemens-sensorer. Ups!

Om Artificial Intelligence Bias
Billede — Moritz Hardt, UC Berkeley

Håndtering af AI Bias

Hvad kan vi gøre ved det? Du kan angribe problemet fra tre vinkler:

  1. Metodisk stringens ved indsamling og håndtering af data til træning af systemet.
  2. Tekniske værktøjer til at analysere og diagnosticere modeladfærd.
  3. Træn, uddan og vær forsigtig, når du implementerer maskinlæring i produkter.

Der er en vittighed i Molières bog "The Bourgeois in the Nobility": En mand fik at vide, at litteraturen er opdelt i prosa og poesi, og han glædede sig over at opdage, at han havde talt i prosa hele sit liv uden at vide det. Sådan har statistikere sandsynligvis det i dag: Uden at være klar over det har de dedikeret deres karriere til kunstig intelligens og prøveudtagningsfejl. At lede efter prøveudtagningsfejl og bekymre sig om det er ikke et nyt problem, vi skal blot systematisk nærme os løsningen. Som nævnt ovenfor er det i nogle tilfælde faktisk lettere at gøre dette ved at studere problemer relateret til persondata. Vi antager på forhånd, at vi kan have fordomme om forskellige grupper af mennesker, men det er svært for os overhovedet at forestille os en fordom om Siemens-sensorer.

Det nye ved alt dette er selvfølgelig, at folk ikke længere laver statistiske analyser direkte. Det udføres af maskiner, der skaber store, komplekse modeller, som er svære at forstå. Spørgsmålet om gennemsigtighed er et af hovedaspekterne af problemet med bias. Vi frygter, at systemet ikke bare er biased, men at der ikke er nogen måde at opdage dets bias, og at maskinlæring er anderledes end andre former for automatisering, som formodes at bestå af klare logiske trin, der kan testes.

Der er to problemer her. Vi er muligvis stadig i stand til at udføre en form for revision af maskinlæringssystemer. Og det er faktisk ikke nemmere at revidere ethvert andet system.

For det første er en af ​​retningerne for moderne forskning inden for maskinlæring søgningen efter metoder til at identificere vigtig funktionalitet af maskinlæringssystemer. Når det er sagt, er maskinlæring (i sin nuværende tilstand) et helt nyt videnskabsområde, der ændrer sig hurtigt, så tro ikke, at ting, der er umulige i dag, ikke snart kan blive helt virkelige. Projekt OpenAI - et interessant eksempel på dette.

For det andet er ideen om, at du kan teste og forstå beslutningsprocessen i eksisterende systemer eller organisationer, god i teorien, men så som så i praksis. Det er ikke let at forstå, hvordan beslutninger træffes i en stor organisation. Selvom der er en formel beslutningsproces, afspejler den ikke, hvordan mennesker faktisk interagerer, og de selv har ofte ikke en logisk, systematisk tilgang til at træffe deres beslutninger. Som min kollega sagde Vijay Pande, mennesker er også sorte bokse.

Tag tusind mennesker i flere overlappende virksomheder og institutioner, og problemet bliver endnu mere komplekst. Vi ved efter det faktum, at rumfærgen var bestemt til at gå i stykker ved hjemkomsten, og enkeltpersoner inden for NASA havde information, der gav dem grund til at tro, at noget slemt kunne ske, men systemet generelt Jeg vidste ikke dette. NASA har endda lige været igennem en lignende revision efter at have mistet sin tidligere shuttle, og alligevel mistede den endnu en af ​​en meget lignende årsag. Det er let at argumentere for, at organisationer og mennesker følger klare, logiske regler, der kan testes, forstås og ændres – men erfaringen viser det modsatte. Det her "Gosplans vildfarelse'.

Jeg sammenligner ofte maskinlæring med databaser, især relationelle - en ny fundamental teknologi, der har ændret datalogiens muligheder og verden omkring den, som er blevet en del af alt, som vi bruger konstant uden at være klar over det. Databaser har også problemer, og de er af lignende karakter: Systemet kan være bygget på dårlige antagelser eller dårlige data, men det vil være svært at lægge mærke til, og de personer, der bruger systemet, vil gøre, hvad det fortæller dem uden at stille spørgsmål. Der er mange gamle vittigheder om skattefolk, der engang har stavet dit navn forkert, og at overbevise dem om at rette fejlen er meget sværere end faktisk at ændre dit navn. Der er mange måder at tænke på dette, men det er ikke klart, hvilken der er bedre: som et teknisk problem i SQL, eller som en fejl i en Oracle-udgivelse, eller som en fejl i bureaukratiske institutioner? Hvor svært er det at finde en fejl i en proces, der har ført til, at systemet ikke har en funktion til rettelse af tastefejl? Kunne man have fundet ud af dette, før folk begyndte at klage?

Dette problem illustreres endnu mere enkelt af historier, når chauffører kører ind i floder på grund af forældede data i navigatoren. Okay, kort skal opdateres konstant. Men hvor meget er TomTom skyld i, at din bil er blæst ud i havet?

Grunden til at jeg siger dette er, at ja, maskinlæringsbias vil skabe problemer. Men disse problemer vil ligne dem, vi har stået over for tidligere, og de kan bemærkes og løses (eller ej) omtrent lige så godt, som vi var i stand til tidligere. Derfor er det usandsynligt, at et scenarie, hvor AI-bias forårsager skade, vil ske for seniorforskere, der arbejder i en stor organisation. Mest sandsynligt vil en ubetydelig teknologientreprenør eller softwareleverandør skrive noget på deres knæ ved hjælp af open source-komponenter, biblioteker og værktøjer, som de ikke forstår. Og den uheldige klient vil købe udtrykket "kunstig intelligens" i produktbeskrivelsen og uden at stille spørgsmål distribuere det til sine lavtlønnede medarbejdere og beordre dem til at gøre, hvad AI siger. Det er præcis, hvad der skete med databaser. Dette er ikke et problem med kunstig intelligens, eller endda et softwareproblem. Dette er den menneskelige faktor.

Konklusion

Maskinlæring kan alt, hvad du kan lære en hund – men du kan aldrig være sikker på, hvad du præcist har lært hunden.

Jeg føler ofte, at udtrykket "kunstig intelligens" kun kommer i vejen for samtaler som denne. Dette udtryk giver det falske indtryk, at vi faktisk har skabt det - denne intelligens. At vi er på vej til HAL9000 eller Skynet – noget der faktisk forstår. Men nej. Det er bare maskiner, og det er meget mere præcist at sammenligne dem med for eksempel en vaskemaskine. Hun vasker meget bedre end et menneske, men hvis du putter opvask i hende i stedet for vasketøj, vil hun... vaske dem. Opvasken bliver endda ren. Men det bliver ikke, hvad du forventede, og det vil ikke ske, fordi systemet har nogle fordomme om retter. Vaskemaskinen ved ikke, hvad opvask er, eller hvad tøj er - det er blot et eksempel på automatisering, konceptuelt ikke anderledes end, hvordan processer blev automatiseret før.

Uanset om vi taler om biler, fly eller databaser, vil disse systemer være både meget kraftfulde og meget begrænsede. De vil helt afhænge af, hvordan folk bruger disse systemer, om deres hensigter er gode eller dårlige, og hvor meget de forstår, hvordan de fungerer.

Derfor er det fuldstændig falsk at sige, at "kunstig intelligens er matematik, så det kan ikke have skævheder". Men det er lige så falsk at sige, at maskinlæring er "subjektiv af natur." Machine learning finder mønstre i data, og hvilke mønstre den finder afhænger af dataene, og dataene afhænger af os. Ligesom hvad vi gør med dem. Maskinlæring gør nogle ting meget bedre, end vi kan – men hunde er for eksempel meget mere effektive end mennesker til at opdage stoffer, hvilket ikke er en grund til at bruge dem som vidner og dømme baseret på deres vidnesbyrd. Og hunde er i øvrigt meget smartere end noget maskinlæringssystem.

Oversættelse: Diana Letskaya.
Redigering: Aleksey Ivanov.
Fællesskab: @PonchikNews.

Kilde: www.habr.com

Tilføj en kommentar