Over vooroordelen over kunstmatige intelligentie

Over vooroordelen over kunstmatige intelligentie

tl; dr:

  • Machine learning zoekt naar patronen in data. Maar kunstmatige intelligentie kan ‘bevooroordeeld’ zijn, dat wil zeggen patronen vinden die onjuist zijn. Een op foto's gebaseerd detectiesysteem voor huidkanker kan bijvoorbeeld speciale aandacht besteden aan beelden die in de spreekkamer van een arts zijn gemaakt. Machine learning kan dat niet te begrijpen: de algoritmen identificeren alleen patronen in getallen, en als de gegevens niet representatief zijn, zal het resultaat van de verwerking dat ook zijn. En het opsporen van dergelijke bugs kan moeilijk zijn vanwege de werking van machine learning.
  • Het meest voor de hand liggende en ontmoedigende probleemgebied is de menselijke diversiteit. Er zijn veel redenen waarom gegevens over mensen zelfs in de verzamelfase hun objectiviteit kunnen verliezen. Maar denk niet dat dit probleem alleen mensen treft: precies dezelfde problemen doen zich voor bij het detecteren van een overstroming in een magazijn of een defecte gasturbine. Sommige systemen zijn mogelijk gericht op huidskleur, andere zijn gericht op Siemens-sensoren.
  • Dergelijke problemen zijn niet nieuw voor machinaal leren, en ze zijn verre van uniek. In elke complexe structuur worden verkeerde aannames gedaan, en het is altijd moeilijk om te begrijpen waarom een ​​bepaalde beslissing is genomen. We moeten dit op een alomvattende manier bestrijden: instrumenten en processen voor verificatie creëren – en gebruikers opleiden zodat ze niet blindelings AI-aanbevelingen opvolgen. Machine learning doet sommige dingen veel beter dan wij, maar honden zijn bijvoorbeeld veel effectiever dan mensen in het opsporen van drugs, wat geen reden is om ze als getuigen te gebruiken en een oordeel te vellen op basis van hun getuigenis. En honden zijn trouwens veel slimmer dan welk machinaal leersysteem dan ook.

Machine learning is tegenwoordig een van de belangrijkste fundamentele technologische trends. Dit is een van de belangrijkste manieren waarop technologie de wereld om ons heen de komende tien jaar zal veranderen. Sommige aspecten van deze veranderingen zijn reden tot zorg. Bijvoorbeeld de potentiële impact van machinaal leren op de arbeidsmarkt, of het gebruik ervan voor onethische doeleinden (bijvoorbeeld door autoritaire regimes). Er is nog een probleem dat in dit bericht wordt behandeld: vooroordeel op het gebied van kunstmatige intelligentie.

Dit is geen gemakkelijk verhaal.

Over vooroordelen over kunstmatige intelligentie
De AI van Google kan katten vinden. Dit nieuws uit 2012 was toen iets bijzonders.

Wat is “AI-vooroordeel”?

‘Ruwe data’ is zowel een oxymoron als een slecht idee; gegevens moeten goed en zorgvuldig worden voorbereid. —Geoffrey Bocker

Ergens vóór 2013 moest je, om een ​​systeem te maken dat bijvoorbeeld katten op foto's herkent, logische stappen beschrijven. Hoe u hoeken in een afbeelding kunt vinden, ogen kunt herkennen, texturen op vacht kunt analyseren, poten kunt tellen, enzovoort. Zet dan alle onderdelen bij elkaar en ontdek dat het niet echt werkt. Net als een mechanisch paard: theoretisch kan het gemaakt worden, maar in de praktijk is het te complex om te beschrijven. Het eindresultaat zijn honderden (of zelfs duizenden) handgeschreven regels. En geen enkel werkend model.

Met de komst van machinaal leren zijn we gestopt met het gebruik van ‘handmatige’ regels voor het herkennen van een bepaald object. In plaats daarvan nemen we duizend monsters van ‘dit’, X, duizend monsters van ‘anders’, Y, en laten we de computer een model bouwen op basis van hun statistische analyse. Vervolgens geven we dit model enkele voorbeeldgegevens en bepaalt het met enige precisie of het in een van de sets past. Machine learning genereert een model op basis van gegevens in plaats van op basis van een mens die deze schrijft. De resultaten zijn indrukwekkend, vooral op het gebied van beeld- en patroonherkenning, en daarom stapt de hele tech-industrie nu over op machine learning (ML).

Maar zo eenvoudig is het niet. In de echte wereld bevatten je duizenden voorbeelden van X of Y ook A, B, J, L, O, R en zelfs L. Deze zijn mogelijk niet gelijkmatig verdeeld en sommige komen zo vaak voor dat het systeem meer zal betalen aandacht aan hen dan aan objecten die u interesseren.

Wat betekent dit in de praktijk? Mijn favoriete voorbeeld is beeldherkenningssystemen kijk naar een met gras begroeide heuvel en zeg 'schaap'. Het is duidelijk waarom: de meeste voorbeeldfoto's van "schapen" zijn genomen in de weilanden waar ze leven, en op deze afbeeldingen neemt het gras veel meer ruimte in beslag dan de kleine witte pluisjes, en het is het gras dat het systeem het belangrijkst vindt .

Er zijn serieuzere voorbeelden. Eén recente project voor het opsporen van huidkanker op foto's. Het bleek dat dermatologen de liniaal vaak samen met de manifestaties van huidkanker fotograferen om de grootte van de formaties vast te leggen. Op de voorbeeldfoto's van een gezonde huid staan ​​geen linialen. Voor een AI-systeem zijn dergelijke linialen (meer precies, de pixels die we definiëren als een ‘liniaal’) een van de verschillen tussen sets voorbeelden geworden, en soms belangrijker dan een kleine uitslag op de huid. Dus een systeem dat was ontwikkeld om huidkanker te identificeren, herkende soms heersers.

Het belangrijkste punt hier is dat het systeem geen semantisch begrip heeft van waar het naar kijkt. We kijken naar een reeks pixels en zien daarin een schaap, huid of linialen, maar het systeem is slechts een getallenlijn. Ze ziet geen driedimensionale ruimte, ziet geen objecten, texturen of schapen. Ze ziet eenvoudigweg patronen in de data.

De moeilijkheid bij het diagnosticeren van dergelijke problemen is dat het neurale netwerk (het model dat door uw machine learning-systeem wordt gegenereerd) uit duizenden honderdduizenden knooppunten bestaat. Er is geen gemakkelijke manier om in een model te kijken en te zien hoe het een beslissing neemt. Een dergelijke manier zou betekenen dat het proces eenvoudig genoeg is om alle regels handmatig te beschrijven, zonder gebruik te maken van machinaal leren. Mensen zijn bang dat machinaal leren een soort zwarte doos is geworden. (Ik zal later uitleggen waarom deze vergelijking nog steeds te veel is.)

Dit is in algemene termen het probleem van vooringenomenheid bij kunstmatige intelligentie of machinaal leren: een systeem voor het vinden van patronen in gegevens kan de verkeerde patronen ontdekken, zonder dat u het merkt. Dit is een fundamenteel kenmerk van de technologie, en het is duidelijk voor iedereen die ermee werkt in de academische wereld en bij grote technologiebedrijven. Maar de gevolgen ervan zijn complex, en dat geldt ook voor onze mogelijke oplossingen voor die gevolgen.

Laten we het eerst over de gevolgen hebben.

Over vooroordelen over kunstmatige intelligentie
AI kan voor ons impliciet een keuze maken ten gunste van bepaalde categorieën mensen, op basis van een groot aantal onwaarneembare signalen

AI-bias-scenario's

Het meest voor de hand liggende en beangstigende is dat dit probleem zich kan manifesteren als het gaat om de menselijke diversiteit. Onlangs er was een geruchtdat Amazon probeerde een machine learning-systeem te bouwen voor de eerste screening van sollicitanten. Omdat er onder Amazon-werknemers meer mannen zijn, zijn de voorbeelden van ‘succesvol aannemen’ ook vaker mannen, en waren er meer mannen in de selectie van cv’s die door het systeem werden voorgesteld. Amazon merkte dit op en bracht het systeem niet in productie.

Het belangrijkste in dit voorbeeld is dat het systeem naar verluidt mannelijke sollicitanten bevoordeelde, ondanks het feit dat het geslacht niet op het cv stond vermeld. Het systeem zag andere patronen in voorbeelden van ‘goede aanwervingen’: vrouwen gebruikten bijvoorbeeld speciale woorden om prestaties te beschrijven, of hadden speciale hobby’s. Natuurlijk wist het systeem niet wat 'hockey' was, of wie 'mensen' waren, of wat 'succes' was - het voerde eenvoudigweg een statistische analyse van de tekst uit. Maar de patronen die ze zag zouden hoogstwaarschijnlijk onopgemerkt blijven door mensen, en sommige daarvan (bijvoorbeeld het feit dat mensen van verschillende geslachten succes anders beschrijven) zouden voor ons waarschijnlijk moeilijk te zien zijn, zelfs als we ernaar keken.

Verder - erger. Een machine learning-systeem dat erg goed is in het vinden van kanker op een bleke huid, presteert mogelijk niet zo goed op een donkere huid, of omgekeerd. Niet per se vanwege vooroordelen, maar omdat je waarschijnlijk een apart model moet bouwen voor een andere huidskleur, waarbij je andere kenmerken kiest. Machine learning-systemen zijn zelfs op zo’n klein gebied als beeldherkenning niet uitwisselbaar. U moet het systeem aanpassen, soms met vallen en opstaan, om goed grip te krijgen op de kenmerken van de gegevens waarin u geïnteresseerd bent, totdat u de gewenste nauwkeurigheid bereikt. Maar wat u misschien niet opmerkt, is dat het systeem bij de ene groep 98% van de tijd accuraat is, en bij de andere groep slechts 91% (zelfs nauwkeuriger dan menselijke analyse).

Tot nu toe heb ik vooral voorbeelden gebruikt die betrekking hebben op mensen en hun kenmerken. De discussie rondom dit probleem concentreert zich vooral op dit onderwerp. Maar het is belangrijk om te begrijpen dat vooroordelen jegens mensen slechts een deel van het probleem zijn. We zullen machine learning voor veel dingen gebruiken, en steekproeffouten zullen voor al deze dingen relevant zijn. Aan de andere kant, als je met mensen werkt, is het mogelijk dat de bias in de data niets met hen te maken heeft.

Laten we, om dit te begrijpen, terugkeren naar het voorbeeld van huidkanker en drie hypothetische mogelijkheden voor systeemfalen bekijken.

  1. Heterogene verdeling van mensen: een onevenwichtig aantal foto's van verschillende huidtinten, wat leidt tot valse positieven of valse negatieven als gevolg van pigmentatie.
  2. De data waarop het systeem wordt getraind bevat een veel voorkomend en heterogeen verspreid kenmerk dat niet met mensen geassocieerd is en geen diagnostische waarde heeft: een liniaal op foto's van huidkanker of gras op foto's van schapen. In dit geval zal het resultaat anders zijn als het systeem pixels vindt in het beeld van iets dat het menselijk oog identificeert als een “liniaal”.
  3. De gegevens bevatten een kenmerk van een derde partij dat een persoon niet kan zien, zelfs als hij ernaar zoekt.

Wat betekent het? We weten a priori dat gegevens verschillende groepen mensen verschillend kunnen representeren, en we kunnen op zijn minst plannen om naar dergelijke uitzonderingen te zoeken. Met andere woorden: er zijn genoeg sociale redenen om aan te nemen dat gegevens over groepen mensen al enige vertekening bevatten. Als we naar de foto met de liniaal kijken, zien we deze liniaal - we negeerden hem eerder gewoon, wetende dat het er niet toe doet, en vergeten dat het systeem niets weet.

Maar wat als al uw foto's van een ongezonde huid in een kantoor onder gloeilampen zouden worden genomen, en uw gezonde huid onder TL-licht? Wat als je, nadat je klaar bent met het fotograferen van een gezonde huid, voordat je een ongezonde huid fotografeert, het besturingssysteem op je telefoon hebt bijgewerkt en Apple of Google het algoritme voor ruisonderdrukking enigszins heeft gewijzigd? Een persoon kan dit niet opmerken, hoezeer hij ook naar dergelijke kenmerken zoekt. Maar het machinegebruikssysteem zal dit onmiddellijk zien en gebruiken. Ze weet niets.

Tot nu toe hebben we gesproken over valse correlaties, maar het kan ook zijn dat de gegevens accuraat zijn en de resultaten correct zijn, maar dat je ze niet wilt gebruiken om ethische, juridische of managementredenen. Sommige rechtsgebieden staan ​​bijvoorbeeld niet toe dat vrouwen korting krijgen op hun verzekering, ook al zijn vrouwen wellicht veiligere chauffeurs. We kunnen ons gemakkelijk een systeem voorstellen dat bij het analyseren van historische gegevens een lagere risicofactor aan vrouwelijke namen zou toekennen. Oké, laten we namen uit de selectie verwijderen. Maar onthoud het Amazon-voorbeeld: het systeem kan het geslacht bepalen op basis van andere factoren (ook al weet het niet wat geslacht is, of zelfs wat een auto is), en je zult dit pas merken als de toezichthouder met terugwerkende kracht de tarieven analyseert die je hanteert. aanbod en brengt u in rekening, u krijgt een boete.

Ten slotte wordt vaak aangenomen dat we dergelijke systemen alleen zullen gebruiken voor projecten waarbij mensen en sociale interacties betrokken zijn. Dit is fout. Als u gasturbines maakt, wilt u waarschijnlijk machinaal leren toepassen op de telemetrie die wordt verzonden door tientallen of honderden sensoren op uw product (audio, video, temperatuur en andere sensoren genereren gegevens die heel gemakkelijk kunnen worden aangepast om een ​​machine te creëren leermodel). Hypothetisch zou je kunnen zeggen: “Hier zijn gegevens van duizend turbines die faalden voordat ze faalden, en hier zijn gegevens van duizend turbines die niet faalden. Bouw een model om te vertellen wat het verschil tussen beide is.” Stel je nu voor dat Siemens-sensoren zijn geïnstalleerd op 75% van de slechte turbines, en slechts 12% van de goede (er is geen verband met storingen). Het systeem zal een model bouwen om turbines te vinden met Siemens-sensoren. Oeps!

Over vooroordelen over kunstmatige intelligentie
Afbeelding — Moritz Hardt, UC Berkeley

AI-vooroordelen beheren

Wat kunnen we eraan doen? Je kunt het probleem vanuit drie invalshoeken benaderen:

  1. Methodologische nauwkeurigheid bij het verzamelen en beheren van gegevens voor het trainen van het systeem.
  2. Technische hulpmiddelen voor het analyseren en diagnosticeren van modelgedrag.
  3. Train, onderwijs en wees voorzichtig bij het implementeren van machine learning in producten.

Er staat een grap in Molière's boek 'De bourgeois in de adel': een man kreeg te horen dat literatuur is verdeeld in proza ​​en poëzie, en hij was opgetogen toen hij ontdekte dat hij zijn hele leven in proza ​​had gesproken, zonder het te weten. Dit is waarschijnlijk hoe statistici er tegenwoordig over denken: zonder het te beseffen hebben ze hun carrière gewijd aan kunstmatige intelligentie en steekproeffouten. Het zoeken naar steekproeffouten en ons daar zorgen over maken is geen nieuw probleem; we moeten alleen de oplossing ervan systematisch benaderen. Zoals hierboven vermeld, is het in sommige gevallen zelfs eenvoudiger om dit te doen door problemen met betrekking tot persoonsgegevens te bestuderen. We gaan a priori ervan uit dat we vooroordelen hebben over verschillende groepen mensen, maar het is moeilijk voor ons om ons zelfs maar een vooroordeel over Siemens-sensoren voor te stellen.

Het nieuwe aan dit alles is natuurlijk dat mensen niet langer rechtstreeks statistische analyses uitvoeren. Het wordt uitgevoerd door machines die grote, complexe modellen creëren die moeilijk te begrijpen zijn. De kwestie van transparantie is een van de belangrijkste aspecten van het probleem van vooringenomenheid. We vrezen dat het systeem niet alleen bevooroordeeld is, maar dat er geen manier is om die vooringenomenheid te detecteren, en dat machine learning anders is dan andere vormen van automatisering, die verondersteld worden te bestaan ​​uit duidelijke logische stappen die getest kunnen worden.

Er zijn hier twee problemen. Mogelijk kunnen we nog steeds een soort audit van machine learning-systemen uitvoeren. En het controleren van elk ander systeem is eigenlijk niet eenvoudiger.

Ten eerste is een van de richtingen van modern onderzoek op het gebied van machine learning het zoeken naar methoden om belangrijke functionaliteit van machine learning-systemen te identificeren. Dat gezegd hebbende, machine learning (in zijn huidige staat) is een compleet nieuw wetenschapsgebied dat snel verandert, dus denk niet dat dingen die vandaag de dag onmogelijk zijn, niet snel helemaal reëel kunnen worden. Project OpenAI - een interessant voorbeeld hiervan.

Ten tweede is het idee dat je het besluitvormingsproces van bestaande systemen of organisaties kunt testen en begrijpen goed in theorie, maar in de praktijk matig. Begrijpen hoe beslissingen in een grote organisatie worden genomen, is niet eenvoudig. Zelfs als er sprake is van een formeel besluitvormingsproces, weerspiegelt dit niet hoe mensen daadwerkelijk met elkaar omgaan, en zijzelf hebben vaak geen logische, systematische benadering bij het nemen van hun beslissingen. Zoals mijn collega zei Vijay Pande, mensen zijn ook zwarte dozen.

Neem duizend mensen in verschillende overlappende bedrijven en instellingen, en het probleem wordt nog complexer. We weten na het feit dat de Space Shuttle voorbestemd was om bij terugkeer uiteen te vallen, en individuen binnen NASA hadden informatie die hen reden gaf om te denken dat er iets ergs zou kunnen gebeuren, maar het systeem in het algemeen Ik wist dit niet. NASA heeft zelfs net een soortgelijke audit doorstaan ​​nadat het zijn vorige shuttle had verloren, en toch verloor het er nog een om een ​​zeer vergelijkbare reden. Het is gemakkelijk om te beweren dat organisaties en mensen duidelijke, logische regels volgen die kunnen worden getest, begrepen en veranderd, maar de ervaring bewijst het tegendeel. Dit "Gosplans waanvoorstelling.

Ik vergelijk machinaal leren vaak met databases, vooral relationele - een nieuwe fundamentele technologie die de mogelijkheden van de informatica en de wereld eromheen heeft veranderd, die onderdeel is geworden van alles, die we voortdurend gebruiken zonder het te beseffen. Databases hebben ook problemen, en die zijn van vergelijkbare aard: het systeem kan gebouwd zijn op slechte aannames of slechte gegevens, maar het zal moeilijk op te merken zijn, en de mensen die het systeem gebruiken zullen doen wat het hen zegt, zonder vragen te stellen. Er zijn veel oude grappen over belastingmensen die ooit je naam verkeerd hebben gespeld, en hen overtuigen om de fout te corrigeren is veel moeilijker dan het daadwerkelijk veranderen van je naam. Er zijn veel manieren om hierover na te denken, maar het is niet duidelijk welke beter is: als een technisch probleem in SQL, of als een bug in een Oracle-release, of als een falen van bureaucratische instellingen? Hoe moeilijk is het om een ​​bug in een proces te vinden die ertoe heeft geleid dat het systeem geen typefoutcorrectiefunctie heeft? Had dit al bedacht kunnen worden voordat mensen begonnen te klagen?

Dit probleem wordt nog eenvoudiger geïllustreerd door verhalen waarin chauffeurs rivieren inrijden vanwege verouderde gegevens in de navigator. Oké, kaarten moeten voortdurend worden bijgewerkt. Maar in hoeverre is TomTom verantwoordelijk voor het feit dat uw auto de zee in is geblazen?

De reden dat ik dit zeg, is dat de vooroordelen over machinaal leren inderdaad voor problemen zullen zorgen. Maar deze problemen zullen vergelijkbaar zijn met de problemen waarmee we in het verleden te maken hebben gehad, en ze kunnen net zo goed worden opgemerkt en opgelost (of niet) als we in het verleden konden. Daarom is het onwaarschijnlijk dat senior onderzoekers die in een grote organisatie werken, een scenario zullen overkomen waarin AI-vooroordelen schade veroorzaken. Hoogstwaarschijnlijk zal een onbeduidende technologieaannemer of softwareleverancier iets op zijn knieën schrijven, met behulp van open source-componenten, bibliotheken en tools die hij niet begrijpt. En de ongelukkige klant zal de uitdrukking 'kunstmatige intelligentie' in de productbeschrijving kopen en deze, zonder vragen te stellen, verspreiden onder zijn laagbetaalde werknemers, waarbij hij hen opdraagt ​​te doen wat de AI zegt. Dit is precies wat er gebeurde met databases. Dit is geen probleem met kunstmatige intelligentie, of zelfs maar een softwareprobleem. Dit is de menselijke factor.

Conclusie

Machine learning kan alles wat je een hond kunt leren, maar je weet nooit zeker wat je de hond precies hebt geleerd.

Ik heb vaak het gevoel dat de term ‘kunstmatige intelligentie’ dit soort gesprekken alleen maar in de weg staat. Deze term wekt de valse indruk dat wij deze intelligentie daadwerkelijk hebben gecreëerd. Dat we onderweg zijn naar HAL9000 of Skynet - iets dat eigenlijk begrijpt. Maar nee. Dit zijn maar machines, en het is veel nauwkeuriger om ze te vergelijken met bijvoorbeeld een wasmachine. Ze doet de was veel beter dan een mens, maar als je de vaat in haar doet in plaats van de was, zal ze... die wassen. De vaat wordt zelfs schoon. Maar dit zal niet zijn wat je had verwacht, en dit zal niet gebeuren omdat het systeem vooroordelen heeft over gerechten. De wasmachine weet niet wat serviesgoed is of wat kleding is - het is slechts een voorbeeld van automatisering, conceptueel gezien niet anders dan hoe processen voorheen werden geautomatiseerd.

Of we het nu hebben over auto's, vliegtuigen of databases, deze systemen zullen zowel zeer krachtig als zeer beperkt zijn. Ze zullen volledig afhangen van hoe mensen deze systemen gebruiken, of hun bedoelingen goed of slecht zijn, en in hoeverre ze begrijpen hoe ze werken.

Daarom is het volkomen onjuist om te zeggen dat “kunstmatige intelligentie wiskunde is en dus geen vooroordelen kan hebben”. Maar het is evenzeer onjuist om te zeggen dat machinaal leren ‘subjectief van aard’ is. Machine learning vindt patronen in data, en welke patronen het vindt hangt af van de data, en de data zijn afhankelijk van ons. Net zoals wat wij met hen doen. Machine learning doet sommige dingen veel beter dan wij, maar honden zijn bijvoorbeeld veel effectiever dan mensen in het opsporen van drugs, wat geen reden is om ze als getuigen te gebruiken en een oordeel te vellen op basis van hun getuigenis. En honden zijn trouwens veel slimmer dan welk machinaal leersysteem dan ook.

Vertaling: Diana Letskaja.
Bewerken: Aleksej Ivanov.
Gemeenschap: @PonchikNieuws.

Bron: www.habr.com

Voeg een reactie