O zkreslení umělé inteligence

O zkreslení umělé inteligence

tl; dr:

  • Strojové učení hledá vzory v datech. Umělá inteligence však může být „zaujatá“ – to znamená najít vzory, které jsou nesprávné. Například systém detekce rakoviny kůže založený na fotografiích může věnovat zvláštní pozornost snímkům pořízeným v ordinaci lékaře. Strojové učení nemůže pochopit: jeho algoritmy identifikují vzory pouze v číslech, a pokud data nejsou reprezentativní, tak bude i výsledek jejich zpracování. A zachytit takové chyby může být obtížné kvůli samotné mechanice strojového učení.
  • Nejzjevnější a nejodstrašující problematickou oblastí je lidská rozmanitost. Existuje mnoho důvodů, proč data o lidech mohou ztratit objektivitu i ve fázi sběru. Ale nemyslete si, že tento problém se týká pouze lidí: přesně stejné potíže nastávají, když se pokoušíte odhalit povodeň ve skladu nebo poruchu plynové turbíny. Některé systémy mohou být zaujaté směrem k barvě pleti, jiné budou zaujaty vůči senzorům Siemens.
  • Takové problémy nejsou ve strojovém učení novinkou a zdaleka nejsou pro ně jedinečné. V jakékoli složité struktuře se vytvářejí chybné předpoklady a pochopit, proč bylo konkrétní rozhodnutí učiněno, je vždy obtížné. Musíme proti tomu bojovat komplexním způsobem: vytvářet nástroje a procesy pro ověřování – a vzdělávat uživatele, aby se slepě neřídili doporučeními AI. Strojové učení dělá některé věci mnohem lépe než my – ale například psi jsou při odhalování drog mnohem efektivnější než lidé, což není důvod, proč je používat jako svědky a soudit je na základě jejich svědectví. A psi jsou mimochodem mnohem chytřejší než jakýkoli systém strojového učení.

Strojové učení je dnes jedním z nejdůležitějších základních technologických trendů. To je jeden z hlavních způsobů, jak technologie změní svět kolem nás v příštím desetiletí. Některé aspekty těchto změn jsou důvodem k obavám. Například potenciální dopad strojového učení na trh práce nebo jeho využívání k neetickým účelům (například autoritářskými režimy). Tento příspěvek řeší další problém: zkreslení umělé inteligence.

To není snadný příběh.

O zkreslení umělé inteligence
Umělá inteligence Google dokáže najít kočky. Tato novinka z roku 2012 byla tehdy něčím výjimečným.

Co je „AI zaujatost“?

„Raw data“ jsou oxymoron a zároveň špatný nápad; data musí být dobře a pečlivě připravena. – Geoffrey Boker

Někde před rokem 2013, abyste mohli udělat systém, který dejme tomu rozpozná kočky na fotografiích, jste museli popsat logické kroky. Jak najít rohy na obrázku, rozpoznat oči, analyzovat textury pro srst, počítat tlapky a tak dále. Poté dejte všechny komponenty dohromady a zjistěte, že to opravdu nefunguje. Podobně jako mechanický kůň - teoreticky se dá vyrobit, ale v praxi je to příliš složité na popis. Konečným výsledkem jsou stovky (nebo dokonce tisíce) ručně psaných pravidel. A ani jeden fungující model.

S příchodem strojového učení jsme přestali používat „ruční“ pravidla pro rozpoznávání konkrétního objektu. Místo toho vezmeme tisíc vzorků „toho“, X, tisíc vzorků „jiného“, Y a necháme počítač sestavit model na základě jejich statistické analýzy. Pak tomuto modelu dáme nějaká vzorová data a on s určitou přesností určí, zda se hodí do jedné z množin. Strojové učení generuje model spíše z dat než z toho, že je píše člověk. Výsledky jsou působivé zejména v oblasti rozpoznávání obrázků a vzorů, a proto nyní celý technologický průmysl přechází na strojové učení (ML).

Ale není to tak jednoduché. V reálném světě vaše tisíce příkladů X nebo Y obsahují také A, B, J, L, O, R a dokonce L. Ty nemusí být rovnoměrně rozloženy a některé se mohou vyskytovat tak často, že systém bude platit více pozornost k nim než k předmětům, které vás zajímají.

Co to v praxi znamená? Můj oblíbený příklad je systém rozpoznávání obrazu podívej se na travnatý kopec a řekni "ovce". Je jasné proč: většina ukázkových fotografií „oveček“ je pořízena na loukách, kde žijí, a na těchto snímcích tráva zabírá mnohem více místa než malé bílé chmýří a je to tráva, kterou systém považuje za nejdůležitější. .

Existují vážnější příklady. Jeden nedávný projekt pro detekci rakoviny kůže na fotografiích. Ukázalo se, že dermatologové často fotografují pravítko spolu s projevy rakoviny kůže, aby zaznamenali velikost útvarů. Na ukázkových fotografiích zdravé kůže nejsou žádná pravítka. Pro systém AI se taková pravítka (přesněji pixely, které definujeme jako „pravítko“) stala jedním z rozdílů mezi sadami příkladů a někdy jsou důležitější než malá vyrážka na kůži. Takže systém vytvořený k identifikaci rakoviny kůže někdy místo toho rozpoznával vládce.

Klíčovým bodem je, že systém nemá žádné sémantické pochopení toho, na co se dívá. Díváme se na sadu pixelů a vidíme v nich ovci, kůži nebo pravítka, ale systém je pouze číselná osa. Nevidí trojrozměrný prostor, nevidí předměty, textury ani ovce. Jednoduše vidí vzory v datech.

Obtížnost diagnostiky takových problémů spočívá v tom, že neuronová síť (model generovaný vaším systémem strojového učení) se skládá z tisíců stovek tisíc uzlů. Neexistuje snadný způsob, jak se podívat do modelu a zjistit, jak se rozhoduje. Mít takový způsob by znamenalo, že proces je dostatečně jednoduchý na to, aby popsal všechna pravidla ručně, bez použití strojového učení. Lidé se obávají, že strojové učení se stalo něčím jako černou skříňkou. (Trochu později vysvětlím, proč je toto srovnání stále příliš.)

Toto je obecně problém zkreslení umělé inteligence nebo strojového učení: systém pro hledání vzorců v datech může najít špatné vzorce a vy si toho nemusíte všimnout. To je základní charakteristika technologie a je zřejmá každému, kdo s ní pracuje na akademické půdě a ve velkých technologických společnostech. Ale jeho důsledky jsou složité, stejně jako naše možná řešení těchto důsledků.

Nejprve si povíme o důsledcích.

O zkreslení umělé inteligence
Umělá inteligence může, pro nás implicitně, učinit volbu ve prospěch určitých kategorií lidí na základě velkého množství nepostřehnutelných signálů.

Scénáře zkreslení AI

Nejzjevnější a nejděsivější je, že se tento problém může projevit, pokud jde o lidskou rozmanitost. Nedávno ozvala se pověstže se Amazon pokusil vybudovat systém strojového učení pro počáteční prověřování uchazečů o zaměstnání. Vzhledem k tomu, že mezi pracovníky Amazonu je více mužů, příklady „úspěšného náboru“ jsou také častěji muži a ve výběru životopisů navržených systémem bylo více mužů. Amazon si toho všiml a systém neuvolnil do výroby.

Nejdůležitější věcí na tomto příkladu je, že se šuškalo, že systém upřednostňuje mužské uchazeče, přestože v životopise nebylo uvedeno pohlaví. Systém viděl další vzorce v příkladech „dobrých zaměstnanců“: například ženy mohly používat speciální slova k popisu úspěchů nebo mít zvláštní koníčky. Systém samozřejmě nevěděl, co je to „hokej“, kdo jsou „lidé“, ani co je „úspěch“ – jednoduše provedl statistickou analýzu textu. Ale vzory, které viděla, by si lidé s největší pravděpodobností nevšimli a některé z nich (například skutečnost, že lidé různého pohlaví popisují úspěch odlišně) bychom pravděpodobně těžko viděli, i kdybychom se na ně dívali.

Dále - horší. Systém strojového učení, který je velmi dobrý při hledání rakoviny na bledé pleti, nemusí fungovat tak dobře na tmavé pleti nebo naopak. Ne nutně kvůli zaujatosti, ale proto, že pravděpodobně potřebujete postavit samostatný model pro jinou barvu pleti a vybrat si jiné vlastnosti. Systémy strojového učení nejsou zaměnitelné ani v tak úzké oblasti, jako je rozpoznávání obrazu. Musíte systém vyladit, někdy jen pomocí pokusů a omylů, abyste dobře zvládli funkce v datech, která vás zajímají, dokud nedosáhnete požadované přesnosti. Ale co si možná nevšimnete, je, že systém je přesný 98 % času u jedné skupiny a pouze 91 % (dokonce přesnější než lidská analýza) u druhé.

Zatím jsem používal hlavně příklady týkající se lidí a jejich vlastností. Diskuse kolem tohoto problému se zaměřuje především na toto téma. Je však důležité pochopit, že zaujatost vůči lidem je pouze částí problému. Strojové učení budeme používat pro spoustu věcí a chyba vzorkování bude relevantní pro všechny. Na druhou stranu, pokud pracujete s lidmi, zkreslení v datech s nimi nemusí souviset.

Abychom to pochopili, vraťme se k příkladu rakoviny kůže a uvažujme tři hypotetické možnosti selhání systému.

  1. Heterogenní rozložení osob: nevyvážený počet fotografií různých odstínů pleti, což vede k falešným pozitivům nebo falešným negativům v důsledku pigmentace.
  2. Data, na kterých je systém trénován, obsahují často se vyskytující a heterogenně distribuovaný prvek, který není spojen s lidmi a nemá žádnou diagnostickou hodnotu: pravítko na fotografiích rakoviny kůže nebo trávy na fotografiích ovcí. V tomto případě bude výsledek jiný, pokud systém najde pixely na obrázku něčeho, co lidské oko identifikuje jako „pravítko“.
  3. Data obsahují charakteristiku třetí strany, kterou člověk nevidí, i když ji hledá.

Co to znamená? A priori víme, že data mohou reprezentovat různé skupiny lidí různě, a minimálně můžeme plánovat hledání takových výjimek. Jinými slovy, existuje spousta sociálních důvodů předpokládat, že údaje o skupinách lidí již obsahují určité zkreslení. Když se podíváme na fotku s pravítkem, uvidíme toto pravítko – předtím jsme ho prostě ignorovali s vědomím, že na tom nezáleží a zapomněli jsme, že systém nic neví.

Ale co kdyby všechny vaše fotografie nezdravé pleti byly pořízeny v kanceláři pod žárovkovým světlem a vaše zdravá pokožka byla pořízena pod zářivkovým světlem? Co když poté, co jste dokončili focení zdravé kůže, před focením nezdravé kůže, aktualizovali jste operační systém v telefonu a Apple nebo Google mírně změnily algoritmus redukce šumu? Člověk si toho nemůže všimnout, bez ohledu na to, jak moc takové rysy hledá. Ale strojový systém to okamžitě uvidí a použije. Ona nic neví.

Dosud jsme mluvili o falešných korelacích, ale může to být také tím, že data jsou přesná a výsledky správné, ale nechcete je používat z etických, právních nebo manažerských důvodů. Některé jurisdikce například neumožňují ženám získat slevu na pojištění, i když ženy mohou být bezpečnějšími řidičkami. Snadno si dokážeme představit systém, který by při analýze historických dat přiřadil ženským jménům nižší rizikový faktor. Dobře, odeberme jména z výběru. Ale vzpomeňte si na příklad Amazonu: systém dokáže určit pohlaví na základě jiných faktorů (i když neví, co je pohlaví nebo dokonce co je auto), a nevšimnete si toho, dokud regulátor zpětně nezanalyzuje tarify, které nabídnout a naúčtuje vám pokutu.

Nakonec se často předpokládá, že takové systémy budeme používat pouze pro projekty, které zahrnují lidi a sociální interakce. To je špatně. Pokud vyrábíte plynové turbíny, pravděpodobně budete chtít použít strojové učení na telemetrii přenášenou desítkami nebo stovkami senzorů na vašem produktu (audio, video, teplota a jakékoli další senzory generují data, která lze velmi snadno upravit pro vytvoření stroje model učení). Hypoteticky byste mohli říci: „Tady jsou data z tisíce turbín, které selhaly, než se porouchaly, a zde jsou data z tisíce turbín, které se nezhroutily. Sestavte model, abyste zjistili, jaký je mezi nimi rozdíl.“ No a teď si představte, že senzory Siemens jsou instalovány na 75% špatných turbín a pouze na 12% dobrých (s poruchami není žádná souvislost). Systém vytvoří model pro nalezení turbín se senzory Siemens. Jejda!

O zkreslení umělé inteligence
Obrázek — Moritz Hardt, UC Berkeley

Správa AI Bias

co s tím můžeme dělat? K problému můžete přistupovat ze tří úhlů:

  1. Metodická přísnost při sběru a správě dat pro trénování systému.
  2. Technické nástroje pro analýzu a diagnostiku chování modelu.
  3. Trénujte, vzdělávejte se a buďte opatrní při implementaci strojového učení do produktů.

V Molièrově knize „Buržoazie ve šlechtě“ je vtip: jednomu muži bylo řečeno, že literatura se dělí na prózu a poezii, a s potěšením zjistil, že celý život mluvil v próze, aniž by to věděl. Asi tak to dnes cítí statistici: aniž by si to uvědomovali, zasvětili svou kariéru umělé inteligenci a chybám ve vzorkování. Hledání vzorkovací chyby a starost o ni není nový problém, jen je potřeba systematicky přistupovat k jeho řešení. Jak bylo zmíněno výše, v některých případech je to ve skutečnosti snazší udělat studiem problémů souvisejících s údaji o lidech. A priori předpokládáme, že můžeme mít předsudky ohledně různých skupin lidí, ale je pro nás těžké si vůbec představit předsudek o senzorech Siemens.

Nové na tom všem je samozřejmě to, že lidé již neprovádějí přímou statistickou analýzu. Provádějí ho stroje, které vytvářejí velké, složité modely, které je obtížné pochopit. Otázka transparentnosti je jedním z hlavních aspektů problému podjatosti. Obáváme se, že systém není pouze zaujatý, ale že neexistuje způsob, jak jeho zaujatost odhalit, a že strojové učení se liší od jiných forem automatizace, které se mají skládat z jasných logických kroků, které lze testovat.

Jsou zde dva problémy. Možná budeme stále schopni provést nějaký druh auditu systémů strojového učení. A audit jakéhokoli jiného systému ve skutečnosti není o nic jednodušší.

Za prvé, jedním ze směrů moderního výzkumu v oblasti strojového učení je hledání metod k identifikaci důležité funkčnosti systémů strojového učení. To znamená, že strojové učení (ve svém současném stavu) je zcela nová vědní oblast, která se rychle mění, takže si nemyslete, že věci, které jsou dnes nemožné, se nemohou brzy stát zcela reálnými. Projekt OpenAI je toho zajímavým příkladem.

Za druhé, myšlenka, že můžete otestovat a porozumět rozhodovacímu procesu existujících systémů nebo organizací, je dobrá v teorii, ale tak-tak v praxi. Pochopit, jak se ve velké organizaci rozhodují, není snadné. I když existuje formální rozhodovací proces, neodráží to, jak lidé skutečně interagují, a oni sami často nemají logický, systematický přístup k rozhodování. Jak řekl můj kolega Vijay Pande, lidé jsou také černé skříňky.

Vezměte tisíc lidí v několika překrývajících se společnostech a institucích a problém bude ještě složitější. Víme po tom, že raketoplán byl předurčen k rozpadu při návratu a jednotlivci v NASA měli informace, které jim dávaly důvod myslet si, že by se mohlo stát něco špatného, ​​ale systém obecně Tohle jsem nevěděl. NASA dokonce právě prošla podobným auditem poté, co ztratila svůj předchozí raketoplán, a přesto přišla o další z velmi podobného důvodu. Je snadné tvrdit, že organizace a lidé dodržují jasná, logická pravidla, která lze otestovat, pochopit a změnit – ale zkušenost ukazuje opak. Tento "Gosplanův klam".

Strojové učení často přirovnávám k databázím, zejména relačním – nové zásadní technologii, která změnila možnosti informatiky a světa kolem ní, která se stala součástí všeho, kterou neustále používáme, aniž bychom si to uvědomovali. Databáze mají také problémy a jsou podobného rázu: systém může být postaven na špatných předpokladech nebo špatných datech, ale bude těžké si toho všimnout a lidé používající systém udělají, co jim řekne, aniž by se museli ptát. Existuje spousta starých vtipů o daňových lidech, kteří kdysi hláskovali vaše jméno špatně, a přesvědčit je, aby chybu opravili, je mnohem obtížnější, než si jméno skutečně změnit. Existuje mnoho způsobů, jak o tom přemýšlet, ale není jasné, který je lepší: jako technický problém v SQL, nebo jako chyba ve vydání Oracle, nebo jako selhání byrokratických institucí? Jak těžké je najít chybu v procesu, která vedla k tomu, že systém nemá funkci opravy překlepů? Dalo se na to přijít dřív, než si lidé začali stěžovat?

Tento problém ještě jednodušeji ilustrují příběhy, kdy řidiči vjíždějí do řek kvůli zastaralým údajům v navigátoru. Dobře, mapy je třeba neustále aktualizovat. Jak moc ale může TomTom za to, že vaše auto vyletělo do moře?

Důvod, proč to říkám, je, že ano, zkreslení strojového učení způsobí problémy. Ale tyto problémy budou podobné těm, kterým jsme čelili v minulosti, a lze si jich všimnout a vyřešit (nebo ne) asi tak dobře, jako jsme to dokázali v minulosti. Proto je nepravděpodobné, že by se u starších výzkumníků pracujících ve velké organizaci stal scénář, kdy zkreslení AI způsobí škodu. S největší pravděpodobností nějaký bezvýznamný dodavatel technologií nebo dodavatel softwaru něco napíše na koleně s použitím open source komponent, knihoven a nástrojů, kterým nerozumí. A nešťastný klient si v popisu produktu koupí frázi „umělá inteligence“ a bez dotazů ji rozdá svým špatně placeným zaměstnancům a nařídí jim, aby dělali to, co říká AI. To je přesně to, co se stalo s databázemi. Nejedná se o problém umělé inteligence, ani o softwarový problém. To je lidský faktor.

Závěr

Strojové učení dokáže vše, co můžete psa naučit – ale nikdy si nemůžete být jisti, co přesně jste psa naučili.

Často mám pocit, že termín „umělá inteligence“ takovým rozhovorům jen překáží. Tento termín vyvolává falešný dojem, že jsme ho skutečně vytvořili – tuto inteligenci. Že jsme na cestě k HAL9000 nebo Skynetu - něco, co ve skutečnosti chápe. Ale ne. Jsou to jen stroje a mnohem přesnější je přirovnat je třeba k pračce. Pere mnohem lépe než člověk, ale když do ní místo prádla dáte nádobí, ona... je umyje. Nádobí bude dokonce čisté. Ale to nebude to, co jste očekávali, a to se nestane, protože systém má nějaké předsudky ohledně nádobí. Pračka neví, co je nádobí nebo co je oblečení - je to jen příklad automatizace, koncepčně se neliší od toho, jak byly procesy automatizovány dříve.

Ať už mluvíme o autech, letadlech nebo databázích, tyto systémy budou velmi výkonné a velmi omezené. Budou zcela záviset na tom, jak lidé tyto systémy používají, zda jsou jejich záměry dobré nebo špatné a jak moc chápou, jak fungují.

Proto říkat, že „umělá inteligence je matematika, takže nemůže mít zaujatosti“, je zcela mylné. Stejně tak je ale nepravdivé tvrdit, že strojové učení má „subjektivní povahu“. Strojové učení najde vzory v datech a to, jaké vzory najde, závisí na datech a data závisí na nás. Stejně jako to, co s nimi děláme. Strojové učení dělá některé věci mnohem lépe než my – ale například psi jsou při odhalování drog mnohem efektivnější než lidé, což není důvod, proč je používat jako svědky a soudit je na základě jejich svědectví. A psi jsou mimochodem mnohem chytřejší než jakýkoli systém strojového učení.

Překlad: Diana Letská.
Editace: Alexej Ivanov.
Společenství: @PonchikNews.

Zdroj: www.habr.com

Přidat komentář