Adimen Artifizialaren Alborapenari buruz

Adimen Artifizialaren Alborapenari buruz

tl: dr:

  • Ikaskuntza automatikoa datuetan ereduak bilatzen ditu. Baina adimen artifiziala "alboratuta" izan daiteke, hau da, okerrak diren ereduak aurkitu. Adibidez, argazkietan oinarritutako larruazaleko minbizia detektatzeko sistema batek arreta berezia jarri diezaieke medikuaren kontsultan hartutako irudiei. Ikaskuntza automatikoa ezin da ulertzeko: bere algoritmoek ereduak zenbakietan soilik identifikatzen dituzte, eta datuak adierazgarriak ez badira, prozesamenduaren emaitza ere bai. Eta horrelako akatsak harrapatzea zaila izan daiteke ikaskuntza automatikoaren mekanika dela eta.
  • Arazorik nabarmenena eta beldurgarriena giza aniztasuna da. Arrazoi asko daude pertsonei buruzko datuek objektibotasuna gal dezaketen bilketa fasean ere. Baina ez pentsa arazo honek pertsonei bakarrik eragiten dienik: hain zuzen zailtasun berak sortzen dira biltegi batean uholde bat edo huts egindako gas-turbina batean antzematen saiatzean. Sistema batzuk azalaren kolorearen alde egon daitezke, beste batzuk Siemens sentsoreen alde.
  • Horrelako arazoak ez dira berriak ikaskuntza automatikoan, eta ez dira bakarrak. Edozein egitura konplexutan hipotesi okerrak egiten dira, eta erabaki jakin bat zergatik hartu den ulertzea zaila da beti. Horri aurre egin behar diogu modu integralean: egiaztatzeko tresnak eta prozesuak sortu eta erabiltzaileak hezi, AIren gomendioak itsu-itsuan jarraitu ez ditzaten. Ikaskuntza automatikoak guk ahal baino askoz hobeto egiten ditu gauza batzuk, baina txakurrak, adibidez, gizakiak baino askoz eraginkorragoak dira drogak detektatzeko, eta hori ez da arrazoia lekuko gisa erabiltzeko eta haien testigantzan oinarrituta epaitzeko. Eta txakurrak, bide batez, ikaskuntza automatikoko edozein sistema baino askoz ere adimentsuagoak dira.

Machine learning gaur egungo teknologia-joera garrantzitsuenetako bat da. Hau da hurrengo hamarkadan teknologiak gure inguruko mundua aldatuko duen bide nagusietako bat. Aldaketa horien alderdi batzuk kezkagarriak dira. Adibidez, ikaskuntza automatikoa lan-merkatuan izan dezakeen eragina, edo helburu ez-etikoetarako erabiltzea (adibidez, erregimen autoritarioek). Argitalpen honek zuzentzen duen beste arazo bat dago: adimen artifizialaren alborapena.

Hau ez da istorio erraza.

Adimen Artifizialaren Alborapenari buruz
Google-ren AIak katuak aurki ditzake. 2012ko albiste hau zerbait berezia zen orduan.

Zer da "AI Bias"?

“Datu gordinak” oximoron bat eta ideia txarra da aldi berean; datuak ondo eta arretaz prestatu behar dira. —Geoffrey Boker

2013a baino lehen, demagun, katuak argazkietan ezagutzen dituen sistema bat egiteko, urrats logikoak deskribatu behar izan dituzu. Nola aurkitu irudi batean bazterrak, begiak ezagutu, ilearen ehundurak aztertu, oinak zenbatu eta abar. Ondoren, jarri osagai guztiak eta ezagutu benetan ez duela funtzionatzen. Zaldi mekaniko baten antzera - teorikoki egin daiteke, baina praktikan konplexuegia da deskribatzeko. Azken emaitza eskuz idatzitako ehunka (edo milaka) arau dira. Eta lan eredu bakar bat ere ez.

Ikaskuntza automatikoaren etorrerarekin, objektu jakin bat ezagutzeko "eskuzko" arauak erabiltzeari utzi genion. Horren ordez, "honen" X-ren mila lagin hartzen ditugu, "bestea" Y-ren mila lagin, eta ordenagailuari eredu bat eraikitzen diogu haien analisi estatistikoan oinarrituta. Ondoren, eredu honi lagin-datu batzuk ematen dizkiogu eta nolabaiteko zehaztasunarekin zehazten du multzoetako batera egokitzen den. Machine learning-ek eredu bat sortzen du datuetatik eta ez gizaki batek idatzita. Emaitzak ikusgarriak dira, batez ere irudien eta ereduen aitorpenaren alorrean, eta horregatik teknologia-industria osoa ikaskuntza automatikora (ML) mugitzen ari da.

Baina ez da hain erraza. Mundu errealean, zure X edo Y-ren milaka adibideek A, B, J, L, O, R eta L ere badute. Baliteke horiek ez egotea uniformeki banatuta, eta batzuk hain maiz gerta daitezke sistemak gehiago ordainduko duela. arreta horiei interesatzen zaizkizun objektuei baino.

Zer esan nahi du horrek praktikan? Nire adibiderik gogokoena irudiak ezagutzeko sistemak dira muino belartsu bati begiratu eta esan "ardiak". Argi dago zergatik: "ardiaren" adibideko argazki gehienak haiek bizi diren belardietan ateratzen dira, eta irudi hauetan belarrak apur bat zuri txikiek baino askoz leku gehiago hartzen dute, eta sistemak garrantzitsuentzat jotzen duen belarra da. .

Adibide serioagoak daude. Duela gutxi bat proiektua argazkietan azaleko minbizia detektatzeko. Dermatologoek sarritan erregula argazkia egiten dutela azaleko minbiziaren agerpenekin batera, formazioen tamaina erregistratzeko. Larruazal osasuntsuaren adibideetako argazkietan ez dago erregelarik. AI sistema baterako, halako erregelak (zehazkiago, "erregela" gisa definitzen ditugun pixelak) adibide multzoen arteko desberdintasunetako bat bihurtu dira, eta, batzuetan, larruazaleko erupzio txiki bat baino garrantzitsuagoak dira. Beraz, larruazaleko minbizia identifikatzeko sortutako sistema batek batzuetan agintariak ezagutzen zituen.

Hemen gakoa da sistemak ez duela zer ikusten ari den ulermen semantikorik. Pixel multzo bati begiratzen diogu eta horietan ardi bat, azala edo erregelak ikusten ditugu, baina sistema zenbaki-lerro bat baino ez da. Ez du hiru dimentsioko espazioa ikusten, ez du objekturik, ehundurarik edo ardirik ikusten. Datuetan ereduak besterik ez ditu ikusten.

Arazo horiek diagnostikatzeko zailtasuna da sare neuronalak (zure ikaskuntza automatikoko sistemak sortutako eredua) milaka ehunka mila nodoz osatuta dagoela. Ez dago modu erraza eredu bat aztertu eta erabakia nola hartzen duen ikusteko. Modu hori edukitzeak esan nahi du prozesua nahikoa sinplea dela arau guztiak eskuz deskribatzeko, ikasketa automatikoa erabili gabe. Jendeak kezkatzen du ikaskuntza automatikoa kutxa beltz bat bihurtu dela. (Apur bat geroago azalduko dut zergatik den oraindik gehiegi konparaketa hau.)

Hau da, orokorrean, adimen artifizialaren edo ikaskuntza automatikoaren alborapenaren arazoa: datuetan ereduak aurkitzeko sistema batek eredu okerrak aurki ditzake, eta agian ez duzu nabarituko. Hau teknologiaren oinarrizko ezaugarria da, eta agerikoa da akademian eta teknologia-enpresa handietan horrekin lan egiten duten guztientzat. Baina bere ondorioak konplexuak dira, eta ondorio horietarako gure irtenbide posibleak ere bai.

Hitz egin dezagun lehenik ondorioei buruz.

Adimen Artifizialaren Alborapenari buruz
IAk, inplizituki guretzat, pertsona kategoria batzuen aldeko hautua egin dezake, seinale hautemanezin ugaritan oinarrituta.

AI Bias Eszenarioak

Argiena eta beldurgarriena, arazo hau giza aniztasunari dagokionez ager daiteke. Duela gutxi zurrumurru bat zegoenAmazon saiatu zela lan-hautagaien hasierako baheketa egiteko makina ikasteko sistema bat eraikitzen. Amazoneko langileen artean gizon gehiago daudenez, "kontratazio arrakastatsuen" adibideak ere gizonezkoak izaten dira maizago, eta gizon gehiago zeuden sistemak iradokitako curriculumak aukeratzerakoan. Amazonek hori nabaritu zuen eta ez zuen sistema ekoiztera atera.

Adibide honetan garrantzitsuena da sistemak gizonezkoen eskatzaileei mesede egiten ziela esaten zuela, curriculumean generoa zehaztu ez bazen ere. Sistemak beste eredu batzuk ikusi zituen "kontratazio onen" adibideetan: adibidez, emakumeek hitz bereziak erabil ditzakete lorpenak deskribatzeko edo zaletasun bereziak izan. Jakina, sistemak ez zekien zer zen "hockeya", edo "pertsonak" ziren, edo zer zen "arrakasta" - testuaren analisi estatistikoa besterik ez zuen egin. Baina ikusten zituen ereduak gizakiek oharkabean pasako lituzkete ziurrenik, eta horietako batzuk (adibidez, genero ezberdinetako pertsonek arrakasta ezberdin deskribatzen dutela) ziurrenik kosta egingo zitzaigun ikustea nahiz eta haiek begiratu.

Aurrerago - okerragoa. Larruazal zurbilean minbizia aurkitzeko oso ona den ikaskuntza automatikoko sistema batek baliteke azal ilunean bezain ondo ez funtzionatzea, edo alderantziz. Ez nahitaez alborapenagatik, baizik eta ziurrenik larruazaleko kolore ezberdin baterako eredu bereizi bat eraiki behar duzulako, ezaugarri desberdinak aukeratuz. Ikaskuntza automatikoko sistemak ez dira trukagarriak irudien ezagutza bezalako eremu estu batean ere. Sistema moldatu behar duzu, batzuetan entsegu eta erroreen bidez, interesatzen zaizkizun datuen ezaugarriak ondo ezagutzeko, nahi duzun zehaztasuna lortu arte. Baina baliteke ohartuko ez zarena da sistema denboraren % 98 zehatza dela talde batekin, eta % 91 baino ez (giza analisia baino zehatzagoa) bestearekin.

Orain arte batez ere pertsonen eta haien ezaugarriekin lotutako adibideak erabili ditut. Arazo honen inguruko eztabaida gai honetan zentratzen da batez ere. Baina garrantzitsua da ulertzea pertsonenganako joera arazoaren zati bat baino ez dela. Ikaskuntza automatikoa erabiliko dugu gauza askotarako, eta laginketa-errorea garrantzitsua izango da guztietarako. Bestalde, jendearekin lan egiten baduzu, baliteke datuen alborapena ez egotea haiekin.

Hori ulertzeko, itzul gaitezen larruazaleko minbiziaren adibidera eta azter ditzagun sistemaren hutsegiterako hiru aukera hipotetiko.

  1. Pertsonen banaketa heterogeneoa: azal-tonu ezberdinetako argazki-kopuru desorekatua, pigmentazioa dela-eta positibo faltsuak edo negatibo faltsuak sortzen dituena.
  2. Sistema entrenatzen den datuek maiz gertatzen den eta modu heterogeneoan banatutako ezaugarri bat dute, pertsonekin lotzen ez dena eta diagnostiko-baliorik ez duena: larruazaleko minbiziaren argazkietan erregela bat edo ardien argazkietan belarra. Kasu honetan, emaitza ezberdina izango da sistemak giza begiak "erregela" gisa identifikatzen duen zerbaiten irudian pixelak aurkitzen baditu.
  3. Datuek hirugarrenen ezaugarri bat dute, pertsona batek bilatu arren ikusi ezin duena.

Zer esan nahi du? A priori badakigu datuek pertsona talde desberdinak modu ezberdinean ordezka ditzaketela, eta, gutxienez, horrelako salbuespenak bilatzea aurreikusi dezakegu. Beste era batera esanda, gizarte-arrazoi ugari daude pertsona taldeei buruzko datuek dagoeneko alborapen bat dutela pentsatzeko. Erregelarekin argazkiari erreparatzen badiogu, erregela hau ikusiko dugu; besterik gabe, aurretik jaramonik egin ez genion, jakinik ez duela axola eta sistemak ezer ez dakiela ahaztuz.

Baina zer gertatzen da zure larruazal osasuntsuaren argazki guztiak bulego batean argi goriekin aterako balira eta zure larruazal osasuntsua argi fluoreszentearekin aterako balitz? Zer gertatzen da, larruazal osasuntsuak filmatzen amaitu ondoren, larruazal osasuntsuak filmatu aurretik, zure telefonoko sistema eragilea eguneratzen baduzu eta Applek edo Google-k zarata murrizteko algoritmoa pixka bat aldatuko balute? Pertsona batek ezin du horretaz ohartu, halako ezaugarriak zenbat bilatzen dituen ere. Baina makinen erabilera sistemak berehala ikusiko du eta erabiliko du hori. Ez daki ezer.

Orain arte korrelazio faltsuei buruz hitz egin dugu, baina baliteke datuak zehatzak izatea eta emaitzak zuzenak izatea ere, baina ez dituzula erabili nahi arrazoi etiko, juridiko edo kudeaketarako. Zenbait jurisdikzio, adibidez, emakumeek ez dute onartzen beren aseguruan deskontua jasotzeko, emakumeak gidari seguruagoak izan daitezkeen arren. Erraz imajina dezakegu sistema bat, datu historikoak aztertzean, emakumezkoen izenei arrisku-faktore txikiagoa esleituko liekeena. Ados, kendu ditzagun izenak hautapenetik. Baina gogoratu Amazonen adibidea: sistemak beste faktore batzuen arabera zehaztu dezake generoa (nahiz eta ez dakien zer den generoa, ezta autoa zer den ere), eta ez zara horretaz ohartuko, erregulatzaileak atzeraeraginean dituzun tarifak aztertu arte. eskaintzen eta kobratzen dizu isuna jarriko dizute.

Azkenik, askotan pentsatu ohi da pertsonak eta gizarte-harremanak inplikatzen dituzten proiektuetarako soilik erabiliko ditugula horrelako sistemak. Hau gaizki dago. Gas-turbinak egiten badituzu, ziurrenik zure produktuan hamar edo ehunka sentsorek transmititzen duten telemetriari buruzko ikaskuntza automatikoa aplikatu nahi izango duzu (audioa, bideoa, tenperatura eta beste edozein sentsoreek makina bat sortzeko oso erraz molda daitezkeen datuak sortzen dituzte). ikasteko eredua). Hipotetikoki, esan liteke: “Hona hemen huts egin aurretik huts egin duten mila turbinen datuak, eta hona huts egin ez duten mila turbinen datuak. Eraiki eredu bat haien arteko aldea zein den esateko». Bada, orain imajinatu Siemens sentsoreak turbina txarren %75ean instalatuta daudela, eta onen %12an bakarrik (ez dago hutsegiteekin loturarik). Sistemak modelo bat eraikiko du Siemens sentsoreekin turbinak aurkitzeko. Aupa!

Adimen Artifizialaren Alborapenari buruz
Irudia - Moritz Hardt, UC Berkeley

AI alborapena kudeatzea

Zer egin dezakegu horri buruz? Gaiari hiru ikuspegitatik hurbil dezakezu:

  1. Sistema trebatzeko datuak biltzeko eta kudeatzeko zorroztasun metodologikoa.
  2. Ereduen portaera aztertzeko eta diagnostikatzeko tresna teknikoak.
  3. Prestatu, hezi eta kontuz ibili ikasketa automatikoa produktuetan inplementatzen duzunean.

Molièreren “Burgesak noblezian” liburuan bada txantxa bat: gizon bati literatura prosan eta poesian banatuta dagoela esan zioten, eta poz-pozik ikusi zuen bizitza osoan prosan hitz egiten aritu zela, jakin gabe. Hauxe da ziurrenik gaur egun estatistikariek sentitzen dutena: konturatu gabe, adimen artifizialari eta laginketa-erroreari eskaini diote beren karrera. Laginketa-errorea bilatzea eta horretaz kezkatzea ez da arazo berria, bere konponbideari sistematikoki hurbildu besterik ez dugu egin behar. Goian esan bezala, kasu batzuetan errazagoa da hori egitea pertsonen datuekin lotutako arazoak aztertuz. A priori suposatzen dugu pertsona talde ezberdinen inguruan aurreiritziak izan ditzakegula, baina zaila egiten zaigu Siemens sentsoreei buruzko aurreiritzirik ere imajinatzea.

Honen guztiaren berritasuna, noski, jendeak ez duela analisi estatistiko zuzenean egiten. Ulertzeko zailak diren eredu handi eta konplexuak sortzen dituzten makinek egiten dute. Gardentasunaren gaia alborapenaren arazoaren alderdi nagusietako bat da. Beldur gara sistema ez ote den alboratzailea bakarrik, baizik eta ez ote den bere alborapena detektatzeko modurik, eta ikaskuntza automatikoa beste automatizazio-moduetatik desberdina den, probatu daitezkeen urrats logiko argiez osatuta daudela suposatzen da.

Hemen bi arazo daude. Baliteke ikaskuntza automatikoko sistemen nolabaiteko auditoria egiteko gai izatea. Eta beste edozein sistema ikuskatzea ez da errazagoa.

Lehenik eta behin, ikaskuntza automatikoaren alorreko ikerketa modernoaren ildoetako bat ikaskuntza automatikoko sistemen funtzionalitate garrantzitsuak identifikatzeko metodoak bilatzea da. Hori bai, ikaskuntza automatikoa (gaur egungo egoeran) zientziaren arlo guztiz berria da, azkar aldatzen ari dena, beraz, ez pentsa gaur egun ezinezkoak diren gauzak ezin direla laster guztiz erreal bihurtu. Proiektua OpenAI - horren adibide interesgarri bat.

Bigarrenik, lehendik dauden sistemen edo erakundeen erabakiak hartzeko prozesua probatu eta ulertu dezakezula teorian ona da, baina praktikan ere bai. Erakunde handi batean erabakiak nola hartzen diren ulertzea ez da erraza. Erabakiak hartzeko prozesu formal bat badago ere, ez du islatzen jendeak nola elkarreragiten duen benetan, eta beraiek, askotan, ez dute beren erabakiak hartzeko ikuspegi logiko eta sistematikorik. Nire lankideak esan bezala Vijay Pande, jendea ere kutxa beltzak dira.

Hartu mila pertsona gainjarri diren hainbat enpresa eta erakundetan, eta arazoa are konplexuagoa da. Jakin badakigu Espazio Transbordadorea itzultzean hautsi behar zela, eta NASAko gizabanakoek zerbait txarra gerta zitekeela pentsatzeko arrazoiak ematen zizkien informazioa zuten, baina sistemak orokorrean Ez nekien hau. NASAk aurreko transbordadorea galdu ostean antzeko auditoretza bat egin zuen, eta, hala ere, beste bat galdu zuen oso antzeko arrazoi bategatik. Erraza da argudiatzea erakundeek eta pertsonek arau argi eta logikoak betetzen dituztela, probatu, ulertu eta aldatu daitezkeenak, baina esperientziak kontrakoa frogatzen du. Hau"Gosplanen engainua'.

Askotan konparatzen dut ikaskuntza automatikoa datu-baseekin, batez ere erlazionalekin, informatikaren eta inguruko munduaren gaitasunak aldatu dituen oinarrizko teknologia berri bat, guztiaren parte bihurtu dena, konturatu gabe etengabe erabiltzen duguna. Datu-baseek ere arazoak dituzte, eta antzeko izaera dute: sistema hipotesi txarretan edo datu txarretan eraiki daiteke, baina zaila izango da antzematea, eta sistema erabiltzen dutenek esandakoa egingo dute galderarik egin gabe. Zure izena gaizki idatzi zuten zergalariei buruzko txiste zahar asko daude, eta akatsa zuzentzeko konbentzitzea askoz zailagoa da zure izena aldatzea baino. Modu asko daude honi buruz pentsatzeko, baina ez dago argi zein den hobea: SQLren arazo tekniko gisa, edo Oracle-ren bertsio bateko akats gisa, edo erakunde burokratikoen porrot gisa? Zein zaila da akats bat aurkitzea sistemak akatsak zuzentzeko eginbiderik ez izatea eragin duen prozesu batean? Jendea kexatzen hasi aurretik argitu zitekeen hori?

Arazo hau are sinpleago azaltzen da istorioek gidariek ibaietara gidatzen dutenean, nabigatzaileko datu zaharkituengatik. Ados, mapak etengabe eguneratu behar dira. Baina zenbateko errua du TomTomek zure autoa itsasora lehertzeagatik?

Hau esaten dudan arrazoia da, bai, ikaskuntza automatikoaren alborapenak arazoak sortuko dituela. Baina arazo hauek iraganean izan ditugunen antzekoak izango dira, eta iraganean ahal izan genuen bezain ondo nabaritu eta konpondu (edo ez) daitezke. Hori dela eta, erakunde handi batean lan egiten duten ikertzaile seniorrei nekez gertatuko zaie AI alborapenak kalteak eragiten dituen eszenatoki bat. Seguruenik, teknologia-kontratista edo software-saltzaile hutsal batzuek belauniko zerbait idatziko dute, ulertzen ez dituzten kode irekiko osagaiak, liburutegiak eta tresnak erabiliz. Eta zorterik gabeko bezeroak produktuaren deskribapenean "adimen artifiziala" esaldia erosiko du eta, inolako galderarik egin gabe, ordaindu gabeko langileei banatuko die, AI-ak dioena egiteko aginduz. Horixe da datu-baseekin gertatu dena. Hau ez da adimen artifizialaren arazo bat, ezta software arazo bat ere. Hau da giza faktorea.

Ondorioa

Ikaskuntza automatikoa txakur bati irakats diezaiokezun edozer egin dezake, baina ezin duzu inoiz ziur egon txakurrari zer irakatsi diozun zehazki.

Askotan sentitzen dut "adimen artifiziala" terminoak honelako elkarrizketetan soilik oztopatzen duela. Termino honek benetan sortu dugula inpresio faltsua ematen du, adimen hori. HAL9000 edo Skynet-era bidean goazela, benetan ulertzen du. Baina ez. Makinak besterik ez dira, eta askoz zehatzagoa da, esate baterako, garbigailu batekin alderatzea. Gizakiak baino askoz hobeto egiten du arropa garbitzen, baina arropa garbitu beharrean platerak jartzen badiozu, berak... garbituko ditu. Platerak garbi geratuko dira. Baina hau ez da espero zenuena izango, eta hori ez da gertatuko sistemak platerekiko inolako aurreiritzirik duelako. Garbigailuak ez daki zer diren platerak edo zer den arropa; automatizazioaren adibide bat besterik ez da, kontzeptualki ez da lehen prozesuak nola automatizatzen ziren.

Kotxeez, hegazkinez edo datu-baseez ari garela, sistema hauek oso indartsuak eta oso mugatuak izango dira. Jendeak sistema hauek nola erabiltzen dituen, beren asmoak onak edo txarrak diren eta nola funtzionatzen duten ulertzen dutenaren araberakoak izango dira erabat.

Hori dela eta, "adimen artifiziala matematika dela, beraz, ezin du alborapenik izan" esatea guztiz faltsua da. Baina berdin faltsua da ikaskuntza automatikoa "izaera subjektiboa" dela esatea. Ikaskuntza automatikoa datuetan ereduak aurkitzen ditu, eta aurkitzen dituen ereduak datuen araberakoak dira, eta datuak gure araberakoak dira. Haiekin egiten duguna bezalaxe. Ikaskuntza automatikoak guk ahal baino askoz hobeto egiten ditu gauza batzuk, baina txakurrak, adibidez, gizakiak baino askoz eraginkorragoak dira drogak detektatzeko, eta hori ez da arrazoia lekuko gisa erabiltzeko eta haien testigantzan oinarrituta epaitzeko. Eta txakurrak, bide batez, ikaskuntza automatikoko edozein sistema baino askoz ere adimentsuagoak dira.

itzulpena: Diana Letskaya.
Edizioa: Aleksey Ivanov.
Komunitatea: @PonchikNews.

Iturria: www.habr.com

Gehitu iruzkin berria