Tehisintellekti eelarvamuste kohta

Tehisintellekti eelarvamuste kohta

tl: dr:

  • Masinõpe otsib andmetest mustreid. Kuid tehisintellekt võib olla "kallutatud" - see tähendab, et leida mustreid, mis on valed. Näiteks võib fotopõhine nahavähi tuvastamise süsteem pöörata erilist tähelepanu arstikabinetis tehtud piltidele. Masinõpe ei saa aru saama: selle algoritmid tuvastavad ainult arvude mustreid ja kui andmed ei ole representatiivsed, siis tuvastavad ka nende töötlemise tulemused. Ja selliste vigade tabamine võib masinõppe mehaanika tõttu olla keeruline.
  • Kõige ilmsem ja hirmuäratavam probleemvaldkond on inimeste mitmekesisus. Põhjuseid, miks andmed inimeste kohta võivad kaotada objektiivsuse isegi kogumisetapis, on palju. Kuid ärge arvake, et see probleem puudutab ainult inimesi: täpselt samad raskused tekivad siis, kui proovite avastada üleujutust laos või rikkis gaasiturbiini. Mõned süsteemid võivad olla kallutatud nahavärvi, teised aga Siemensi andurite poole.
  • Sellised probleemid pole masinõppe jaoks uued ja pole kaugeltki ainulaadsed. Igas keerulises struktuuris tehakse valed eeldused ja alati on raske mõista, miks konkreetne otsus tehti. Peame selle vastu kõikehõlmavalt võitlema: looma kontrollimiseks tööriistu ja protsesse – ning harima kasutajaid, et nad ei järgiks pimesi tehisintellekti soovitusi. Masinõpe teeb mõningaid asju palju paremini kui meie – aga näiteks koerad on narkootikumide tuvastamisel palju tõhusamad kui inimesed, mis ei ole põhjus nende tunnistajatena kasutamiseks ja nende ütluste põhjal hinnangute tegemiseks. Ja koerad, muide, on palju targemad kui ükski masinõppesüsteem.

Masinõpe on tänapäeval üks olulisemaid fundamentaalseid tehnoloogiasuundi. See on üks peamisi viise, kuidas tehnoloogia järgmisel kümnendil meid ümbritsevat maailma muudab. Nende muutuste mõned aspektid on murettekitavad. Näiteks masinõppe võimalik mõju tööturule või selle kasutamine ebaeetilistel eesmärkidel (näiteks autoritaarsete režiimide poolt). On veel üks probleem, mida see postitus käsitleb: tehisintellekti eelarvamus.

See pole lihtne lugu.

Tehisintellekti eelarvamuste kohta
Google'i AI suudab kasse leida. See 2012. aasta uudis oli siis midagi erilist.

Mis on "AI eelarvamus"?

"Toorandmed" on nii oksüümoron kui ka halb mõte; andmed tuleb hästi ja hoolikalt ette valmistada. - Geoffrey Bocker

Kusagil enne 2013. aastat tuli selleks, et teha süsteem, mis näiteks fotodel kasse ära tunneb, kirjeldama loogilisi samme. Kuidas leida pildil nurki, ära tunda silmi, analüüsida karusnaha tekstuure, lugeda käppasid jne. Seejärel pange kõik komponendid kokku ja avastage, et see tegelikult ei tööta. Umbes nagu mehaaniline hobune – teoreetiliselt saab seda teha, kuid praktikas on see kirjeldamiseks liiga keeruline. Lõpptulemuseks on sadu (või isegi tuhandeid) käsitsi kirjutatud reegleid. Ja mitte ühtegi töötavat mudelit.

Masinõppe tulekuga lõpetasime konkreetse objekti tuvastamiseks käsitsi reeglite kasutamise. Selle asemel võtame tuhat proovi "sellest", X, tuhat "muu" Y proovi ja laseme arvutil koostada nende statistilise analüüsi põhjal mudeli. Seejärel anname sellele mudelile mõned näidisandmed ja see määrab teatud täpsusega, kas see sobib ühte komplektidest. Masinõpe loob mudeli andmetest, mitte seda kirjutavast inimesest. Tulemused on muljetavaldavad, eriti pildi- ja mustrituvastuse vallas, ning seetõttu liigub kogu tehnoloogiatööstus nüüd masinõppele (ML).

Kuid see pole nii lihtne. Reaalses maailmas sisaldavad teie tuhanded X või Y näited ka A, B, J, L, O, R ja isegi L. Need ei pruugi olla ühtlaselt jaotunud ja mõned võivad esineda nii sageli, et süsteem maksab rohkem tähelepanu neile kui objektidele, mis teid huvitavad.

Mida see praktikas tähendab? Minu lemmiknäide on pildituvastussüsteemid vaata rohtunud mäge ja ütle: "lammas". On selge, miks: enamik näidisfotosid "lammastest" on tehtud niitudel, kus nad elavad, ja nendel piltidel võtab muru palju rohkem ruumi kui väikesed valged kohevad ja just muru peab süsteem kõige olulisemaks. .

Tõsisemaid näiteid on. Üks hiljutine projekt nahavähi tuvastamiseks fotodel. Selgus, et sageli pildistavad nahaarstid joonlauda koos nahavähi ilmingutega, et fikseerida moodustiste suurus. Terve naha näidisfotodel pole joonlaudu. AI-süsteemi jaoks on sellistest joonlaudadest (täpsemalt pikslitest, mida me määratleme "joonlauana") saanud üks näidete komplektide erinevus ja mõnikord olulisem kui väike lööve nahal. Seega tunnistas nahavähi tuvastamiseks loodud süsteem mõnikord hoopis valitsejaid.

Võtmepunkt on siin see, et süsteemil puudub semantiline arusaam sellest, mida ta vaatab. Me vaatame pikslite komplekti ja näeme neis lammast, nahka või joonlaudu, kuid süsteem on vaid arvurida. Ta ei näe kolmemõõtmelist ruumi, ei näe objekte, tekstuure ega lambaid. Ta lihtsalt näeb andmetes mustreid.

Selliste probleemide diagnoosimise raskus seisneb selles, et närvivõrk (teie masinõppesüsteemi loodud mudel) koosneb tuhandetest sadadest tuhandetest sõlmedest. Ei ole lihtne viis mudelit uurida ja näha, kuidas see otsuse teeb. Sellise meetodi kasutamine tähendaks, et protsess on piisavalt lihtne, et kõiki reegleid käsitsi kirjeldada, ilma masinõpet kasutamata. Inimesed muretsevad, et masinõppest on saanud must kast. (Selgitan veidi hiljem, miks see võrdlus on ikka liiast.)

See on üldiselt tehisintellekti või masinõppe eelarvamuste probleem: andmetest mustrite leidmise süsteem võib leida valed mustrid ja te ei pruugi seda märgata. See on tehnoloogia põhiomadus ja see on ilmne kõigile, kes sellega akadeemias ja suurtes tehnoloogiaettevõtetes töötavad. Kuid selle tagajärjed on keerulised, nagu ka meie võimalikud lahendused nendele tagajärgedele.

Räägime kõigepealt tagajärgedest.

Tehisintellekti eelarvamuste kohta
AI võib meie jaoks kaudselt teha valiku teatud inimeste kategooriate kasuks, tuginedes suurele hulgale märkamatutele signaalidele

AI eelarvamuse stsenaariumid

Kõige ilmsem ja hirmutavam on see, et see probleem võib avalduda inimeste mitmekesisuses. Hiljuti käis kuulujuttet Amazon püüdis luua masinõppesüsteemi töökandidaatide esmaseks läbivaatamiseks. Kuna Amazoni töötajate hulgas on rohkem mehi, on ka “eduka töölevõtmise” näited sagedamini meessoost ning süsteemi pakutud CV-de valikus oli mehi rohkem. Amazon märkas seda ja ei lasknud süsteemi tootmisse.

Selle näite puhul on kõige olulisem see, et kuulujuttude järgi soosib süsteem meessoost taotlejaid, hoolimata sellest, et CV-s sugu ei märgitud. Süsteem nägi "heade palkade" näidetes muid mustreid: näiteks võivad naised kasutada saavutuste kirjeldamiseks erisõnu või neil on erilised hobid. Loomulikult ei teadnud süsteem, mis on "hoki" või kes on "inimesed" või mis on "edu" - see viis lihtsalt teksti statistilise analüüsi. Kuid need mustrid, mida ta nägi, jääksid inimestele suure tõenäosusega märkamatuks ja mõnda neist (näiteks asjaolu, et erinevast soost inimesed kirjeldavad edu erinevalt) oleks meil tõenäoliselt raske näha isegi siis, kui me neid vaataksime.

Edasi - hullem. Masinõppesüsteem, mis on väga hea vähktõve leidmisel kahvatul nahal, ei pruugi tumeda naha puhul sama hästi toimida või vastupidi. Mitte tingimata eelarvamuste tõttu, vaid seetõttu, et tõenäoliselt peate erineva nahavärvi jaoks looma eraldi mudeli, valides erinevad omadused. Masinõppesüsteemid ei ole omavahel asendatavad isegi nii kitsas valdkonnas nagu pildituvastus. Peate süsteemi kohandama, mõnikord lihtsalt katse-eksituse meetodil, et saada hästi käsitseda teid huvitavate andmete funktsioone, kuni saavutate soovitud täpsuse. Kuid mida te ei pruugi märgata, on see, et süsteem on ühe rühma puhul täpne 98% ajast ja teise rühma puhul ainult 91% (isegi täpsem kui inimese analüüs).

Seni olen kasutanud peamiselt näiteid inimeste ja nende omaduste kohta. Arutelu selle probleemi ümber keskendub peamiselt sellele teemale. Kuid on oluline mõista, et inimeste poole kaldumine on vaid osa probleemist. Kasutame masinõpet paljude asjade jaoks ja valimi võtmise viga on asjakohane nende kõigi jaoks. Teisest küljest, kui töötate inimestega, ei pruugi andmete eelarvamus olla nendega seotud.

Selle mõistmiseks pöördume tagasi nahavähi näite juurde ja kaalume kolme hüpoteetilist süsteemitõrke võimalust.

  1. Inimeste heterogeenne jaotus: erinevate nahatoonidega fotode tasakaalustamata arv, mis põhjustab pigmentatsiooni tõttu valepositiivseid või valenegatiive.
  2. Andmed, mille põhjal süsteemi koolitatakse, sisaldavad sageli esinevat ja heterogeenselt jaotunud tunnust, mis ei ole inimestega seotud ja millel puudub diagnostiline väärtus: joonlaud nahavähi fotodel või rohi lammaste fotodel. Sel juhul on tulemus erinev, kui süsteem leiab pildilt piksleid millegi, mida inimsilm identifitseerib "joonlauana".
  3. Andmed sisaldavad kolmanda osapoole omadust, mida inimene ei näe isegi siis, kui ta seda otsib.

Mida see tähendab? Teame a priori, et andmed võivad esindada erinevaid inimrühmi erinevalt, ja saame vähemalt plaanida selliseid erandeid otsida. Teisisõnu on palju sotsiaalseid põhjusi eeldada, et inimrühmade kohta käivad andmed sisaldavad juba teatud eelarvamusi. Kui vaatame joonlauaga fotot, siis näeme seda joonlauda – me lihtsalt ignoreerisime seda varem, teades, et sellel pole tähtsust, ja unustades, et süsteem ei tea midagi.

Aga mis siis, kui kõik teie fotod ebatervislikust nahast oleks tehtud kontoris hõõglambi valguses ja teie terve nahk fluorestsentsvalguses? Mis siis, kui pärast terve naha pildistamist, enne ebatervisliku naha pildistamist, värskendaksite oma telefoni operatsioonisüsteemi ja Apple või Google muudaksid veidi müra vähendamise algoritmi? Inimene ei suuda seda märgata, ükskõik kui palju ta selliseid tunnuseid otsib. Kuid masinakasutussüsteem näeb ja kasutab seda kohe. Ta ei tea midagi.

Siiani oleme rääkinud võltskorrelatsioonidest, kuid võib juhtuda, et andmed on täpsed ja tulemused õiged, kuid te ei soovi neid eetilistel, õiguslikel või juhtimiskaalutlustel kasutada. Näiteks mõned jurisdiktsioonid ei luba naistel kindlustuselt allahindlust saada, kuigi naised võivad olla turvalisemad juhid. Võime kergesti ette kujutada süsteemi, mis ajaloolisi andmeid analüüsides määraks naisenimedele väiksema riskiteguri. Olgu, eemaldame nimed valikust. Kuid pidage meeles Amazoni näidet: süsteem saab määrata soo muude tegurite põhjal (kuigi ta ei tea, mis sugu on või isegi mis on auto), ja te ei märka seda enne, kui regulaator teie tariife tagasiulatuvalt analüüsib. pakkumine ja tasu, mida trahvitakse.

Lõpuks eeldatakse sageli, et me kasutame selliseid süsteeme ainult projektide jaoks, mis hõlmavad inimesi ja sotsiaalset suhtlust. See on vale. Kui teete gaasiturbiine, soovite tõenäoliselt rakendada masinõpet oma toote kümnete või sadade andurite poolt edastatavale telemeetriale (heli-, video-, temperatuuri- ja muud andurid genereerivad andmeid, mida saab masina loomiseks väga lihtsalt kohandada õppemudel). Hüpoteetiliselt võite öelda: "Siin on andmed tuhande turbiini kohta, mis ebaõnnestusid enne, kui nad ebaõnnestusid, ja siin on andmed tuhande turbiini kohta, mis ei rikkis. Ehitage mudel, mis näitab, mis vahe neil on. Kujutage nüüd ette, et Siemensi andurid on paigaldatud 75% halbadele turbiinidele ja ainult 12% headele (riketega pole seost). Süsteem ehitab mudeli Siemensi anduritega turbiinide leidmiseks. Oih!

Tehisintellekti eelarvamuste kohta
Pilt – Moritz Hardt, UC Berkeley

AI eelarvamuse haldamine

Mida me saame sellega teha? Saate probleemile läheneda kolme nurga alt:

  1. Metoodiline rangus andmete kogumisel ja haldamisel süsteemi koolitamiseks.
  2. Tehnilised vahendid mudeli käitumise analüüsimiseks ja diagnoosimiseks.
  3. Koolitage, harige ja olge masinõppe toodetes juurutamisel ettevaatlik.

Molière’i raamatus “Kodanlased aadlis” on nali: ühele mehele öeldi, et kirjandus jaguneb proosaks ja luuleks, ning ta avastas rõõmuga, et ta oli terve elu rääkinud proosas, ilma et oleks seda teadmata. Ilmselt tunnevad statistikud tänapäeval nii: nad on enesele teadmata pühendanud oma karjääri tehisintellektile ja valimiveale. Valimivea otsimine ja selle pärast muretsemine ei ole uus probleem, peame lihtsalt selle lahendusele süstemaatiliselt lähenema. Nagu eespool mainitud, on seda mõnel juhul lihtsam teha, kui uurida inimeste andmetega seotud probleeme. Eeldame a priori, et meil võib olla eelarvamusi erinevate inimrühmade suhtes, kuid meil on raske isegi ette kujutada eelarvamust Siemensi andurite kohta.

Uus selle kõige juures on muidugi see, et inimesed ei tegele enam otseselt statistilise analüüsiga. Seda teostavad masinad, mis loovad suuri keerukaid mudeleid, millest on raske aru saada. Läbipaistvuse küsimus on erapoolikuse probleemi üks peamisi aspekte. Me kardame, et süsteem ei ole lihtsalt kallutatud, vaid selle kallutamist pole võimalik tuvastada ning masinõpe erineb teistest automatiseerimise vormidest, mis peaksid koosnema selgetest loogilistest sammudest, mida saab testida.

Siin on kaks probleemi. Võib-olla saame siiski teha mingisuguse masinõppesüsteemide auditi. Ja mis tahes muu süsteemi auditeerimine pole tegelikult lihtsam.

Esiteks on masinõppe valdkonna kaasaegse uurimistöö üheks suunaks masinõppesüsteemide olulise funktsionaalsuse tuvastamise meetodite otsimine. Sellegipoolest on masinõpe (praeguses olekus) täiesti uus teadusvaldkond, mis muutub kiiresti, nii et ärge arvake, et asjad, mis täna on võimatud, ei saa peagi päris tõeliseks muutuda. Projekt OpenAI - huvitav näide sellest.

Teiseks, idee, et saate testida ja mõista olemasolevate süsteemide või organisatsioonide otsustusprotsessi, on teoreetiliselt hea, kuid praktikas on nii ja naa. Mõista, kuidas suures organisatsioonis otsuseid tehakse, pole lihtne. Isegi kui toimub formaalne otsustusprotsess, ei peegelda see seda, kuidas inimesed tegelikult suhtlevad, ja neil endal puudub sageli loogiline, süsteemne lähenemine oma otsuste tegemisele. Nagu mu kolleeg ütles Vijay Pande, inimesed on ka mustad kastid.

Võtke tuhat inimest mitmesse kattuvasse ettevõttesse ja asutusse ja probleem muutub veelgi keerulisemaks. Pärast seda teame, et kosmosesüstik pidi naasmisel laiali lagunema ja NASA üksikisikutel oli teavet, mis andis neile põhjust arvata, et midagi halba võib juhtuda, kuid süsteem üldiselt Ma ei teadnud seda. NASA läbis isegi sarnase auditi pärast eelmise süstiku kaotamist, kuid kaotas veel ühe väga sarnasel põhjusel. Lihtne on väita, et organisatsioonid ja inimesed järgivad selgeid, loogilisi reegleid, mida saab testida, mõista ja muuta, kuid kogemused näitavad vastupidist. see"Gosplani pettekujutelm'.

Ma võrdlen masinõpet sageli andmebaasidega, eriti relatsioonilistega – see on uus fundamentaalne tehnoloogia, mis on muutnud arvutiteaduse ja seda ümbritseva maailma võimalusi ning millest on saanud osa kõigest, mida me kasutame pidevalt, teadvustamata. Andmebaasidel on ka probleeme ja need on sarnase iseloomuga: süsteem võib olla üles ehitatud halbadele eeldustele või halbadele andmetele, kuid seda on raske märgata ja süsteemi kasutavad inimesed teevad küsimusi esitamata, mida see neile ütleb. On palju vanu nalju maksuinimeste kohta, kes kirjutasid teie nime kunagi valesti, ja neid veenda viga parandama on palju keerulisem kui oma nime tegelik muutmine. Selle üle võib mõelda mitmel viisil, kuid pole selge, kumb on parem: SQL-i tehnilise probleemina või Oracle'i väljalaske veana või bürokraatlike institutsioonide ebaõnnestumisena? Kui keeruline on leida protsessis viga, mis on viinud selleni, et süsteemil pole kirjavea parandamise funktsiooni? Kas sellest oleks saanud aru saada enne, kui inimesed kaebama hakkasid?

Seda probleemi illustreerivad veelgi lihtsamalt lood, kui juhid sõidavad jõgedesse navigaatori vananenud andmete tõttu. Olgu, kaarte tuleb pidevalt uuendada. Aga kui palju on TomTom süüdi selles, et teie auto merre lendas?

Põhjus, miks ma seda ütlen, on see, et jah, masinõppe eelarvamus tekitab probleeme. Kuid need probleemid on sarnased nendega, millega oleme silmitsi seisnud minevikus, ja neid saab märgata ja lahendada (või mitte) sama hästi kui varem. Seetõttu ei juhtu suures organisatsioonis töötavate vanemteadlastega tõenäoliselt stsenaariumi, mille puhul AI eelarvamus põhjustab kahju. Tõenäoliselt kirjutab mõni tähtsusetu tehnoloogiatöövõtja või tarkvaramüüja midagi põlvili, kasutades avatud lähtekoodiga komponente, teeke ja tööriistu, millest nad aru ei saa. Ja õnnetu klient ostab tootekirjelduses fraasi "tehisintellekt" ja jagab selle ilma küsimusi esitamata oma madalapalgalistele töötajatele, käskides neil teha seda, mida AI ütleb. Täpselt nii juhtus ka andmebaasidega. See ei ole tehisintellekti ega isegi tarkvaraprobleem. See on inimfaktor.

Järeldus

Masinõpe võib teha kõike, mida saate koerale õpetada – kuid te ei saa kunagi olla kindel, mida täpselt koerale õpetasite.

Mulle tundub sageli, et mõiste "tehisintellekt" jääb selliste vestluste jaoks ainult segaseks. See termin jätab vale mulje, nagu me selle tegelikult lõime – see intelligentsus. Et oleme teel HAL9000 või Skyneti poole – midagi sellist saab aru. Kuid mitte. Need on lihtsalt masinad ja palju täpsem on neid võrrelda näiteks pesumasinaga. Ta peseb palju paremini kui inimene, aga kui paned temasse pesu asemel nõud, siis ta... peseb need ära. Nõud saavad isegi puhtaks. Kuid see ei ole see, mida ootasite, ja seda ei juhtu, sest süsteemil on roogade suhtes eelarvamusi. Pesumasin ei tea, mis on nõud või mis on riided – see on lihtsalt näide automatiseerimisest, kontseptuaalselt ei erine sellest, kuidas protsesse varem automatiseeriti.

Ükskõik, kas me räägime autodest, lennukitest või andmebaasidest, on need süsteemid nii väga võimsad kui ka väga piiratud. Need sõltuvad täielikult sellest, kuidas inimesed neid süsteeme kasutavad, kas nende kavatsused on head või halvad ja kui palju nad mõistavad nende toimimist.

Seetõttu on täiesti vale väide, et "tehisintellekt on matemaatika, seega ei saa sellel olla eelarvamusi". Kuid sama vale on väita, et masinõpe on "loomult subjektiivne". Masinõpe leiab andmetest mustrid ja millised mustrid see leiab, sõltub andmetest ja andmed meist endist. Täpselt nagu see, mida me nendega teeme. Masinõpe teeb mõningaid asju palju paremini kui meie – aga näiteks koerad on narkootikumide tuvastamisel palju tõhusamad kui inimesed, mis ei ole põhjus nende tunnistajatena kasutamiseks ja nende ütluste põhjal hinnangute tegemiseks. Ja koerad, muide, on palju targemad kui ükski masinõppesüsteem.

Tõlge: Diana Letskaja.
Redigeerimine: Aleksei Ivanov.
Kommuun: @PonchikNews.

Allikas: www.habr.com

Lisa kommentaar