Babagan Artificial Intelligence Bias

Babagan Artificial Intelligence Bias

tl; dr:

  • Machine learning nggoleki pola ing data. Nanging intelijen buatan bisa dadi "bias" - yaiku, golek pola sing ora bener. Contone, sistem deteksi kanker kulit adhedhasar foto bisa uga menehi perhatian khusus marang gambar sing dijupuk ing kantor dokter. Machine learning ora bisa ngerti: algoritma sawijining mung ngenali pola ing nomer, lan yen data ora wakil, bakal asil Processing. Lan nyekel kewan omo kasebut bisa dadi angel amarga mekanika pembelajaran mesin.
  • Wilayah masalah sing paling jelas lan nggegirisi yaiku keragaman manungsa. Ana akeh alasan kenapa data babagan wong bisa ilang obyektif sanajan ing tahap koleksi. Nanging aja mikir sing masalah iki mung mengaruhi wong: persis kangelan padha nalika nyoba kanggo ndeteksi banjir ing gudang utawa turbin gas gagal. Sawetara sistem bisa uga bias menyang warna kulit, liyane bakal bias menyang sensor Siemens.
  • Masalah kuwi ora anyar kanggo machine learning, lan padha adoh saka unik kanggo iku. Asumsi sing salah digawe ing struktur sing kompleks, lan ngerti sebabe keputusan tartamtu mesthi angel. Kita kudu nglawan iki kanthi cara sing komprehensif: nggawe alat lan proses kanggo verifikasi - lan ngajari pangguna supaya ora ngetutake rekomendasi AI kanthi wuta. Pembelajaran mesin nindakake sawetara perkara sing luwih apik tinimbang sing bisa kita lakoni - nanging asu, umpamane, luwih efektif tinimbang manungsa kanggo ndeteksi obat-obatan, sing dudu alasan kanggo nggunakake obat kasebut minangka saksi lan nggawe keputusan adhedhasar paseksene. Lan asu, kanthi cara, luwih pinter tinimbang sistem pembelajaran mesin.

Pembelajaran mesin minangka salah sawijining tren teknologi dhasar sing paling penting saiki. Iki minangka salah sawijining cara utama teknologi bakal ngganti jagad ing sekitar kita ing dekade sabanjure. Sawetara aspèk owah-owahan iki nimbulaké kuwatir. Contone, impact potensial saka machine learning ing pasar tenaga kerja, utawa nggunakake kanggo tujuan ora etis (contone, dening rezim otoriter). Ana masalah liyane sing ditangani kiriman iki: bias artificial intelligence.

Iki dudu crita sing gampang.

Babagan Artificial Intelligence Bias
AI Google bisa nemokake kucing. Kabar iki wiwit taun 2012 pancen istimewa.

Apa "AI Bias"?

"Data mentah" iku loro oxymoron lan idea ala; data kudu disiapake kanthi apik lan tliti. -Geoffrey Bocker

Nang endi wae sadurunge 2013, kanggo nggawe sistem sing, ngomong, ngenali kucing ing foto, sampeyan kudu njlèntrèhaké langkah-langkah logis. Cara nemokake sudhut ing gambar, ngenali mata, nganalisa tekstur kanggo wulu, ngetung paws, lan liya-liyane. Banjur sijine kabeh komponen bebarengan lan temokake sing ora bener bisa. Kaya jaran mekanik - kanthi teoritis bisa digawe, nanging ing praktik kasebut rumit banget kanggo diterangake. Asil pungkasan iku atusan (utawa malah ewonan) aturan tulisan tangan. Lan ora model apa wae.

Kanthi tekane learning machine, kita mandheg nggunakake aturan "manual" kanggo ngenali obyek tartamtu. Nanging, kita njupuk sewu conto "iki", X, sewu conto "liyane", Y, lan komputer nggawe model adhedhasar analisis statistik. Kita banjur menehi model iki sawetara data sampel lan nemtokake kanthi presisi manawa cocog karo salah sawijining set. Pembelajaran mesin ngasilake model saka data tinimbang saka tulisan manungsa. Asil kasebut nyengsemaken, utamane ing bidang pangenalan gambar lan pola, lan mulane kabeh industri teknologi saiki pindhah menyang pembelajaran mesin (ML).

Nanging iku ora sing prasaja. Ing donya nyata, ewu conto X utawa Y sampeyan uga ngemot A, B, J, L, O, R, lan malah L. Iki bisa uga ora disebarake kanthi merata, lan sawetara bisa kedadeyan kanthi kerep banget supaya sistem bakal mbayar luwih akeh. manungsa waé kanggo wong-wong mau tinimbang kanggo obyek sing kapentingan sampeyan.

Apa tegese iki ing laku? Conto favoritku yaiku nalika sistem pangenalan gambar ndeleng gunung suket lan ngomong, "wedhus". Cetha sebabe: umume conto foto "wedhus" dijupuk ing padang rumput, lan ing gambar kasebut, suket njupuk papan luwih akeh tinimbang kembang putih cilik, lan suket sing dianggep paling penting ing sistem kasebut. .

Ana conto sing luwih serius. Siji anyar konsep kanggo ndeteksi kanker kulit ing foto. Ternyata dermatologists asring motret panguasa bebarengan karo manifestasi kanker kulit kanggo ngrekam ukuran formasi. Ora ana aturan ing conto foto kulit sing sehat. Kanggo sistem AI, panguasa kasebut (luwih tepate, piksel sing ditetepake minangka "panguasa") dadi salah sawijining beda antarane conto, lan kadhangkala luwih penting tinimbang ruam cilik ing kulit. Dadi sistem digawe kanggo ngenali kanker kulit kadhangkala dikenali panguwasa tinimbang.

Titik kunci ing kene yaiku sistem kasebut ora duwe pangerten semantik babagan apa sing dideleng. We katon ing pesawat saka piksel lan ndeleng ing wong wedhus, kulit utawa panguwasa, nanging sistem mung baris nomer. Dheweke ora ndeleng papan telung dimensi, ora ndeleng obyek, tekstur, utawa wedhus. Dheweke mung ndeleng pola ing data.

Kesulitan kanggo diagnosa masalah kasebut yaiku jaringan saraf (model sing digawe dening sistem pembelajaran mesin sampeyan) dumadi saka ewonan atusan ewu simpul. Ora ana cara sing gampang kanggo ndeleng model lan ndeleng carane nggawe keputusan. Nduwe cara kasebut tegese proses kasebut cukup prasaja kanggo njlèntrèhaké kabeh aturan kanthi manual, tanpa nggunakake machine learning. Wong padha sumelang yen learning machine wis dadi soko saka kothak ireng. (Aku bakal nerangake sethithik kok perbandingan iki isih akeh banget.)

Iki, ing istilah umum, minangka masalah bias ing intelijen buatan utawa pembelajaran mesin: sistem kanggo nemokake pola ing data bisa nemokake pola sing salah, lan sampeyan bisa uga ora weruh. Iki minangka ciri dhasar teknologi kasebut, lan jelas kanggo saben wong sing nggarap ing akademisi lan ing perusahaan teknologi gedhe. Nanging akibate rumit, lan uga solusi sing bisa ditindakake kanggo akibat kasebut.

Ayo dadi pirembagan bab jalaran pisanan.

Babagan Artificial Intelligence Bias
AI bisa, kanthi implisit kanggo kita, nggawe pilihan kanggo milih kategori wong tartamtu, adhedhasar sinyal sing ora bisa dingerteni.

AI Bias Skenario

Sing paling jelas lan medeni, masalah iki bisa diwujudake nalika nerangake keragaman manungsa. bubar ana gosipsing Amazon nyoba kanggo mbangun sistem machine learning kanggo screening awal saka calon proyek. Amarga ana luwih akeh wong ing antarane para pekerja Amazon, conto "perekrutan sing sukses" uga luwih asring lanang, lan luwih akeh wong ing pilihan resume sing disaranake dening sistem kasebut. Amazon ngerteni iki lan ora ngeculake sistem kasebut menyang produksi.

Sing paling penting ing conto iki yaiku sistem kasebut dikabarake kanggo milih pelamar lanang, sanajan jender ora ditemtokake ing resume. Sistem kasebut ndeleng pola liyane ing conto "perekrut sing apik": contone, wanita bisa nggunakake tembung khusus kanggo nggambarake prestasi, utawa duwe hobi khusus. Mesthi, sistem ora ngerti apa "hockey", utawa "wong", utawa apa "sukses" - iku mung nindakake analisis statistik saka teks. Nanging pola-pola sing dideleng mesthine ora digatekake dening manungsa, lan sawetara saka wong-wong mau (contone, kasunyatan manawa wong-wong saka macem-macem jinis nggambarake sukses kanthi cara sing beda) bisa uga angel kanggo ndeleng sanajan kita ndeleng.

Luwih - luwih elek. Sistem pembelajaran mesin sing apik banget kanggo nemokake kanker ing kulit pucet bisa uga ora apik ing kulit peteng, utawa kosok balene. Ora mesthi amarga bias, nanging amarga sampeyan mbokmenawa kudu mbangun model sing kapisah kanggo warna kulit sing beda, milih karakteristik sing beda. Sistem pembelajaran mesin ora bisa diganti sanajan ing wilayah sing sempit kaya pangenalan gambar. Sampeyan kudu ngapiki sistem, kadhangkala mung liwat nyoba lan kesalahan, kanggo njaluk nangani apik ing fitur ing data sing kasengsem ing nganti sampeyan entuk akurasi sing dikarepake. Nanging apa sampeyan ora sok dong mirsani iku sistem akurat 98% wektu karo siji klompok, lan mung 91% (malah luwih akurat saka analisis manungsa) karo liyane.

Nganti saiki aku wis nggunakake utamane conto sing ana hubungane karo wong lan karakteristike. Diskusi babagan masalah iki utamane fokus ing topik iki. Nanging penting kanggo ngerti manawa bias menyang wong mung minangka bagean saka masalah. Kita bakal nggunakake machine learning kanggo akeh perkara, lan kesalahan sampling bakal relevan kanggo kabeh. Ing tangan liyane, yen sampeyan nggarap wong, bias ing data bisa uga ora ana hubungane karo wong-wong mau.

Kanggo mangerteni iki, ayo bali menyang conto kanker kulit lan nimbang telung kemungkinan hipotetis kanggo kegagalan sistem.

  1. Distribusi wong sing heterogen: jumlah foto sing ora seimbang kanthi warna kulit sing beda-beda, nyebabake positif palsu utawa negatif palsu amarga pigmentasi.
  2. Data ing ngendi sistem kasebut dilatih ngemot fitur sing kerep kedadeyan lan disebarake kanthi heterogen sing ora ana hubungane karo wong lan ora duwe nilai diagnostik: panguasa ing foto kanker kulit utawa suket ing foto wedhus. Ing kasus iki, asil bakal beda yen sistem nemokake piksel ing gambar soko sing mripat manungsa ngenali minangka "panguwasa".
  3. Data kasebut ngemot karakteristik pihak katelu sing ora bisa dideleng wong sanajan dheweke nggoleki.

Iki artine apa? Kita ngerti a priori sing data bisa makili macem-macem klompok wong beda, lan ing minimal kita bisa rencana kanggo nggoleki istiméwa kuwi. Ing tembung liyane, ana akeh alasan sosial kanggo nganggep yen data babagan klompok wong wis ngemot sawetara bias. Yen kita ndeleng foto karo panguasa, kita bakal weruh panguwasa iki - kita mung digatèkaké sadurunge, ngerti sing ora Matter, lan lali sing sistem ora ngerti apa-apa.

Nanging kepiye yen kabeh foto kulit sing ora sehat dijupuk ing kantor kanthi lampu pijar, lan kulit sing sehat dijupuk nganggo lampu neon? Apa yen, sawise sampeyan rampung njupuk kulit sing sehat, sadurunge njupuk kulit sing ora sehat, sampeyan nganyari sistem operasi ing telpon, lan Apple utawa Google rada ngganti algoritma pangurangan swara? Wong ora bisa sok dong mirsani iki, ora ketompo carane akeh sing katon kanggo fitur kuwi. Nanging sistem nggunakake mesin bakal langsung ndeleng lan nggunakake iki. Dheweke ora ngerti apa-apa.

Nganti saiki kita wis ngomong babagan korélasi palsu, nanging bisa uga data kasebut akurat lan asile bener, nanging sampeyan ora pengin nggunakake kanggo alasan etika, legal, utawa manajemen. Sawetara yuridiksi, contone, ora ngidini wanita nampa diskon ing asuransi, sanajan wanita bisa dadi pembalap sing luwih aman. Kita bisa gampang mbayangno sistem sing, nalika nganalisa data historis, bakal nemtokake faktor risiko sing luwih murah kanggo jeneng wanita. Oke, ayo mbusak jeneng saka pilihan. Nanging elinga conto Amazon: sistem bisa nemtokake jender adhedhasar faktor liyane (sanajan ora ngerti apa jenis kelamin, utawa malah apa mobil), lan sampeyan ora bakal sok dong mirsani iki nganti regulator retroactively nganalisa tariffs sampeyan. tawaran lan ngisi sampeyan sampeyan bakal didenda.

Pungkasan, asring dianggep yen kita mung bakal nggunakake sistem kasebut kanggo proyek sing melu wong lan interaksi sosial. Iki salah. Yen sampeyan nggawe turbin gas, sampeyan bisa uga pengin ngetrapake pembelajaran mesin menyang telemetri sing dikirim dening puluhan utawa atusan sensor ing produk sampeyan (audio, video, suhu, lan sensor liyane ngasilake data sing bisa gampang diadaptasi kanggo nggawe mesin. model pembelajaran). Kanthi hipotesis, sampeyan bisa ujar, "Iki data saka sewu turbin sing gagal sadurunge gagal, lan iki data saka sewu turbin sing ora gagal. Nggawe model kanggo nemtokake apa bedane antarane dheweke. Saiki bayangake yen sensor Siemens dipasang ing 75% turbin sing ala, lan mung 12% sing apik (ora ana hubungane karo kegagalan). Sistem kasebut bakal nggawe model kanggo nemokake turbin kanthi sensor Siemens. Adhuh!

Babagan Artificial Intelligence Bias
Gambar - Moritz Hardt, UC Berkeley

Ngatur Bias AI

Apa sing bisa ditindakake? Sampeyan bisa nyedhaki masalah kasebut saka telung sudut:

  1. Kaku metodologis ing ngumpulake lan ngatur data kanggo latihan sistem.
  2. Piranti teknis kanggo nganalisa lan diagnosa prilaku model.
  3. Latih, ajar, lan ati-ati nalika ngetrapake pembelajaran mesin menyang produk.

Ana lelucon ing buku Molière "The Bourgeois in the Nobility": ana wong sing dikandhani manawa sastra dibagi dadi prosa lan puisi, lan dheweke seneng banget amarga dheweke wis ngomong nganggo prosa sajrone urip, tanpa ngerti. Iki bisa uga dirasakake para ahli statistik saiki: tanpa disadari, dheweke wis ngabdiake karir kanggo intelijen buatan lan kesalahan sampling. Nggoleki kesalahan sampling lan kuwatir babagan iki dudu masalah anyar, kita mung kudu nyedhaki solusi kanthi sistematis. Kaya sing kasebut ing ndhuwur, ing sawetara kasus, luwih gampang nindakake iki kanthi nyinaoni masalah sing ana gandhengane karo data wong. Kita apriori nganggep manawa kita duwe prasangka babagan macem-macem klompok wong, nanging angel kanggo mbayangake prasangka babagan sensor Siemens.

Sing anyar babagan kabeh iki, mesthi, wong ora ana maneh nindakake analisis statistik kanthi langsung. Iki ditindakake dening mesin sing nggawe model gedhe lan rumit sing angel dingerteni. Masalah transparansi minangka salah sawijining aspek utama masalah bias. We wedi sing sistem ora mung prasongko, nanging ora ana cara kanggo ndeteksi bias sawijining, lan machine learning beda saka wangun liya saka otomatisasi, kang mestine kalebu langkah logis cetha sing bisa dites.

Ana rong masalah ing kene. Kita bisa uga isih bisa nindakake sawetara audit sistem pembelajaran mesin. Lan audit sistem liyane ora luwih gampang.

Kaping pisanan, salah sawijining arah riset modern ing bidang pembelajaran mesin yaiku nggoleki cara kanggo ngenali fungsi penting sistem pembelajaran mesin. Sing jarene, machine learning (ing kahanan saiki) minangka bidang ilmu anyar sing ganti cepet, mula aja mikir manawa perkara sing ora mungkin saiki ora bisa dadi nyata. Proyek OpenAI - conto menarik iki.

Kapindho, gagasan yen sampeyan bisa nguji lan mangerteni proses nggawe keputusan sistem utawa organisasi sing wis ana apik ing teori, nanging ing laku. Ngerteni carane keputusan digawe ing organisasi gedhe ora gampang. Sanajan ana proses pengambilan keputusan sing resmi, ora nggambarake carane wong sesambungan, lan dheweke asring ora duwe pendekatan sing logis lan sistematis kanggo nggawe keputusan. Minangka kolega ngandika Vijay Pande, wong uga kothak ireng.

Njupuk sewu wong ing sawetara perusahaan lan institusi sing tumpang tindih, lan masalah kasebut dadi luwih rumit. Kita ngerti sawise kasunyatan manawa Space Shuttle ditakdirake bubar nalika bali, lan individu ing NASA duwe informasi sing menehi alesan kanggo mikir yen ana kedadeyan sing ala, nanging sistem kasebut umume Aku ora ngerti iki. NASA malah mung ngliwati audit sing padha sawise kelangan pesawat ulang-alik sadurunge, nanging ilang liyane amarga alasan sing padha. Gampang kanggo mbantah manawa organisasi lan wong ngetutake aturan sing jelas lan logis sing bisa diuji, dimangerteni, lan diganti-nanging pengalaman mbuktekake yen ora. Iki"khayalan Gosplan".

Aku kerep mbandhingake machine learning kanggo database, utamané relasional - teknologi dhasar anyar sing wis ngganti kemampuan ilmu komputer lan donya watara, kang wis dadi bagéan saka kabeh, kang digunakake terus-terusan tanpa sadhar. Basis data uga duwe masalah, lan padha karo sifat sing padha: sistem kasebut bisa dibangun kanthi asumsi sing ala utawa data sing ala, nanging bakal angel diweruhi, lan wong sing nggunakake sistem kasebut bakal nindakake apa sing dikandhakake tanpa takon. Ana akeh lelucon lawas babagan wong pajak sing nate salah nulis jeneng sampeyan, lan ngyakinake dheweke kanggo mbenerake kesalahan kasebut luwih angel tinimbang ngganti jeneng sampeyan. Ana akeh cara kanggo mikir babagan iki, nanging ora jelas sing luwih apik: minangka masalah teknis ing SQL, utawa minangka bug ing release Oracle, utawa minangka kegagalan institusi birokrasi? Sepira angel golek bug ing proses sing nyebabake sistem ora duwe fitur koreksi typo? Apa iki bisa ditemokake sadurunge wong-wong mulai sambat?

Masalah iki digambarake luwih gampang kanthi crita nalika sopir nyopir menyang kali amarga data sing wis lawas ing navigator. Oke, peta kudu dianyari terus. Nanging pira sing kudu disalahake TomTom amarga mobil sampeyan diunekake menyang segara?

Alesan sing dakkandhakake yaiku ya, bias sinau mesin bakal nggawe masalah. Nanging masalah iki bakal padha karo sing wis kita ngadhepi ing sasi, lan padha bisa ngeweruhi lan ditanggulangi (utawa ora) bab uga kita bisa kanggo ing sasi. Mulane, skenario sing bias AI nyebabake cilaka ora mungkin kedadeyan kanggo peneliti senior sing kerja ing organisasi gedhe. Paling kamungkinan, sawetara kontraktor teknologi utawa vendor piranti lunak sing ora pati penting bakal nulis soko ing dhengkul, nggunakake komponen open source, perpustakaan lan alat sing ora dingerteni. Lan klien sing ora beruntung bakal tuku tembung "intelijen buatan" ing katrangan produk lan, tanpa takon apa-apa, disebarake menyang karyawan sing dibayar murah, mrentah supaya nindakake apa sing dikandhakake AI. Iki persis apa sing kedadeyan karo database. Iki dudu masalah intelijen buatan, utawa malah masalah piranti lunak. Iki minangka faktor manungsa.

kesimpulan

Machine learning bisa nindakake apa wae sing bisa diwulangake marang asu - nanging sampeyan ora bisa yakin apa sing sampeyan ajarake marang asu kasebut.

Aku kerep aran istilah "intelijen buatan" mung dadi ing cara obrolan kaya iki. Istilah iki menehi kesan palsu yen kita bener-bener nggawe - intelijen iki. Kita lagi ing dalan menyang HAL9000 utawa Skynet - soko sing bener ngerti. Nanging ora. Iki mung mesin, lan iku luwih akurat kanggo mbandhingaké karo, ngomong, mesin ngumbah. Dheweke nindakake umbah-umbah luwih apik tinimbang manungsa, nanging yen sampeyan nyelehake piring tinimbang umbah-umbah, dheweke bakal ngumbah. Piring malah bakal dadi resik. Nanging iki ora bakal dikarepake, lan iki ora bakal kelakon amarga sistem wis prejudices bab sajian. Mesin cuci ora ngerti apa piring utawa sandhangan apa - iki mung conto otomatisasi, kanthi konsep ora beda karo cara proses otomatis sadurunge.

Apa kita ngomong babagan mobil, pesawat, utawa database, sistem kasebut bakal kuat banget lan winates banget. Dheweke bakal gumantung kabeh babagan carane wong nggunakake sistem kasebut, apa tujuane apik utawa ala, lan kepiye ngerti cara kerjane.

Mula, ujar manawa "intelijen buatan yaiku matematika, mula ora bisa bias" pancen salah. Nanging uga ora bener yen sinau mesin minangka "sifat subyektif." Machine learning nemokake pola ing data, lan pola apa sing ditemokake gumantung saka data, lan data gumantung marang kita. Kaya sing kita lakoni karo dheweke. Pembelajaran mesin nindakake sawetara perkara sing luwih apik tinimbang sing bisa kita lakoni - nanging asu, umpamane, luwih efektif tinimbang manungsa kanggo ndeteksi obat-obatan, sing dudu alasan kanggo nggunakake obat kasebut minangka saksi lan nggawe keputusan adhedhasar paseksene. Lan asu, kanthi cara, luwih pinter tinimbang sistem pembelajaran mesin.

Terjemahan: Diana Letskaya.
Ngedit: Aleksey Ivanov.
Komunitas: @PonchikNews.

Source: www.habr.com

Add a comment