Ngeunaan Bias Artificial Intelligence

Ngeunaan Bias Artificial Intelligence

TL; dr:

  • Pembelajaran mesin milarian pola dina data. Tapi kecerdasan jieunan bisa "bias" - nyaeta, manggihan pola nu salah. Contona, sistem deteksi kanker kulit dumasar poto bisa nengetan husus ka gambar nu dicandak di kantor dokter urang. Pembelajaran mesin teu tiasa ngarti: Algoritma na ngan ngaidentipikasi pola dina angka, sarta lamun data henteu ngawakilan, jadi bakal hasil ngolah na. Sareng nyekel kutu sapertos kitu tiasa sesah kusabab mékanika diajar mesin.
  • Wewengkon masalah anu paling atra sareng pikasieuneun nyaéta karagaman manusa. Aya loba alesan naha data ngeunaan jalma bisa leungit objektivitas sanajan dina tahap ngumpulkeun. Tapi ulah nganggap yén masalah ieu ngan mangaruhan jalma: persis kasusah sarua timbul nalika nyobian ngadeteksi banjir di gudang atawa turbin gas gagal. Sababaraha sistem tiasa condong kana warna kulit, anu sanésna condong kana sénsor Siemens.
  • Masalah sapertos kitu sanés énggal pikeun diajar mesin, sareng aranjeunna jauh tina unik pikeun éta. Asumsi anu salah dilakukeun dina struktur anu kompleks, sareng ngartos naha kaputusan anu khusus dilakukeun sok sesah. Urang kedah merangan ieu ku cara anu komprehensif: nyiptakeun alat sareng prosés pikeun verifikasi - sareng ngadidik pangguna supados aranjeunna henteu nuturkeun saran AI sacara buta. Pembelajaran mesin ngalakukeun sababaraha hal anu langkung saé tibatan anu urang tiasa - tapi anjing, contona, langkung efektif tibatan manusa dina ngadeteksi narkoba, anu sanés alesan pikeun ngagunakeunana salaku saksi sareng ngadamel pertimbangan dumasar kana kasaksianna. Sareng anjing, ku jalan kitu, langkung pinter tibatan sistem pembelajaran mesin.

Pembelajaran mesin mangrupikeun salah sahiji tren téknologi dasar anu paling penting ayeuna. Ieu mangrupikeun salah sahiji cara utama téknologi bakal ngarobih dunya di sabudeureun urang dina dasawarsa ka hareup. Sababaraha aspék parobahan ieu ngabalukarkeun perhatian. Contona, dampak poténsi learning mesin dina pasar tenaga kerja, atawa pamakéanana pikeun tujuan unethical (contona, ku rezim otoriter). Aya masalah sejen anu alamat pos ieu: bias kecerdasan jieunan.

Ieu sanés carita anu gampang.

Ngeunaan Bias Artificial Intelligence
AI Google tiasa mendakan ucing. Ieu warta ti 2012 éta hal husus deui lajeng.

Naon "AI Bias"?

"Data atah" duanana mangrupa oxymoron jeung gagasan goréng; data kudu disusun kalawan hadé tur taliti. -Geoffrey Boker

Di mana waé sateuacan 2013, pikeun ngadamel sistem anu, sebutkeun, ngakuan ucing dina poto, anjeun kedah ngajelaskeun léngkah-léngkah anu logis. Kumaha carana manggihan sudut dina gambar, ngakuan panon, nganalisis tékstur pikeun bulu, cacah paws, jeung saterusna. Lajeng nempatkeun sakabéh komponén babarengan jeung manggihan yén éta teu bener jalan. Sapertos kuda mékanis - sacara téoritis tiasa dilakukeun, tapi dina prakna éta rumit teuing pikeun ngajelaskeun. Hasil ahir nyaéta ratusan (atawa malah rébuan) aturan tulisan leungeun. Jeung teu model gawé tunggal.

Ku mecenghulna learning mesin, urang dieureunkeun ngagunakeun aturan "manual" pikeun recognizing objék tinangtu. Gantina, urang nyandak sarébu sampel "ieu", X, sarébu sampel "lain", Y, sarta boga komputer ngawangun modél dumasar kana analisis statistik maranéhanana. Urang lajeng masihan model ieu sababaraha data sampel sarta nangtukeun kalawan sababaraha precision naha éta fits salah sahiji set. Pembelajaran mesin ngahasilkeun modél tina data tinimbang tina tulisan manusa. Hasilna impressive, utamana dina widang gambar sarta pangakuan pola, sarta éta naha sakabéh industri tech ayeuna pindah ka machine learning (ML).

Tapi teu kitu basajan. Di alam nyata, rébuan conto X atawa Y anjeun ogé ngandung A, B, J, L, O, R, komo L. Ieu bisa jadi teu merata disebarkeun, sarta sababaraha bisa jadi sering lumangsung yén sistem bakal mayar leuwih. perhatian ka aranjeunna tinimbang objék nu dipikaresep ku anjeun.

Naon ieu hartosna dina prakna? conto favorit abdi nalika sistem pangakuan gambar kasampak di hiji pasir jukut jeung sebutkeun, "domba". Éta jelas kunaon: kalolobaan conto poto "domba" dicandak di padang rumput hejo dimana aranjeunna cicing, sareng dina gambar ieu jukut nyéépkeun rohangan anu langkung ageung tibatan kembang bodas anu leutik, sareng éta jukut anu dianggap paling penting ku sistem. .

Aya conto anu langkung serius. Hiji panganyarna proyékna pikeun ngadeteksi kanker kulit dina poto. Tétéla yén dermatologists mindeng photograph pangawasa babarengan jeung manifestasi kanker kulit pikeun ngarekam ukuran formasi. Henteu aya aturan dina conto poto kulit séhat. Pikeun sistem AI, pangawasa sapertos (leuwih tepatna, piksel nu urang ngartikeun salaku "pangawasa") geus jadi salah sahiji béda antara susunan conto, sarta kadangkala leuwih penting batan baruntus leutik dina kulit. Jadi sistem dijieun pikeun ngaidentipikasi kanker kulit kadang dipikawanoh pamingpin gantina.

Titik konci di dieu nyaéta yén sistem henteu gaduh pamahaman semantis ngeunaan naon anu ditingali. Urang nempo susunan piksel tur tingal dina eta domba, kulit atawa pangawasa, tapi sistem ngan hiji garis angka. Anjeunna henteu ningali rohangan tilu diménsi, henteu ningali objék, tékstur, atanapi domba. Anjeunna ngan ukur ningali pola dina data.

Kasesahan dina ngadiagnosa masalah sapertos kitu nyaéta jaringan saraf (model anu dihasilkeun ku sistem pembelajaran mesin anjeun) diwangun ku rébuan ratusan rébu titik. Teu aya cara anu gampang pikeun ningali modél sareng ningali kumaha nyandak kaputusan. Ngagaduhan cara sapertos kitu hartosna prosésna cukup saderhana pikeun ngajelaskeun sagala aturan sacara manual, tanpa nganggo mesin diajar. Jalma hariwang yén pembelajaran mesin parantos janten kotak hideung. (Kuring bakal ngajelaskeun saeutik engké naha ngabandingkeun ieu masih teuing.)

Ieu, sacara umum, masalah bias dina kecerdasan jieunan atawa learning mesin: sistem pikeun manggihan pola dina data bisa manggihan pola salah, sarta anjeun bisa jadi teu aya bewara eta. Ieu mangrupikeun ciri dasar téknologi, sareng écés pikeun saha waé anu damel sareng éta di akademisi sareng di perusahaan téknologi ageung. Tapi konsékuansi na kompléks, sarta kitu ogé solusi urang mungkin pikeun konsékuansi maranéhanana.

Hayu urang ngobrol ngeunaan konsékuansi munggaran.

Ngeunaan Bias Artificial Intelligence
AI tiasa, sacara implisit pikeun urang, ngadamel pilihan pikeun milih sababaraha kategori jalma, dumasar kana sajumlah ageung sinyal anu teu katingali.

Skenario Bias AI

Paling écés sarta frighteningly, masalah ieu bisa manifest sorangan lamun datang ka diversity manusa. Nembe aya gosipyén Amazon nyobian ngawangun sistem pembelajaran mesin pikeun saringan awal calon padamelan. Kusabab aya langkung seueur lalaki di antara pagawé Amazon, conto "nyewa suksés" ogé langkung sering lalaki, sareng langkung seueur lalaki dina pilihan resume anu disarankeun ku sistem. Amazon perhatikeun ieu sareng henteu ngaluarkeun sistem kana produksi.

Hal anu paling penting dina conto ieu nyaéta yén sistem éta dikabarkan langkung milih ngalamar lalaki, sanaos kanyataan yén génder henteu dieusian dina neruskeun. Sistim nu nempo pola séjén dina conto "hires alus": contona, awéwé bisa ngagunakeun kecap husus pikeun ngajelaskeun accomplishments, atawa boga hobi husus. Tangtosna, sistem henteu terang naon "hoki", atanapi saha "jalma", atanapi naon "sukses" - éta ngan ukur ngalaksanakeun analisa statistik téks. Tapi pola-pola anu anjeunna tingali sigana bakal teu katingali ku manusa, sareng sababaraha di antarana (contona, kanyataan yén jalma-jalma tina gender anu béda ngajelaskeun kasuksésan sacara béda) sigana bakal sesah pikeun urang ningali sanaos urang ningal aranjeunna.

Salajengna - parah. Sistem pembelajaran mesin anu saé pisan pikeun mendakan kanker dina kulit anu bulak tiasa henteu saé dina kulit anu poék, atanapi sabalikna. Teu merta kusabab bias, tapi sabab meureun kudu ngawangun model misah pikeun warna kulit béda, milih ciri béda. Sistem pembelajaran mesin henteu tiasa ditukeurkeun sanajan di daérah anu sempit sapertos pangakuan gambar. Anjeun kedah nyabit sistem, sakapeung ngan ukur liwat trial and error, pikeun meunangkeun cecekelan anu saé dina fitur dina data anu anjeun pikahoyong dugi ka ngahontal akurasi anu dipikahoyong. Tapi naon anu anjeun henteu perhatikeun nyaéta yén sistem éta akurat 98% waktos sareng hiji grup, sareng ngan 91% (malah langkung akurat tibatan analisa manusa) sareng anu sanés.

Sajauh ieu kuring geus dipaké utamana conto anu patali jeung jalma jeung ciri maranéhanana. Diskusi ngeunaan masalah ieu utamana museurkeun kana topik ieu. Tapi penting pikeun ngarti yén bias ka jalma ngan ukur bagian tina masalah. Kami bakal ngagunakeun pembelajaran mesin pikeun seueur hal, sareng kasalahan sampling bakal relevan pikeun sadayana. Di sisi anu sanésna, upami anjeun damel sareng jalma, bias dina data tiasa henteu aya hubunganana sareng aranjeunna.

Pikeun ngartos ieu, hayu urang uih deui ka conto kanker kulit sareng mertimbangkeun tilu kamungkinan hipotésis pikeun gagal sistem.

  1. Sebaran jalma hétérogén: sajumlah henteu saimbang foto tina warna kulit anu béda-béda, ngarah kana positip palsu atanapi négatip palsu kusabab pigmentasi.
  2. Data dimana sistem dilatih ngandung fitur anu sering kajadian sareng disebarkeun sacara hétérogén anu henteu aya hubunganana sareng jalma sareng henteu gaduh nilai diagnostik: pangawasa dina poto kanker kulit atanapi jukut dina poto domba. Dina hal ieu, hasilna bakal béda lamun sistem manggihan piksel dina gambar tina hal anu panon manusa nangtukeun salaku "pangawasa".
  3. Datana ngandung ciri pihak katilu anu teu tiasa katingali ku jalma sanaos anjeunna milarianana.

Naon éta hartosna? Urang terang apriori yén data tiasa ngawakilan kelompok jalma anu béda-béda sacara béda, sareng sahenteuna urang tiasa ngarencanakeun milarian pengecualian sapertos kitu. Dina basa sejen, aya nyatu alesan sosial pikeun nganggap yén data ngeunaan grup jalma geus ngandung sababaraha bias. Lamun urang nempo poto kalawan pangawasa, urang bakal ningali pangawasa ieu - urang ngan teu dipalire eta sateuacan, nyaho yén éta henteu masalah, sarta forgetting yén sistem teu nyaho nanaon.

Tapi kumaha upami sadaya poto anjeun tina kulit anu teu séhat dicandak di kantor dina lampu pijar, sareng kulit séhat anjeun dicandak dina lampu fluoresensi? Kumaha upami, saatos anjeun nyéépkeun kulit anu séhat, sateuacan moto kulit anu teu séhat, anjeun ngapdet sistem operasi dina telepon anjeun, sareng Apple atanapi Google rada ngarobih algoritma pangurangan bising? Hiji jalma teu bisa perhatikeun ieu, euweuh urusan sabaraha manehna néangan fitur sapertos. Tapi sistem pamakean mesin bakal langsung ningali sareng nganggo ieu. Manehna teu nyaho nanaon.

Sajauh ieu kami parantos ngobrol ngeunaan korelasi palsu, tapi tiasa ogé yén datana akurat sareng hasilna leres, tapi anjeun henteu hoyong nganggo éta pikeun alesan etika, hukum, atanapi manajemén. Sababaraha yurisdiksi, contona, teu ngidinan awéwé pikeun nampa diskon on asuransi maranéhanana, sanajan awéwé bisa jadi supir aman. Urang tiasa sacara gampil ngabayangkeun sistem anu, nalika nganalisis data sajarah, bakal masihan faktor résiko anu langkung handap pikeun nami awéwé. Oké, hayu urang hapus ngaran tina pilihan. Tapi émut conto Amazon: sistem tiasa nangtukeun gender dumasar kana faktor sanés (sanaos henteu terang naon génder, atanapi naon mobilna), sareng anjeun moal perhatikeun ieu dugi ka régulator sacara retroaktif nganalisa tarif anjeun. tawaran jeung ngecas anjeun anjeun bakal fined.

Tungtungna, sering dianggap yén urang ngan ukur bakal ngagunakeun sistem sapertos pikeun proyék-proyék anu ngalibetkeun jalma sareng interaksi sosial. Ieu salah. Upami anjeun ngadamel turbin gas, anjeun panginten badé nerapkeun pembelajaran mesin kana telemétri anu dikirimkeun ku puluhan atanapi ratusan sensor dina produk anjeun (audio, vidéo, suhu, sareng sénsor sanésna ngahasilkeun data anu gampang pisan diadaptasi pikeun nyiptakeun mesin. modél pangajaran). Sacara hipotésis, anjeun tiasa nyarios, "Ieu data tina sarébu turbin anu gagal sateuacan gagal, sareng ieu data tina sarébu turbin anu henteu gagal. Ngawangun modél pikeun nyaritakeun naon bédana antara aranjeunna. Nya, ayeuna bayangkeun yén sénsor Siemens dipasang dina 75% tina turbin goréng, sareng ngan 12% tina anu saé (teu aya hubunganana sareng gagal). Sistim bakal ngawangun modél pikeun manggihan turbin kalawan sénsor Siemens. Aduh!

Ngeunaan Bias Artificial Intelligence
Gambar - Moritz Hardt, UC Berkeley

Ngatur Bias AI

Naon anu bisa urang pigawé ngeunaan éta? Anjeun tiasa ngadeukeutan masalah tina tilu sudut:

  1. Rigor metodologis dina ngumpulkeun jeung ngatur data pikeun latihan sistem.
  2. Alat-alat téknis pikeun nganalisis sareng ngadiagnosa paripolah modél.
  3. Ngalatih, ngadidik, sareng ati-ati nalika nerapkeun pembelajaran mesin kana produk.

Aya lulucon dina buku Molière "The Bourgeois in the Nobility": saurang lalaki dibéjakeun yén sastra dibagi kana prosa jeung puisi, sarta anjeunna delighted pikeun manggihan yén anjeunna geus diomongkeun dina prosa sapanjang hirupna, tanpa nyaho eta. Ieu sigana kumaha para ahli statistik ayeuna: tanpa disadari, aranjeunna parantos ngadedikasikeun karirna pikeun intelijen buatan sareng kasalahan sampling. Milarian kasalahan sampling sareng hariwang ngeunaan éta sanés masalah énggal, urang kedah sacara sistematis ngadeukeutan solusina. Sakumaha didadarkeun di luhur, dina sababaraha kasus sabenerna leuwih gampang pikeun ngalakukeun ieu ku diajar masalah nu patali jeung data jalma. Urang a priori nganggap yén urang bisa boga prasangka ngeunaan grup béda jalma, tapi hese pikeun urang malah ngabayangkeun prasangka ngeunaan sensor Siemens.

Anu anyar ngeunaan sadayana ieu, tangtosna, nyaéta jalma henteu deui ngalakukeun analisa statistik sacara langsung. Hal ieu dilumangsungkeun ku mesin nu nyieun badag, model kompléks nu hese ngarti. Isu transparansi mangrupa salah sahiji aspék utama masalah bias. Kami sieun yén sistemna henteu ngan ukur bias, tapi teu aya deui jalan pikeun ngadeteksi biasna, sareng yén mesin diajar béda ti bentuk otomatisasi anu sanés, anu sakuduna diwangun ku léngkah-léngkah logis anu jelas anu tiasa diuji.

Aya dua masalah di dieu. Kami masih tiasa ngalaksanakeun sababaraha jinis pamariksaan sistem pembelajaran mesin. Jeung auditing sagala sistem sejenna sabenerna euweuh gampang.

Anu mimiti, salah sahiji arah panalungtikan modéren dina widang pembelajaran mesin nyaéta milarian metode pikeun ngaidentipikasi fungsionalitas penting sistem pembelajaran mesin. Kitu cenah, machine learning (dina kaayaan kiwari) mangrupakeun widang lengkep anyar elmu anu robah gancang, jadi ulah mikir yén hal anu mustahil kiwari teu bisa geura-giru jadi nyata. Proyék OpenAI mangrupa conto metot ieu.

Kadua, ideu yén anjeun tiasa nguji sareng ngartos prosés-nyieun kaputusan sistem atanapi organisasi anu tos aya dina téori anu saé, tapi dina praktékna. Ngartos kumaha kaputusan dilakukeun dina organisasi ageung henteu gampang. Malah lamun aya prosés-nyieun kaputusan formal, éta teu ngagambarkeun kumaha jalma sabenerna berinteraksi, sarta aranjeunna sorangan mindeng teu boga pendekatan logis, sistematis pikeun nyieun kaputusan maranéhanana. Sakumaha ceuk batur sapagawean kuring Vijay Pande, jalma ogé kotak hideung.

Candak sarébu jalma dina sababaraha perusahaan sareng lembaga anu tumpang tindih, sareng masalahna janten langkung rumit. Urang terang saatos kanyataan yén Space Shuttle ditakdirkeun pikeun ngarecah nalika uih deui, sareng individu dina NASA ngagaduhan inpormasi anu masihan aranjeunna alesan pikeun mikir yén hal anu goréng tiasa kajantenan, tapi sistemna. umumna Abdi henteu terang ieu. NASA malah nembé ngaliwat pamariksaan anu sami saatos kaleungitan shuttle sateuacana, tapi kaleungitan anu sanés kusabab alesan anu sami. Gampang ngajawab yén organisasi sareng jalma nuturkeun aturan anu jelas, logis anu tiasa diuji, kahartos, sareng dirobih - tapi pangalaman ngabuktikeun sabalikna. Ieu"delusion Gosplan urang".

Kuring mindeng ngabandingkeun machine learning jeung database, utamana relational - téhnologi fundamental anyar nu geus robah kamampuhan élmu komputer jeung dunya sabudeureun éta, nu geus jadi bagian tina sagalana, nu urang ngagunakeun terus tanpa sadar eta. Basis data ogé ngagaduhan masalah, sareng sipatna sami: sistemna tiasa diwangun dina asumsi anu goréng atanapi data anu goréng, tapi bakal sesah perhatikeun, sareng jalma anu nganggo sistem bakal ngalakukeun naon anu dicarioskeun ka aranjeunna tanpa naroskeun patarosan. Aya loba guyonan heubeul ngeunaan jalma pajeg anu sakali dieja ngaran anjeun salah, sarta ngayakinkeun aranjeunna pikeun ngabenerkeun kasalahan leuwih hese tibatan sabenerna ngarobah ngaran anjeun. Aya seueur cara pikeun mikir ngeunaan ieu, tapi henteu écés mana anu langkung saé: salaku masalah téknis dina SQL, atanapi salaku bug dina sékrési Oracle, atanapi salaku gagalna lembaga birokrasi? Kumaha héséna mendakan bug dina prosés anu nyababkeun sistem henteu gaduh fitur koreksi typo? Bisa ieu geus ilahar kaluar saméméh jalma mimiti complaining?

Masalah ieu digambarkeun malah leuwih saukur ku carita nalika supir ngajalankeun kana walungan alatan data luntur dina Navigator nu. Oké, peta kudu terus diropéa. Tapi sabaraha kasalahan TomTom pikeun mobil anjeun ditiup ka laut?

Alesan kuring nyarios ieu nyaéta yén enya, bias diajar mesin bakal nyiptakeun masalah. Tapi masalah ieu bakal sarupa jeung nu urang geus Nyanghareupan nu geus kaliwat, sarta aranjeunna bisa noticed sarta direngsekeun (atanapi henteu) ngeunaan sakumaha ogé kami bisa kaliwat. Ku alatan éta, skenario nu bias AI ngabalukarkeun ngarugikeun saperti teu mirip lumangsung ka peneliti senior gawe dina organisasi badag. Paling dipikaresep, sababaraha kontraktor téhnologi kalindih atawa ngajual software bakal nulis hal on tuur maranéhna, ngagunakeun komponén open source, perpustakaan jeung parabot nu maranéhna teu ngarti. Sareng klien anu sial bakal ngagaleuh frasa "intelijen buatan" dina katerangan produk sareng, tanpa naroskeun patarosan, nyebarkeunana ka karyawan anu bayaranna rendah, maréntahkeun aranjeunna ngalakukeun naon anu disarioskeun ku AI. Ieu persis naon anu lumangsung kalawan database. Ieu sanes masalah kecerdasan jieunan, atawa malah masalah software. Ieu faktor manusa.

kacindekan

Pembelajaran mesin tiasa ngalakukeun naon waé anu anjeun tiasa ngajar anjing - tapi anjeun moal pernah yakin naon anu anjeun diajarkeun ka anjing.

Kuring mindeng ngarasa kawas istilah "kecerdasan jieunan" ngan meunang di jalan paguneman kawas kieu. Istilah ieu méré gambaran palsu yén urang sabenerna dijieun - kecerdasan ieu. Éta kami nuju ka HAL9000 atanapi Skynet - hal anu sabenerna ngarti. Tapi henteu. Ieu ngan ukur mesin, sareng éta langkung akurat pikeun ngabandingkeunana, sebutkeun, mesin cuci. Anjeunna nyuci langkung saé tibatan manusa, tapi upami anjeun nempatkeun piring dina dirina tibatan cucian, anjeunna ... bakal nyeuseuh. Piring malah bakal beresih. Tapi ieu moal naon anu anjeun ngarepkeun, sareng ieu moal kajantenan kusabab sistemna ngagaduhan prasangka ngeunaan piring. Mesin cuci henteu terang naon piring atanapi naon baju - éta ngan ukur conto otomatisasi, sacara konsép henteu béda ti kumaha prosés otomatis sateuacana.

Naha urang ngobrol ngeunaan mobil, kapal terbang, atanapi pangkalan data, sistem ieu bakal kuat pisan sareng kawates pisan. Aranjeunna bakal gumantung sagemblengna kana kumaha jalma ngagunakeun sistem ieu, naha niat maranéhanana anu alus atawa goréng, sarta sabaraha aranjeunna ngartos kumaha aranjeunna jalan.

Ku alatan éta, disebutkeun yen "kecerdasan jieunan nyaeta matematika, jadi teu bisa mibanda biases" sagemblengna palsu. Tapi éta sami-sami palsu nyarios yén pembelajaran mesin "subyektif di alam". Pembelajaran mesin mendakan pola dina data, sareng pola naon anu dipendakan gumantung kana data, sareng data gumantung ka urang. Sapertos naon anu urang lakukeun sareng aranjeunna. Pembelajaran mesin ngalakukeun sababaraha hal anu langkung saé tibatan anu urang tiasa - tapi anjing, contona, langkung efektif tibatan manusa dina ngadeteksi narkoba, anu sanés alesan pikeun ngagunakeunana salaku saksi sareng ngadamel pertimbangan dumasar kana kasaksianna. Sareng anjing, ku jalan kitu, langkung pinter tibatan sistem pembelajaran mesin.

Tarjamahan: Diana Letskaya.
Ngédit: Aleksey Ivanov.
Komunitas: @PonchikNews.

sumber: www.habr.com

Tambahkeun komentar