關於人工智慧偏見

關於人工智慧偏見

TL;博士:

  • 機器學習尋找資料中的模式。 但人工智慧可能會「有偏見」——也就是說,會發現不正確的模式。 例如,基於照片的皮膚癌檢測系統可能會特別關注在醫生辦公室拍攝的影像。 機器學習不能 了解:它的演算法只能辨識數字中的模式,如果資料不具代表性,那麼其處理結果也會如此。 由於機器學習的機制,捕獲此類錯誤可能很困難。
  • 最明顯和最令人畏懼的問題領域是人類多樣性。 即使在收集階段,有關人員的資料也可能失去客觀性,原因有很多。 但不要認為這個問題只影響人類:當試圖偵測倉庫中的洪水或故障的燃氣渦輪機時,也會出現完全相同的困難。 有些系統可能偏向膚色,其他系統可能偏向西門子感測器。
  • 這類問題對於機器學習來說並不新鮮,而且遠非機器學習所獨有。 任何複雜的結構都會做出錯誤的假設,並且理解為什麼做出特定決定總是很困難。 我們需要以全面的方式應對這個問題:創建用於驗證的工具和流程,並教育用戶,使他們不會盲目遵循人工智慧的建議。 機器學習確實在某些事情上比我們做得更好 - 但例如,狗在檢測毒品方面比人類更有效,這並不是使用它們作為證人並根據它們的證詞做出判斷的理由。 順便說一句,狗比任何機器學習系統都要聰明得多。

機器學習是當今最重要的基礎技術趨勢之一。 這是未來十年科技改變我們周圍世界的主要方式之一。 這些變化的某些方面令人擔憂。 例如,機器學習對勞動市場的潛在影響,或其用於不道德目的(例如,由獨裁政權)。 這篇文章解決了另一個問題: 人工智慧偏見.

這不是一個簡單的故事。

關於人工智慧偏見
谷歌的人工智慧可以找到貓。 2012年的這個消息在當時來說是很特別的。

什麼是「人工智慧偏見」?

「原始資料」既是矛盾修辭,也是個壞主意。 數據必須準備充分、仔細。 ——傑弗瑞‧博克

在 2013 年之前的某個時候,為了建立一個系統,比如說,識別照片中的貓,你必須描述邏輯步驟。 如何找到影像中的角點、辨識眼睛、分析皮毛紋理、數爪等等。 然後把所有組件放在一起,發現並沒有真正有效。 就像機械馬一樣——理論上它是可以製造的,但實際上它太複雜了,無法描述。 最終結果是數百(甚至數千)條手寫規則。 而且沒有一個單一的工作模型。

隨著機器學習的出現,我們不再使用「手動」規則來識別特定物件。 相反,我們採取了一千個「這個」樣本,X,一千個「其他」樣本,Y,並讓電腦根據他們的統計分析建立一個模型。 然後,我們為該模型提供一些樣本數據,它會以一定的精度確定它是否適合其中一組。 機器學習根據資料生成模型,而不是由人類編寫模型。 結果令人印象深刻,尤其是在影像和模式識別領域,這就是為什麼整個科技產業現在轉向機器學習 (ML) 的原因。

但事情沒那麼簡單。 在現實世界中,你的數千個X或Y的例子還包含A、B、J、L、O、R,甚至L。這些可能分佈不均勻,有些可能出現得太頻繁,以至於系統會付出更多的代價關注它們而不是你感興趣的物體。

這在實踐中意味著什麼? 我最喜歡的例子是影像辨識系統 看著長滿青草的小山,說“羊”。 原因很清楚:大多數「羊」的範例照片都是在它們居住的草地上拍攝的,在這些影像中,草比白色的小絨毛佔據了更多的空間,系統認為草是最重要的。

還有更嚴重的例子。 最近的一張 項目 用於檢測照片中的皮膚癌。 事實證明,皮膚科醫生經常將尺與皮膚癌的表現一起拍照,以記錄結構的大小。 健康皮膚的範例照片中沒有標尺。 對於人工智慧系統來說,這樣的標尺(更準確地說,我們定義為「標尺」的像素)已經成為一組範例之間的差異之一,有時比皮膚上的小皮疹更重要。 因此,為識別皮膚癌而創建的系統有時會識別統治者。

這裡的關鍵點是系統對其所查看的內容沒有語義理解。 我們看著一組像素,在其中看到羊、皮膚或尺子,但係統只是一條數軸。 她看不到三維空間,看不到物體、紋理或羊。 她只是看到數據中的模式。

診斷此類問題的困難在於神經網路(機器學習系統產生的模型)由數千個數十萬個節點組成。 沒有簡單的方法來研究模型並了解它如何做出決策。 擁有這種方法意味著該過程足夠簡單,可以手動描述所有規則,而無需使用機器學習。 人們擔心機器學習已經變成某種黑盒子。 (稍後我將解釋為什麼這種比較仍然太多。)

一般來說,這是人工智慧或機器學習中的偏差問題:用於查找資料模式的系統可能會發現錯誤的模式,而您可能沒有註意到。 這是該技術的基本特徵,對於學術界和大型科技公司中使用該技術的每個人來說都是顯而易見的。 但其後果很複雜,我們應對這些後果的可能解決方案也很複雜。

我們先來說說後果。

關於人工智慧偏見
人工智慧可以根據大量難以察覺的訊號,隱式地為我們做出有利於某些類別的人的選擇

人工智慧偏見場景

最明顯和最可怕的是,當涉及人類多樣性時,這個問題就會顯現出來。 最近 有傳言亞馬遜試圖建立一個機器學習系統來初步篩選求職者。 由於亞馬遜員工中男性較多,「成功招募」的例子也多為男性,系統建議的履歷篩選中男性也較多。 亞馬遜注意到了這一點,並沒有將該系統投入生產。

在這個例子中最重要的是,有傳言稱該系統偏向男性申請人,儘管簡歷上沒有具體說明性別。 這個系統在「優秀員工」的例子中發現了其他模式:例如,女性可能會使用特殊的字詞來描述成就,或有特殊的嗜好。 當然,系統並不知道什麼是“曲棍球”,或者誰是“人”,或者什麼是“成功”——它只是對文本進行了統計分析。 但她看到的模式很可能不會被人類注意到,其中一些模式(例如,不同性別的人對成功的描述不同)即使我們觀察它們,我們也可能很難看到它們。

進一步 - 更糟。 非常擅長在蒼白皮膚上發現癌症的機器學習系統可能在深色皮膚上表現不佳,反之亦然。 不一定是因為偏見,而是因為您可能需要為不同的膚色建立單獨的模型,選擇不同的特徵。 即使在影像辨識這樣狹窄的領域,機器學習系統也不能互換。 您需要調整系統,有時只是透過反覆試驗,才能很好地處理您感興趣的數據中的特徵,直到達到您想要的準確性。 但您可能沒有註意到,系統對一組的準確率是 98%,而另一組的準確率只有 91%(甚至比人工分析更準確)。

到目前為止,我主要使用了與人及其特徵有關的例子。 圍繞這個問題的討論主要集中在這個主題。 但重要的是要明白,對人的偏見只是問題的一部分。 我們將在很多事情上使用機器學習,而採樣誤差將與所有這些事情相關。 另一方面,如果你與人一起工作,數據中的偏見可能與他們無關。

為了理解這一點,讓我們回到皮膚癌的例子,並考慮三個系統故障的假設可能性。

  1. 人員分佈不均勻:不同膚色的照片數量不平衡,因色素沉澱而導致假陽性或偽陰性。
  2. 系統訓練的資料包含一個頻繁出現且分佈不均的特徵,該特徵與人無關且沒有診斷價值:皮膚癌照片中的尺子或羊照片中的草。 在這種情況下,如果系統在影像中找到人眼識別為「尺子」的像素,結果將會不同。
  3. 這些數據包含第三方特徵,即使人們尋找它也無法看到。

這是什麼意思? 我們先驗地知道數據可能以不同的方式代表不同的人群,並且至少我們可以計劃尋找此類例外情況。 換句話說,有很多社會原因可以假設有關人群的數據已經包含一些偏見。 如果我們用尺看照片,我們會看到這把尺子——我們之前只是忽略了它,知道它並不重要,而忘記了系統什麼都不知道。

但是,如果您所有不健康皮膚的照片都是在辦公室白熾燈下拍攝的,而您健康皮膚的照片是在螢光燈下拍攝的呢? 如果在拍攝健康皮膚後,在拍攝不健康皮膚之前,您更新了手機上的作業系統,並且蘋果或谷歌稍微改變了降噪演算法,會怎麼樣? 一個人無論多麼努力地尋找這些特徵,都無法注意到這一點。 但機器使用系統會立即看到並使用它。 她什麼都不知道。

到目前為止,我們已經討論了虛假相關性,但也可能是數據是準確的並且結果是正確的,但您不想出於道德、法律或管理原因使用它們。 例如,一些司法管轄區不允許女性享有保險折扣,儘管女性可能是更安全的駕駛者。 我們可以很容易地想像一個系統,在分析歷史資料時,會為女性名字分配較低的危險因子。 好的,讓我們從選擇中刪除名字。 但請記住亞馬遜的例子:系統可以根據其他因素確定性別(即使它不知道什麼是性別,甚至不知道什麼是汽車),並且在監管機構追溯分析您的關稅之前,您不會注意到這一點。向您提供併收費,您將被罰款。

最後,人們通常認為我們只會將此類系統用於涉及人員和社交互動的項目。 這是錯誤的。 如果您製造燃氣渦輪機,您可能希望將機器學習應用於產品上數十或數百個感測器(音訊、視訊、溫度和任何其他感測器產生的數據)傳輸的遙測數據,這些數據可以輕鬆適應創建機器學習模型)。 假設,您可以說:「這是在故障之前發生故障的 75 台渦輪機的數據,這是來自未發生故障的 12 台渦輪機的數據。 建立一個模型來說明它們之間的差異。” 好吧,現在想像一下,XNUMX% 的壞渦輪機上安裝了西門子感測器,只有 XNUMX% 的好渦輪機上安裝了西門子感測器(與故障沒有聯繫)。 該系統將建立一個模型來尋找具有西門子感測器的渦輪機。 哎呀!

關於人工智慧偏見
圖片——莫里茲·哈特,加州大學柏克萊分校

管理人工智慧偏見

我們對於它可以做些什麼呢? 您可以從三個角度來處理這個問題:

  1. 收集和管理用於培訓系統的數據的方法嚴謹。
  2. 用於分析和診斷模型行為的技術工具。
  3. 在將機器學習應用到產品中時要進行訓練、教育並小心謹慎。

莫里哀的《貴族中的資產階級》裡有個笑話:有人告訴一個人,文學分為散文和詩歌,他很高興地發現自己一輩子都在用散文說話,而自己卻渾然不覺。 這可能是統計學家今天的感​​受:在沒有意識到的情況下,他們將自己的職業生涯奉獻給了人工智慧和抽樣誤差。 尋找抽樣誤差並擔心它並不是一個新問題,我們只需要有系統地解決它。 如上所述,在某些情況下,透過研究與人員資料相關的問題實際上更容易做到這一點。 我們先驗地假設我們可能對不同人群有偏見,但我們很難想像對西門子感測器有偏見。

當然,這一切的新鮮之處在於人們不再直接進行統計分析。 它是由創建難以理解的大型、複雜模型的機器來執行的。 透明度問題是偏見問題的主要方面之一。 我們擔心該系統不僅存在偏見,而且無法檢測其偏見,而且機器學習不同於其他形式的自動化,後者應該由可測試的清晰邏輯步驟組成。

這裡有兩個問題。 我們也許仍然能夠對機器學習系統進行某種審核。 審計任何其他系統其實也不容易。

首先,機器學習領域現代研究的方向之一是尋找識別機器學習系統重要功能的方法。 也就是說,機器學習(就其當前狀態而言)是一個正在快速變化的全新科學領域,因此不要認為今天不可能的事情不會很快變得非常現實。 專案 OpenAI - 一個有趣的例子。

其次,可以測試和理解現有系統或組織的決策過程的想法在理論上是好的,但在實踐中卻很一般。 要了解大型組織中的決策是如何制定的並不容易。 即使有正式的決策過程,它也不能反映人們實際上如何互動,而且他們自己往往沒有邏輯、系統化的方法來做決策。 正如我的同事所說 維傑潘德, 人也是黑盒子.

如果有一千人在幾個重疊的公司和機構中,問題就變得更加複雜。 事後我們知道太空梭注定會在返回時解體,而美國太空總署內部的人員掌握的資訊使他們有理由認為可能會發生不好的事情,但是該系統 一般而言 我不知道這個。 美國太空總署甚至在失去先前的太空梭後剛剛進行了類似的審計,但又因為非常相似的原因失去了另一架太空梭。 人們很容易認為組織和人員遵循清晰、邏輯性的規則,這些規則可以被測試、理解和改變,但經驗證明並非如此。 這 ”戈斯普蘭的錯覺“。

我經常將機器學習與資料庫進行比較,尤其是關係型資料庫——一種新的基礎技術,它改變了電腦科學及其周圍世界的能力,它已經成為一切事物的一部分,我們在沒有意識到的情況下不斷使用它。 資料庫也有問題,而且它們具有相似的性質:系統可能建立在錯誤的假設或錯誤的資料之上,但很難注意到,並且使用該系統的人會按照系統的指示行事,而不會提出問題。 有很多關於稅務人員曾經把你的名字拼寫錯誤的老笑話,說服他們糾正錯誤比實際更改你的名字要困難得多。 有很多方法可以考慮這個問題,但尚不清楚哪個更好:作為 SQL 中的技術問題,還是作為 Oracle 版本中的錯誤,還是作為官僚機構的失敗? 在流程中找到導致系統沒有拼字錯誤修正功能的錯誤有多困難? 在人們開始抱怨之前,這個問題能被解決嗎?

當司機因導航器中的數據過時而駛入河流時,這個問題就更簡單地得到了說明。 好吧,地圖需要不斷更新。 但是,TomTom 對您的汽車被吹入大海負有多大責任?

我這麼說的原因是,是的,機器學習偏差會產生問題。 但這些問題將與我們過去面臨的問題類似,並且它們可以像我們過去一樣注意到和解決(或不解決)。 因此,人工智慧偏見造成傷害的情況不太可能發生在大型組織中工作的高級研究人員身上。 最有可能的是,一些無關緊要的技術承包商或軟體供應商會使用他們不理解的開源元件、函式庫和工具來編寫一些東西。 而不幸的客戶會購買產品描述中的「人工智慧」一詞,並且不問任何問題,將其分發給他的低薪員工,命令他們按照人工智慧所說的去做。 這正是資料庫所發生的情況。 這不是人工智慧問題,甚至不是軟體問題。 這就是人的因素。

結論

機器學習可以做任何你能教狗的事情——但你永遠無法確定你到底教了狗什麼。

我常常覺得「人工智慧」這個詞只會妨礙這樣的對話。 這個術語給人一種錯誤的印象,認為我們實際上創造了它——這種智能。 我們正在通往 HAL9000 或天網的路上 - 事實上 明白。 但不是。 這些只是機器,將它們與洗衣機進行比較要準確得多。 她洗衣服比人類好得多,但如果你把盤子放在她身上而不是洗衣服,她…就會洗它們。 餐具也會變乾淨。 但這不會是你所期望的,而且這種情況不會發生,因為系統對菜餚有任何偏見。 洗衣機不知道什麼是碗碟或什麼是衣服——它只是自動化的一個例子,從概念上與以前的流程自動化沒有什麼不同。

無論我們談論的是汽車、飛機還是資料庫,這些系統都非常強大,但也非常有限。 它們將完全取決於人們如何使用這些系統,他們的意圖是好還是壞,以及他們對這些系統如何運作的理解程度。

因此,說「人工智慧是數學,所以它不可能有偏見」是完全錯誤的。 但說機器學習「本質上是主觀的」同樣是錯誤的。 機器學習發現數據中的模式,它發現什麼模式取決於數據,而數據取決於我們。 就像我們對它們所做的那樣。 機器學習確實在某些事情上比我們做得更好 - 但例如,狗在檢測毒品方面比人類更有效,這並不是使用它們作為證人並根據它們的證詞做出判斷的理由。 順便說一句,狗比任何機器學習系統都要聰明得多。

翻譯: 戴安娜·列茨卡婭.
編輯: 阿列克謝·伊凡諾夫.
社區: @Ponchik新聞.

來源: www.habr.com

添加評論