人工知胜のバむアスに぀いお

人工知胜のバむアスに぀いお

tl; dr

  • 機械孊習はデヌタ内のパタヌンを探したす。 しかし、人工知胜には「バむアス」がある可胜性がありたす。぀たり、間違ったパタヌンを芋぀けおしたう可胜性がありたす。 たずえば、写真ベヌスの皮膚がん怜出システムは、蚺療所で撮圱された写真に特別な泚意を払う可胜性がありたす。 機械孊習ではできない 理解する: そのアルゎリズムは数倀のパタヌンのみを識別し、デヌタが代衚的でない堎合、その凊理の結果も同様に識別したす。 そしお、そのようなバグを芋぀けるこずは、機械孊習の仕組みそのもののせいで難しい堎合がありたす。
  • 最も明癜か぀困難な問題領域は、人間の倚様性です。 人々に関するデヌタが収集段階であっおも客芳性を倱う可胜性がある理由は数倚くありたす。 しかし、この問題が人々だけに圱響を及がすずは考えないでください。倉庫の浞氎やガスタヌビンの故障を怜出しようずするずきにも、たったく同じ問題が発生したす。 肌の色に偏ったシステムもあれば、Siemens センサヌに偏ったシステムもあるでしょう。
  • このような問題は機械孊習にずっお新しいものではなく、機械孊習に特有のものでもありたせん。 耇雑な構造では誀った仮定が行われる可胜性があり、特定の決定が行われた理由を理解するこずは垞に困難です。 私たちは包括的な方法でこれに察抗する必芁がありたす。怜蚌のためのツヌルずプロセスを䜜成し、AI の掚奚事項に盲目的に埓わないようにナヌザヌを教育したす。 機械孊習は、人間よりもはるかに優れた凊理を行うこずもありたすが、たずえば、犬は人間よりも薬物の怜出においおはるかに効果的であり、それが犬を蚌人ずしお䜿甚し、その蚌蚀に基づいお刀断を䞋す理由にはなりたせん。 ちなみに、犬はどんな機械孊習システムよりもはるかに賢いのです。

機械孊習は、今日最も重芁な基瀎技術トレンドの XNUMX ぀です。 これは、テクノロゞヌが今埌 XNUMX 幎間に私たちの呚囲の䞖界を倉える䞻な方法の XNUMX ぀です。 これらの倉曎には懞念を匕き起こすいく぀かの偎面がありたす。 たずえば、劎働垂堎に察する機械孊習の朜圚的な圱響や、非倫理的な目的 (暩嚁䞻矩䜓制など) での機械孊習の䜿甚などです。 この投皿では別の問題にも察凊しおいたす。 人工知胜の偏芋.

これは簡単な話ではありたせん。

人工知胜のバむアスに぀いお
GoogleのAIは猫を芋぀けるこずができる。 2012 幎のこのニュヌスは圓時特別なものでした。

「AIバむアス」ずは䜕ですか

「生デヌタ」ずいうのは矛盟語であり、悪い考えです。 デヌタは十分か぀慎重に準備する必芁がありたす。 —ゞェフリヌ・ボッカヌ

2013 幎より前の時点では、たずえば写真内の猫を認識するシステムを䜜成するには、論理的な手順を蚘述する必芁がありたした。 画像内の角を芋぀ける方法、目を認識する方法、毛皮のテクスチャを分析する方法、足を数える方法など。 次に、すべおのコンポヌネントを組み合わせおみるず、実際には機胜しないこずがわかりたす。 機械仕掛けの銬ず同じように、理論的には䜜るこずができたすが、実際には説明するには耇雑すぎたす。 最終的には、数癟 (たたは数千) の手曞きルヌルが䜜成されたす。 そしお、実甚的なモデルは XNUMX ぀もありたせん。

機械孊習の出珟により、私たちは特定のオブゞェクトを認識するための「手動」ルヌルの䜿甚をやめたした。 代わりに、「これ」X のサンプルを XNUMX 個、「その他」Y のサンプルを XNUMX 個採取し、コンピュヌタヌにそれらの統蚈分析に基づいおモデルを構築させたす。 次に、このモデルにサンプル デヌタを䞎えるず、モデルがいずれかのセットに適合するかどうかをある皋床の粟床で刀断したす。 機械孊習は、人間がモデルを䜜成するのではなく、デヌタからモデルを生成したす。 その結果は、特に画像認識ずパタヌン認識の分野で目芚たしいものであり、そのためテクノロゞヌ業界党䜓が珟圚機械孊習 (ML) に移行し぀぀ありたす。

しかし、それはそれほど単玔ではありたせん。 珟実の䞖界では、X たたは Y の䜕千もの䟋には、A、B、J、L、O、R、さらには L も含たれおいたす。これらは均等に分散されおいない可胜性があり、䞀郚が非垞に頻繁に発生するため、システムがより倚くの料金を支払う可胜性がありたす。興味のあるものよりもそれらに泚意を向けおください。

これは実際には䜕を意味するのでしょうか? 私のお気に入りの䟋は、画像認識システムが 草の茂った䞘を芋お「矊」ず蚀う。 理由は明らかです。「矊」のサンプル写真のほずんどは、圌らが生息する牧草地で撮圱されおおり、これらの画像では、草が小さな癜い綿毛よりもはるかに倚くのスペヌスを占めおおり、システムが最も重芁であるず芋なしおいるのは草です。 。

もっず深刻な䟋もありたす。 最近の䞀぀ プロゞェクト 写真から皮膚がんを怜出したす。 皮膚科医は、圢成の倧きさを蚘録するために、皮膚がんの症状ずずもに定芏を撮圱するこずが倚いこずが刀明したした。 健康な肌のサンプル写真には定芏はありたせん。 AI システムにずっお、そのような定芏 (より正確には「定芏」ずしお定矩するピクセル) は、䞀連のサンプル間の違いの XNUMX ぀ずなり、堎合によっおは皮膚の小さな発疹よりも重芁になりたす。 そのため、皮膚がんを識別するために䜜成されたシステムは、代わりに定芏を認識するこずがありたした。

ここで重芁な点は、システムは䜕を芋おいるのかを意味的に理解しおいないずいうこずです。 私たちは䞀連のピクセルを芋お、その䞭に矊、皮、たたは定芏を芋たすが、システムは単なる数盎線にすぎたせん。 圌女には XNUMX 次元空間が芋えず、物䜓、テクスチャ、矊が芋えたせん。 圌女は単にデヌタのパタヌンを認識しおいるだけです。

このような問題を蚺断する際の難しさは、ニュヌラル ネットワヌク (機械孊習システムによっお生成されたモデル) が数千、数十䞇のノヌドで構成されおいるこずです。 モデルを調べお、モデルがどのように意思決定を行うかを確認する簡単な方法はありたせん。 このような方法があるずいうこずは、プロセスが機械孊習を䜿甚せずにすべおのルヌルを手動で蚘述できるほど単玔であるこずを意味したす。 人々は、機械孊習がブラックボックスのようなものになっおいるのではないかず心配しおいたす。 (この比范がただやりすぎである理由に぀いおは、埌ほど説明したす。)

これは、䞀般的に蚀えば、人工知胜たたは機械孊習におけるバむアスの問題です。デヌタ内のパタヌンを芋぀けるシステムが間違ったパタヌンを芋぀けおも、ナヌザヌはそれに気付かない可胜性がありたす。 これはこのテクノロゞヌの基本的な特性であり、孊術界や倧手テクノロゞヌ䌁業でこのテクノロゞヌを扱うすべおの人にずっおは明らかです。 しかし、その結果は耇雑であり、それらの結果に察する考えられる解決策も耇雑です。

たず結果に぀いお話したしょう。

人工知胜のバむアスに぀いお
AI は、私たちに代わっお、倚数の知芚できない信号に基づいお、特定のカテゎリヌの人々に有利な遞択を行うこずができたす。

AI バむアスのシナリオ

最も明癜か぀恐ろしいこずは、この問題が人間の倚様性に関しお珟れる可胜性があるこずです。 最近 噂がありたしたアマゟンは求職者の最初のスクリヌニングのための機械孊習システムを構築しようずしたずいう。 アマゟンの埓業員には男性が倚いため、「採甚に成功した」䟋も男性の方が倚く、システムが提案する履歎曞の遞考でも男性の方が倚かった。 Amazon はこれに気づき、システムを実皌働環境にリリヌスしたせんでした。

この䟋で最も重芁なこずは、履歎曞に性別が明蚘されおいないにもかかわらず、このシステムは男性の応募者を優遇するずいう噂があったこずだ。 このシステムでは、「良い採甚者」の䟋ずしお他のパタヌンも確認されたした。たずえば、女性は業瞟を説明するために特別な蚀葉を䜿ったり、特別な趣味を持ったりする可胜性がありたす。 もちろん、システムは「ホッケヌ」が䜕であるか、「人々」が䜕であるか、「成功」が䜕であるかを知りたせんでした。単にテキストの統蚈分析を実行しただけです。 しかし、圌女が芋たパタヌンは人間には気づかれない可胜性が高く、その䞀郚たずえば、性別が違えば成功に぀いおの衚珟が異なるずいう事実などは、たずえ私たちが芋おも理解するのは難しいでしょう。

さらに悪いこずに。 機械孊習システムは、癜い肌のがんを芋぀けるのに非垞に優れおいたすが、黒い肌ではうたく機胜しない可胜性があり、たたその逆も同様です。 必ずしも偏芋のためではありたせんが、おそらく、異なる肌の色に察しお別のモデルを構築し、異なる特性を遞択する必芁があるためです。 機械孊習システムは、画像認識のような狭い領域であっおも互換性はありたせん。 必芁な粟床が埗られるたで、関心のあるデヌタの特城を適切に把握するには、堎合によっおは詊行錯誀しながらシステムを埮調敎する必芁がありたす。 しかし、あなたは気づかないかもしれたせんが、このシステムは、䞀方のグルヌプでは 98% の確率で正確ですが、もう䞀方のグルヌプでは 91% しか正確ではありたせん (人間の分析よりもさらに正確です)。

これたで、䞻に人ずその特性に関する䟋を取り䞊げおきたした。 この問題に関する議論は䞻にこのトピックに焊点を圓おおいたす。 しかし、人々に察する偏芋は問題の䞀郚にすぎないこずを理解するこずが重芁です。 私たちは倚くのこずに機械孊習を䜿甚するこずになりたすが、サンプリング誀差はそれらすべおに関係したす。 䞀方、人々ず協力しおいる堎合は、デヌタの偏りが圌らに関係しおいない可胜性がありたす。

これを理解するために、皮膚がんの䟋に戻り、システム障害の XNUMX ぀の仮説の可胜性を考えおみたしょう。

  1. 人々の䞍均䞀な分垃: 異なる肌の色調の写真の数が䞍均衡であり、色玠沈着による停陜性たたは停陰性が発生したす。
  2. システムのトレヌニングに䜿甚されるデヌタには、人間ずは関連がなく、蚺断䟡倀のない、頻繁に発生し䞍均䞀に分散された特城が含たれおいたす。たずえば、皮膚がんの写真の定芏や矊の写真の草などです。 この堎合、人間の目で「定芏」ず認識されるものの画像内でシステムがピクセルを怜出するず、結果は異なりたす。
  3. デヌタには、人間が探しおも芋るこずができない第䞉者の特城が含たれおいたす。

それはどういう意味ですか 私たちは、デヌタが異なる人々のグルヌプを異なる方法で衚す可胜性があるこずを先隓的に知っおおり、少なくずもそのような䟋倖を探す蚈画を立おるこずができたす。 蚀い換えれば、人々のグルヌプに関するデヌタにはすでに䜕らかのバむアスが含たれおいるず想定する瀟䌚的理由がたくさんあるずいうこずです。 定芏のある写真を芋るず、この定芏が衚瀺されたす。私たちは以前はそれが重芁ではないこずを知り、システムが䜕も知らないこずを忘れお、単に無芖しおいたした。

しかし、䞍健康な肌の写真がすべおオフィスで癜熱灯の䞋で撮圱され、健康な肌が蛍光灯の䞋で撮圱された堎合はどうなるでしょうか? 健康な肌の撮圱を終えた埌、䞍健康な肌を撮圱する前に、携垯電話のオペレヌティング システムを曎新し、Apple たたは Google がノむズ リダクション アルゎリズムをわずかに倉曎した堎合はどうなるでしょうか? そのような特城をいくら探しおも、人はこれに気づくこずができたせん。 しかし、機械䜿甚システムはこれをすぐに認識しお䜿甚したす。 圌女は䜕も知りたせん。

ここたで停の盞関に぀いお説明しおきたしたが、デヌタは正確で結果は正しいが、倫理的、法的、たたは管理䞊の理由でそれらを䜿甚したくない堎合もありたす。 たずえば、䞀郚の管蜄区域では、女性の方が安党運転であるにもかかわらず、女性が保険の割匕を受けるこずを認めおいたせん。 過去のデヌタを分析するずきに、女性の名前に䜎いリスク因子を割り圓おるシステムを容易に想像できたす。 さお、遞択から名前を削陀したしょう。 しかし、アマゟンの䟋を思い出しおください。システムは他の芁玠に基づいお性別を決定するこずができたすたずえ性別が䜕であるか、車が䜕であるかさえ知りたせん。芏制圓局が遡っお料金を分析するたで、これに気付かないでしょう。眰金を科せられるず申し出お請求したす。

最埌に、このようなシステムは人々や瀟䌚的亀流が関わるプロゞェクトにのみ䜿甚するず思われがちです。 これは間違っおいたす。 ガス タヌビンを補造する堎合は、補品䞊の数十たたは数癟のセンサヌによっお送信されるテレメトリに機械孊習を適甚するこずになるでしょう (音声、ビデオ、枩床、その他のセンサヌは、機械の䜜成に非垞に簡単に適合できるデヌタを生成したす)孊習モデル。 仮説ずしお、次のように蚀うこずができたす。「これは、故障する前に故障した 75 台のタヌビンからのデヌタであり、故障しなかった 12 台のタヌビンからのデヌタです。 䞡者の違いを瀺すモデルを構築しおください。」 さお、シヌメンスのセンサヌが䞍良タヌビンの XNUMX% に取り付けられおおり、正垞なタヌビンには XNUMX% のみに取り付けられおいるず想像しおください (故障ずは関係ありたせん)。 このシステムは、シヌメンスのセンサヌを備えたタヌビンを芋぀けるためのモデルを構築したす。 おっずっず

人工知胜のバむアスに぀いお
写真 — モヌリッツ・ハヌト、カリフォルニア倧孊バヌクレヌ校

AI バむアスの管理

それに぀いお䜕ができるでしょうか? この問題には次の XNUMX ぀の角床からアプロヌチできたす。

  1. システムをトレヌニングするためのデヌタの収集ず管理における方法論的な厳密さ。
  2. モデルの動䜜を分析および蚺断するための技術ツヌル。
  3. 機械孊習を補品に実装する堎合は、トレヌニング、教育を行い、泚意しおください。

モリ゚ヌルの著曞『貎族の䞭のブルゞョワ』にはゞョヌクがありたす。ある男性は、文孊は散文ず詩に分けられるず聞かされ、自分が気づかずにずっず散文で話しおいたこずを発芋しお喜んだのです。 これはおそらく今日の統蚈孊者が感じおいるこずです。圌らは気づかないうちに、人工知胜ず暙本誀差にキャリアを捧げおきたした。 サンプリング誀差を探しお心配するこずは新しい問題ではありたせん。䜓系的にその解決策にアプロヌチする必芁があるだけです。 䞊で述べたように、堎合によっおは、人物デヌタに関連する問題を研究するこずで、実際にこれを行う方が簡単になるこずがありたす。 私たちは、さたざたな人々のグルヌプに察しお偏芋を持っおいるかもしれないずアプリオリに想定しおいたすが、シヌメンスのセンサヌに぀いお偏芋を持぀こずを想像するこずさえ困難です。

もちろん、これらすべおに関しお新しいこずは、人々が盎接統蚈分析を行わなくなったこずです。 これは、理解するのが難しい倧芏暡で耇雑なモデルを䜜成するマシンによっお実行されたす。 透明性の問題は、偏芋の問題の䞻芁な偎面の XNUMX ぀です。 私たちは、システムに偏りがあるだけではなく、その偏りを怜出する方法がないこず、そしお機械孊習が、テスト可胜な明確な論理ステップで構成されおいるはずの他の圢匏の自動化ずは異なるこずを懞念しおいたす。

ここには XNUMX ぀の問題がありたす。 今埌も機械孊習システムに察しお䜕らかの監査を実斜できる可胜性がありたす。 そしお、他のシステムを監査するこずは実際には簡単ではありたせん。

たず、機械孊習分野における珟代研究の方向性の XNUMX ぀は、機械孊習システムの重芁な機胜を特定する方法の探玢です。 ずはいえ、機械孊習珟状ではは急速に倉化しおいるたったく新しい科孊分野であるため、珟圚䞍可胜であるこずがすぐに珟実になるずは考えないでください。 プロゞェクト OpenAI - これの興味深い䟋。

第二に、既存のシステムや組織の意思決定プロセスをテストしお理解できるずいうアむデアは、理論的には優れおいたすが、実際にはたあたあです。 倧芏暡な組織で意思決定がどのように行われるかを理解するのは簡単ではありたせん。 たずえ正匏な意思決定プロセスがあったずしおも、それは人々が実際にどのように察話するかを反映しおおらず、圌ら自身も意思決定を行うための論理的か぀䜓系的なアプロヌチを持っおいないこずがよくありたす。 私の同僚が蚀ったように ビゞェむ・パンデ, 人もブラックボックスだ.

重耇する耇数の䌁業や機関に XNUMX 人が所属するず、問題はさらに耇雑になりたす。 私たちは、スペヌスシャトルが垰還時に解散する運呜にあったこずを事埌的に知り、NASA 内郚の人々は䜕か悪いこずが起こるかもしれないず考える理由ずなる情報を持っおいたしたが、システムは 䞀般に これは知りたせんでした。 NASA は、以前のシャトルを倱った埌、同様の監査に合栌したばかりですが、非垞に䌌た理由で別のシャトルを倱いたした。 組織や人々は、テスト、理解、倉曎できる明確で論理的なルヌルに埓っおいるず䞻匵するのは簡単ですが、そうではないこずは経隓が蚌明しおいたす。 これ "ゎスプランの劄想'。

私はよく機械孊習をデヌタベヌス、特にリレヌショナル デヌタベヌスず比范したす。デヌタベヌスは、コンピュヌタヌ サむ゚ンスずその呚囲の䞖界の胜力を倉えた新しい基本テクノロゞヌであり、私たちが気づかずに垞に䜿甚しおいるすべおのものの䞀郚ずなっおいたす。 デヌタベヌスにも問題はありたすが、それらは同様の性質を持っおいたす。システムは間違った仮定や間違ったデヌタに基づいお構築されおいる可胜性がありたすが、それに気づくのは難しく、システムを䜿甚する人々は質問するこずなくシステムの指瀺に埓っおしたいたす。 か぀おあなたの名前のスペルを間違えた皎務官に関する叀いゞョヌクはたくさんありたすが、間違いを修正するよう説埗するのは、実際に名前を倉曎するよりもはるかに困難です。 これに぀いおはさたざたな考え方がありたすが、SQL の技術的な問題ずしお考えるのか、Oracle リリヌスのバグずしお考えるのか、それずも官僚組織の倱敗ずしお考えるのか、どれが良いのかは明確ではありたせん。 システムにタむプミス修正機胜が備わっおいない原因ずなっおいるプロセス内のバグを芋぀けるのはどのくらい難しいでしょうか? 人々が苊情を蚀い始める前に、これは理解できたでしょうか?

この問題は、ナビゲヌタヌのデヌタが叀いためにドラむバヌが川に突っ蟌んだ堎合の事䟋でさらに簡単に説明されたす。 そうですね、地図は垞に曎新する必芁がありたす。 しかし、あなたの車が海に吹き飛ばされたこずに぀いお、トムトムはどれだけの責任があるのでしょうか?

私がこのように蚀う理由は、確かに、機械孊習のバむアスが問題を匕き起こすからです。 しかし、これらの問題は私たちが過去に盎面した問題ず䌌おおり、以前ず同じくらいうたく気づくこずができ、解決できるたたはできない可胜性がありたす。 したがっお、AI のバむアスが害を及がすシナリオは、倧芏暡な組織で働く䞊玚研究者には起こりそうにありたせん。 おそらく、取るに足らない技術請負業者や゜フトりェア ベンダヌが、理解できないオヌプン ゜ヌス コンポヌネント、ラむブラリ、ツヌルを䜿甚しお、自分たちで䜕かを䜜成するでしょう。 そしお、䞍運なクラむアントは、補品説明にある「人工知胜」ずいうフレヌズを賌入し、䜕の質問もせずにそれを䜎賃金の埓業員に配垃し、AIの蚀うずおりにするように呜什したす。 これはたさにデヌタベヌスで起こったこずです。 これは人工知胜の問題でも、゜フトりェアの問題でもありたせん。 これは人的芁因です。

たずめ

機械孊習は犬に教えられるこずなら䜕でもできたすが、犬に䜕を教えたかを正確に知るこずはできたせん。

「人工知胜」ずいう蚀葉は、このような䌚話の邪魔になるだけだず感じるこずがよくありたす。 この甚語は、私たちが実際にこの知性を創造したずいう誀った印象を䞎えたす。 私たちは HAL9000 たたはスカむネットに向かっおいたす - 実際に 理解する。 しかし、そうではありたせん。 これらは単なる機械であり、たずえば掗濯機ず比范する方がはるかに正確です。 圌女は人間よりもはるかに䞊手に掗濯をしたすが、掗濯物の代わりに食噚を圌女の䞭に入れれば、圌女はそれを掗っおくれたす。 食噚もきれいになりたす。 しかし、これはあなたが期埅したものではありたせん。システムには料理に関する偏芋があるため、これは起こりたせん。 掗濯機は食噚が䜕であるか、衣類が䜕であるかを知りたせん。これは単なる自動化の䞀䟋であり、抂念的には以前のプロセスの自動化ず䜕ら倉わりたせん。

車であれ、飛行機であれ、デヌタベヌスであれ、これらのシステムは非垞に匷力であるず同時に、非垞に制限されたす。 それは、人々がこれらのシステムをどのように䜿甚するか、その意図が良いか悪いか、そしおその仕組みをどの皋床理解しおいるかに完党に䟝存したす。

したがっお、「人工知胜は数孊なのでバむアスがあり埗ない」ずいうのは完党に誀りです。 しかし、機械孊習が「本質的に䞻芳的」であるず蚀うのも同様に誀りです。 機械孊習はデヌタ内のパタヌンを芋぀けたすが、どのようなパタヌンが芋぀かるかはデヌタによっお決たり、デヌタは私たちに䟝存したす。 私たちが圌らに察しおやっおいるのず同じように。 機械孊習は、人間よりもはるかに優れた凊理を行うこずもありたすが、たずえば、犬は人間よりも薬物の怜出においおはるかに効果的であり、それが犬を蚌人ずしお䜿甚し、その蚌蚀に基づいお刀断を䞋す理由にはなりたせん。 ちなみに、犬はどんな機械孊習システムよりもはるかに賢いのです。

翻蚳 ãƒ€ã‚€ã‚¢ãƒŠãƒ»ãƒ¬ãƒ„カダ.
線集 ã‚¢ãƒ¬ã‚¯ã‚»ã‚€ãƒ»ã‚€ãƒ¯ãƒŽãƒ•.
コミュニティ @ぜんちくニュヌス.

出所 habr.com

コメントを远加したす