关于人工智能偏见

关于人工智能偏见

TL;博士:

  • 机器学习寻找数据中的模式。 但人工智能可能会“有偏见”——也就是说,会发现不正确的模式。 例如,基于照片的皮肤癌检测系统可能会特别关注在医生办公室拍摄的图像。 机器学习不能 了解:它的算法只能识别数字中的模式,如果数据不具有代表性,那么其处理结果也会如此。 由于机器学习的机制,捕获此类错误可能很困难。
  • 最明显和最令人畏惧的问题领域是人类多样性。 即使在收集阶段,有关人员的数据也可能失去客观性,原因有很多。 但不要认为这个问题只影响人类:当试图检测仓库中的洪水或故障的燃气轮机时,也会出现完全相同的困难。 有些系统可能偏向于肤色,其他系统可能偏向于西门子传感器。
  • 此类问题对于机器学习来说并不新鲜,而且远非机器学习所独有。 任何复杂的结构都会做出错误的假设,并且理解为什么做出特定决定总是很困难。 我们需要以全面的方式应对这一问题:创建用于验证的工具和流程,并教育用户,使他们不会盲目遵循人工智能的建议。 机器学习确实在某些事情上比我们做得更好 - 但例如,狗在检测毒品方面比人类更有效,这并不是使用它们作为证人并根据它们的证词做出判断的理由。 顺便说一句,狗比任何机器学习系统都要聪明得多。

机器学习是当今最重要的基础技术趋势之一。 这是未来十年技术改变我们周围世界的主要方式之一。 这些变化的某些方面令人担忧。 例如,机器学习对劳动力市场的潜在影响,或其用于不道德目的(例如,由独裁政权)。 这篇文章解决了另一个问题: 人工智能偏见.

这不是一个简单的故事。

关于人工智能偏见
谷歌的人工智能可以找到猫。 2012年的这个消息在当时来说是很特别的。

什么是“人工智能偏见”?

“原始数据”既是一个矛盾修辞,也是一个坏主意。 数据必须准备充分、仔细。 ——杰弗里·博克

在 2013 年之前的某个时候,为了建立一个系统,比如说,识别照片中的猫,你必须描述逻辑步骤。 如何找到图像中的角点、识别眼睛、分析皮毛纹理、数爪子等等。 然后把所有组件放在一起,发现并没有真正起作用。 就像机械马一样——理论上它是可以制造的,但实际上它太复杂了,无法描述。 最终结果是数百(甚至数千)条手写规则。 而且没有一个单一的工作模型。

随着机器学习的出现,我们不再使用“手动”规则来识别特定对象。 相反,我们采取了一千个“这个”样本,X,一千个“其他”样本,Y,并让计算机根据他们的统计分析建立一个模型。 然后,我们为该模型提供一些样本数据,它会以一定的精度确定它是否适合其中一组。 机器学习根据数据生成模型,而不是由人类编写模型。 结果令人印象深刻,尤其是在图像和模式识别领域,这就是整个科技行业现在转向机器学习 (ML) 的原因。

但事情没那么简单。 在现实世界中,你的数千个X或Y的例子还包含A、B、J、L、O、R,甚至L。这些可能分布不均匀,有些可能出现得太频繁,以至于系统会付出更多的代价关注它们而不是你感兴趣的物体。

这在实践中意味着什么? 我最喜欢的例子是图像识别系统 看着长满青草的小山,说“羊”。 原因很清楚:大多数“羊”的示例照片都是在它们居住的草地上拍摄的,在这些图像中,草比白色的小绒毛占据了更多的空间,系统认为草是最重要的。

还有更严重的例子。 最近的一张 项目 用于检测照片中的皮肤癌。 事实证明,皮肤科医生经常将尺子与皮肤癌的表现一起拍照,以记录结构的大小。 健康皮肤的示例照片中没有标尺。 对于人工智能系统来说,这样的标尺(更准确地说,我们定义为“标尺”的像素)已经成为一组示例之间的差异之一,有时比皮肤上的小皮疹更重要。 因此,为识别皮肤癌而创建的系统有时会识别统治者。

这里的关键点是系统对其所查看的内容没有语义理解。 我们看着一组像素,在其中看到羊、皮肤或尺子,但系统只是一条数轴。 她看不到三维空间,看不到物体、纹理或羊。 她只是看到数据中的模式。

诊断此类问题的困难在于神经网络(机器学习系统生成的模型)由数千个数十万个节点组成。 没有简单的方法来研究模型并了解它如何做出决策。 拥有这种方法意味着该过程足够简单,可以手动描述所有规则,而无需使用机器学习。 人们担心机器学习已经成为某种黑匣子。 (稍后我将解释为什么这种比较仍然太多。)

一般来说,这是人工智能或机器学习中的偏差问题:用于查找数据模式的系统可能会发现错误的模式,而您可能没有注意到。 这是该技术的基本特征,对于学术界和大型科技公司中使用该技术的每个人来说都是显而易见的。 但其后果很复杂,我们应对这些后果的可能解决方案也很复杂。

我们先来说说后果。

关于人工智能偏见
人工智能可以根据大量难以察觉的信号,隐式地为我们做出有利于某些类别的人的选择

人工智能偏见场景

最明显和最可怕的是,当涉及到人类多样性时,这个问题就会显现出来。 最近 有传言亚马逊试图建立一个机器学习系统来初步筛选求职者。 由于亚马逊员工中男性较多,“成功招聘”的例子也多为男性,系统建议的简历筛选中男性也较多。 亚马逊注意到了这一点,并没有将该系统投入生产。

在这个例子中最重要的是,有传言称该系统偏向男性申请人,尽管简历上没有具体说明性别。 该系统在“优秀员工”的例子中发现了其他模式:例如,女性可能会使用特殊的词语来描述成就,或者有特殊的爱好。 当然,系统并不知道什么是“曲棍球”,或者谁是“人”,或者什么是“成功”——它只是对文本进行了统计分析。 但她看到的模式很可能不会被人类注意到,其中一些模式(例如,不同性别的人对成功的描述不同)即使我们观察它们,我们也可能很难看到它们。

进一步 - 更糟。 非常擅长在苍白皮肤上发现癌症的机器学习系统可能在深色皮肤上表现不佳,反之亦然。 不一定是因为偏见,而是因为您可能需要为不同的肤色构建单独的模型,选择不同的特征。 即使在图像识别这样狭窄的领域,机器学习系统也不能互换。 您需要调整系统,有时只是通过反复试验,才能很好地处理您感兴趣的数据中的特征,直到达到您想要的准确性。 但您可能没有注意到,系统对一组的准确率是 98%,而对另一组的准确率只有 91%(甚至比人工分析更准确)。

到目前为止,我主要使用了与人及其特征有关的例子。 围绕这个问题的讨论主要集中在这个话题上。 但重要的是要明白,对人的偏见只是问题的一部分。 我们将在很多事情上使用机器学习,而采样误差将与所有这些事情相关。 另一方面,如果你与人一起工作,数据中的偏见可能与他们无关。

为了理解这一点,让我们回到皮肤癌的例子,并考虑系统故障的三种假设可能性。

  1. 人员分布不均匀:不同肤色的照片数量不平衡,因色素沉着而导致假阳性或假阴性。
  2. 系统训练的数据包含一个频繁出现且分布不均的特征,该特征与人无关且没有诊断价值:皮肤癌照片中的尺子或羊照片中的草。 在这种情况下,如果系统在图像中找到人眼识别为“尺子”的像素,结果将会不同。
  3. 这些数据包含第三方特征,即使人们寻找它也无法看到。

这是什么意思? 我们先验地知道数据可能以不同的方式代表不同的人群,并且至少我们可以计划寻找此类例外情况。 换句话说,有很多社会原因可以假设有关人群的数据已经包含一些偏见。 如果我们用尺子看照片,我们会看到这把尺子——我们之前只是忽略了它,知道它并不重要,而忘记了系统什么都不知道。

但是,如果您所有不健康皮肤的照片都是在办公室白炽灯下拍摄的,而您健康皮肤的照片是在荧光灯下拍摄的呢? 如果在拍摄完健康皮肤后,在拍摄不健康皮肤之前,您更新了手机上的操作系统,并且苹果或谷歌稍微改变了降噪算法,会怎么样? 一个人无论多么努力地寻找这些特征,都无法注意到这一点。 但机器使用系统会立即看到并使用它。 她什么都不知道。

到目前为止,我们已经讨论了虚假相关性,但也可能是数据是准确的并且结果是正确的,但您不想出于道德、法律或管理原因使用它们。 例如,一些司法管辖区不允许女性享受保险折扣,尽管女性可能是更安全的司机。 我们可以很容易地想象一个系统,在分析历史数据时,会为女性名字分配较低的风险因素。 好的,让我们从选择中删除名字。 但请记住亚马逊的例子:系统可以根据其他因素确定性别(即使它不知道什么是性别,甚至不知道什么是汽车),并且在监管机构追溯分析您的关税之前,您不会注意到这一点。向您提供并收费,您将被罚款。

最后,人们通常认为我们只会将此类系统用于涉及人员和社交互动的项目。 这是错误的。 如果您制造燃气轮机,您可能希望将机器学习应用于产品上数十或数百个传感器(音频、视频、温度和任何其他传感器生成的数据)传输的遥测数据,这些数据可以很容易地适应创建机器学习模型)。 假设,您可以说:“这是在故障之前发生故障的 75 台涡轮机的数据,这是来自未发生故障的 12 台涡轮机的数据。 建立一个模型来说明它们之间的区别。” 好吧,现在想象一下,XNUMX% 的坏涡轮机上安装了西门子传感器,只有 XNUMX% 的好涡轮机上安装了西门子传感器(与故障没有联系)。 该系统将建立一个模型来寻找带有西门子传感器的涡轮机。 哎呀!

关于人工智能偏见
图片——莫里茨·哈特,加州大学伯克利分校

管理人工智能偏见

我们对于它可以做些什么呢? 您可以从三个角度来处理这个问题:

  1. 收集和管理用于培训系统的数据的方法严谨。
  2. 用于分析和诊断模型行为的技术工具。
  3. 在将机器学习应用到产品中时要进行培训、教育并小心谨慎。

莫里哀的《贵族中的资产阶级》里有一个笑话:有人告诉一个人,文学分为散文和诗歌,他很高兴地发现自己一生都在用散文说话,而自己却浑然不觉。 这可能就是统计学家今天的感​​受:在没有意识到的情况下,他们将自己的职业生涯奉献给了人工智能和抽样误差。 寻找抽样误差并担心它并不是一个新问题,我们只需要系统地解决它。 如上所述,在某些情况下,通过研究与人员数据相关的问题实际上更容易做到这一点。 我们先验地假设我们可能对不同人群有偏见,但我们很难想象对西门子传感器有偏见。

当然,这一切的新鲜之处在于人们不再直接进行统计分析。 它是由创建难以理解的大型、复杂模型的机器来执行的。 透明度问题是偏见问题的主要方面之一。 我们担心该系统不仅存在偏见,而且无法检测其偏见,而且机器学习不同于其他形式的自动化,后者应该由可测试的清晰逻辑步骤组成。

这里有两个问题。 我们也许仍然能够对机器学习系统进行某种审核。 审计任何其他系统实际上也并不容易。

首先,机器学习领域现代研究的方向之一是寻找识别机器学习系统重要功能的方法。 也就是说,机器学习(就其当前状态而言)是一个正在快速变化的全新科学领域,因此不要认为今天不可能的事情不会很快变得非常现实。 项目 OpenAI - 一个有趣的例子。

其次,可以测试和理解现有系统或组织的决策过程的想法在理论上是好的,但在实践中却很一般。 了解大型组织中的决策是如何制定的并不容易。 即使有正式的决策过程,它也不能反映人们实际如何互动,而且他们自己往往没有逻辑、系统的方法来做出决策。 正如我的同事所说 维杰·潘德, 人也是黑匣子.

如果有一千人在几个重叠的公司和机构中,问题就变得更加复杂。 事后我们知道航天飞机注定会在返回时解体,并且美国宇航局内部的人员掌握的信息使他们有理由认为可能会发生不好的事情,但是该系统 通常 我不知道这个。 美国宇航局甚至在失去之前的航天飞机后刚刚进行了类似的审计,但又因为非常相似的原因失去了另一架航天飞机。 人们很容易认为组织和人员遵循清晰、逻辑性的规则,这些规则可以被测试、理解和改变,但经验证明并非如此。 这 ”戈斯普兰的错觉“。

我经常将机器学习与数据库进行比较,尤其是关系型数据库——一种新的基础技术,它改变了计算机科学及其周围世界的能力,它已经成为一切事物的一部分,我们在没有意识到的情况下不断使用它。 数据库也有问题,而且它们具有相似的性质:系统可能建立在错误的假设或错误的数据之上,但很难注意到,并且使用该系统的人会按照系统的指示行事,而不会提出问题。 有很多关于税务人员曾经把你的名字拼写错误的老笑话,说服他们纠正错误比实际更改你的名字要困难得多。 有很多方法可以考虑这个问题,但尚不清楚哪个更好:作为 SQL 中的技术问题,还是作为 Oracle 版本中的错误,还是作为官僚机构的失败? 在流程中找到导致系统没有拼写错误纠正功能的错误有多困难? 在人们开始抱怨之前,这个问题能被解决吗?

当司机因导航器中的数据过时而驶入河流时,这个问题就更简单地得到了说明。 好吧,地图需要不断更新。 但是,TomTom 对您的汽车被吹入大海负有多大责任呢?

我这么说的原因是,是的,机器学习偏差会产生问题。 但这些问题将与我们过去面临的问题类似,并且它们可以像我们过去那样注意到和解决(或不解决)。 因此,人工智能偏见造成伤害的情况不太可能发生在大型组织中工作的高级研究人员身上。 最有可能的是,一些无关紧要的技术承包商或软件供应商会使用他们不理解的开源组件、库和工具编写一些东西。 而不幸的客户会购买产品描述中的“人工智能”一词,并且不问任何问题,将其分发给他的低薪员工,命令他们按照人工智能所说的去做。 这正是数据库所发生的情况。 这不是人工智能问题,甚至不是软件问题。 这就是人的因素。

结论

机器学习可以做任何你能教狗的事情——但你永远无法确定你到底教了狗什么。

我经常觉得“人工智能”这个词只会妨碍这样的对话。 这个术语给人一种错误的印象,认为我们实际上创造了它——这种智能。 我们正在通往 HAL9000 或天网的路上 - 事实上 明白。 但不是。 这些只是机器,将它们与洗衣机进行比较要准确得多。 她洗衣服比人类好得多,但如果你把盘子放在她身上而不是洗衣服,她……就会洗它们。 餐具也会变得干净。 但这不会是你所期望的,而且这种情况不会发生,因为系统对菜肴有任何偏见。 洗衣机不知道什么是碗碟或什么是衣服——它只是自动化的一个例子,从概念上讲与以前的流程自动化没有什么不同。

无论我们谈论的是汽车、飞机还是数据库,这些系统都非常强大,但也非常有限。 它们将完全取决于人们如何使用这些系统,他们的意图是好还是坏,以及他们对这些系统如何工作的理解程度。

因此,说“人工智能是数学,所以它不可能有偏见”是完全错误的。 但说机器学习“本质上是主观的”同样是错误的。 机器学习发现数据中的模式,它发现什么模式取决于数据,而数据取决于我们。 就像我们对它们所做的那样。 机器学习确实在某些事情上比我们做得更好 - 但例如,狗在检测毒品方面比人类更有效,这并不是使用它们作为证人并根据它们的证词做出判断的理由。 顺便说一句,狗比任何机器学习系统都要聪明得多。

翻译: 戴安娜·列茨卡娅.
编辑: 阿列克谢伊万诺夫.
社区: @Ponchik新闻.

来源: habr.com

添加评论