针对 Microsoft 和 OpenAI 的与 GitHub Copilot 代码生成器相关的诉讼

开源排版开发商 Matthew Butterick 和 Joseph Saveri 律师事务所已对 GitHub Copilot 服务中使用的技术制造商提起诉讼 (PDF)。 被告包括微软、GitHub 和负责监督 OpenAI 项目的公司,该项目生成了作为 GitHub Copilot 基础的 OpenAI Codex 代码生成模型。 该诉讼试图让法院参与确定创建 GitHub Copilot 等服务的合法性,并确定此类服务是否侵犯其他开发者的权利。

被告的活动被比作一种新型软件盗版,其基础是使用机器学习技术操纵现有代码并允许他们从其他人的工作中受益。 Copilot 的创建也被视为引入了一种将开源软件开发人员的工作货币化的新机制,尽管 GitHub 此前曾承诺永远不会这样做。

原告的立场归结为这样一个事实:在公开源文本上训练的机器学习系统生成代码的结果不能被解释为一项全新的独立作品,因为它是算法处理现有代码的结果。 原告称,Copilot 仅复制直接引用公共存储库中现有代码的代码,此类操作不属于合理使用的标准。 换句话说,原告认为 GitHub Copilot 中的代码合成是根据现有代码创建衍生作品,在某些许可证下分发并具有特定作者。

特别是,在训练 Copilot 系统时,使用根据开放许可证分发的代码,在大多数情况下需要注明作者身份(归属)。 生成结果代码时未满足此要求,这明显违反了大多数开源许可证,例如 GPL、MIT 和 Apache。 此外,Copilot 违反了 GitHub 自身的服务和隐私条款,不遵守禁止删除版权信息的 DMCA 以及规范个人数据处理的 CCPA(加州消费者隐私法案)。

诉讼文本提供了 Copilot 的活动对社区造成的损害的大致计算。 根据《数字千年版权法》(DMCA) 第 1202 条,每次侵权的最低赔偿额为 2500 美元。 考虑到 Copilot 服务拥有 1.2 万用户,且每次使用该服务时,都会发生三项 DMCA 违规行为(归属、版权和许可条款),总损失的最低金额估计为 9 亿美元(1200000 * 3) * 2500 美元)。

此前曾批评 GitHub 和 Copilot 的人权组织软件自由保护协会 (SFC) 对这起诉讼发表评论,建议在保护社区利益时不要偏离其先前阐述的原则之一——“以社区为导向的执法应该不优先考虑经济利益。” 证监会表示,Copilot 的行为是不可接受的,主要是因为它们破坏了旨在为用户、开发商和消费者提供平等权利的 Copyleft 机制。 Copilot 中涵盖的许多项目都是在 Copyleft 许可证下分发的,例如 GPL,它要求衍生作品的代码在兼容的许可证下分发。 通过按照 Copilot 的建议插入现有代码,开发人员可能会无意中违反借用代码的项目的许可证。

让我们回想一下,今年夏天 GitHub 推出了一项新的商业服务 GitHub Copilot,该服务接受了公共 GitHub 存储库中发布的一系列源文本的训练,并且能够在编写代码时生成标准设计。 该服务可以生成相当复杂和大型的代码块,甚至可以重复现有项目中的文本段落的现成函数。 根据 GitHub 的说法,系统尝试重新创建代码结构,而不是复制代码本身,但是,在大约 1% 的情况下,提出的建议可能包括长度超过 150 个字符的现有项目的代码片段。 为了防止替换现有代码,Copilot 有一个内置过滤器,用于检查与 GitHub 上托管的项目的交叉点,但此过滤器是否激活由用户自行决定。

在提起诉讼的前两天,GitHub 宣布打算在 2023 年实现一项功能,该功能将允许跟踪 Copilot 中生成的片段与存储库中现有代码之间的关系。 开发人员将能够查看公共存储库中已有的类似代码列表,并按代码许可证和修改时间对交叉点进行排序。

来源: opennet.ru

添加评论