針對 Microsoft 和 OpenAI 的與 GitHub Copilot 代碼生成器相關的訴訟

開源排版開發人員 Matthew Butterick 和 Joseph Saveri 律師事務所已對 GitHub Copilot 服務中使用的技術供應商提起訴訟 (PDF)。 受訪者包括 Microsoft、GitHub 和 OpenAI 項目背後的公司,該項目生成了支撐 GitHub Copilot 的 OpenAI Codex 代碼生成模型。 在訴訟過程中,試圖讓法院參與確定創建 GitHub Copilot 等服務的合法性,並查明此類服務是否侵犯了其他開發者的權利。

被告的活動類似於創建一種新型軟件盜版,其基礎是使用機器學習方法操縱現有代碼並允許從其他人的工作中獲利。 Copilot 的創建也被視為引入了一種將開源開發人員的工作貨幣化的新機制,儘管 GitHub 此前承諾永遠不會這樣做。

原告的立場是,在公開源文本上訓練的機器學習系統生成代碼的結果不能被解釋為全新的獨立作品,因為它是算法處理現有代碼的結果。 據原告稱,Copilot 僅複製直接引用開放存儲庫中現有代碼的代碼,此類操作不屬於合理使用標準。 換句話說,原告認為 GitHub Copilot 中的代碼合成是根據在某些許可證下分發並具有特定作者的現有代碼創建的衍生作品。

特別是,在訓練 Copilot 系統時,使用根據開放許可證分發的代碼,在大多數情況下需要作者身份(歸屬)通知。 生成結果代碼時,未滿足此要求,這明顯違反了大多數開源許可證,例如 GPL、MIT 和 Apache。 此外,Copilot 違反了 GitHub 自身的服務和隱私條款,不遵守禁止刪除版權信息的 DMCA 以及規範個人數據處理的 CCPA(加州消費者隱私法案)。

訴訟文本提供了 Copilot 的活動對社區造成的損害的大致計算。 根據《數字千年版權法》(DMCA) 第 1202 條,每次侵權的最低賠償額為 2500 美元。 鑑於 Copilot 服務擁有 1.2 萬用戶,並且每次使用該服務都存在三項 DMCA 違規行為(歸屬、版權和許可條款),因此總損失估計至少為 9 億美元(1200000 * 3 * 2500 美元)。

此前一直批評 GitHub 和 Copilot 的軟件自由保護協會 (SFC) 對訴訟發表評論,建議社區倡導不要偏離之前製定的原則之一——“面向社區的執法不應優先考慮經濟利益”。 證監會表示,Copilot 的行為不可接受,主要是因為它們破壞了旨在為用戶、開發商和消費者提供平等權利的“copyleft”機制。 Copilot 中涵蓋的許多項目都是根據 Copyleft 許可證提供的,例如 GPL,它要求在兼容許可證下提供衍生作品代碼。 粘貼 Copilot 提供的現有代碼可能會無意中違反借用代碼的項目的許可證。

回想一下,今年夏天 GitHub 推出了一項新的商業服務 GitHub Copilot,該服務接受了公共 GitHub 存儲庫中託管的一系列源代碼的訓練,並且能夠在編寫代碼時生成典型的構造。 該服務可以形成相當複雜和大型的代碼塊,甚至可以重複現有項目中的文本片段的現成函數。 根據 GitHub 的說法,系統嘗試重新創建代碼結構,而不是複制代碼本身,但是,在大約 1% 的情況下,提出的建議可能包括大於 150 個字符的現有項目的代碼片段。 為了防止替換現有代碼,Copilot 有一個特殊的過濾器,用於檢查與 GitHub 上託管的項目的交叉點,但此過濾器的激活由用戶自行決定。

在提起訴訟的前兩天,GitHub 宣布打算在 2023 年實現一項功能,允許您跟踪 Copilot 中生成的代碼片段與存儲庫中現有代碼的關係。 開發人員將能夠查看公共存儲庫中已有的類似代碼列表,並按代碼許可證和更改時間對交叉點進行排序。

來源: opennet.ru

添加評論