Судовий розгляд проти Microsoft та OpenAI, пов'язаний із генератором коду GitHub Copilot

Метью Баттерик (Matthew Butterick), який розробляє відкриті проекти для друкарні, та юридична компанія Joseph Saveri Law Firm, ініціювали судовий розгляд (PDF) проти виробників технологій, що використовуються у сервісі GitHub Copilot. Серед відповідачів Microsoft, GitHub і компанії, що займаються проектом OpenAI, що підготував модель генерації коду OpenAI Codex, яка лежить в основі GitHub Copilot. У ході розгляду зроблено спробу залучити суд до визначення ступеня законності створення сервісів, подібних до GitHub Copilot, та з'ясування, чи порушують такі сервіси права інших розробників.

Діяльність відповідачів порівнюється зі створенням нового виду піратства програмного забезпечення, заснованого на маніпуляції існуючим кодом за допомогою методів машинного навчання і що дозволяє отримувати вигоду за рахунок роботи інших людей. Створення Copilot також розглядається як введення в практику нового механізму монетизації праці розробників відкритого ПЗ, незважаючи на те, що GitHub раніше обіцяв ніколи цього не робити.

Позиція позивачів зводиться до того що, що результат генерації коду системою машинного навчання, натренированной на публічно доступних вихідних текстах, не можна трактувати як нову і самостійну роботу, оскільки є наслідком обробки алгоритмами вже існуючого коду. На думку позивачів Copilot лише відтворює код, який має прямі посилання на існуючий код у відкритих репозиторіях, і подібні маніпуляції не підпадають під критерії сумлінного використання. Іншими словами, синтез коду в GitHub Copilot розглядається позивачами як створення похідної роботи від існуючого коду, що розповсюджується під певними ліцензіями та має конкретних авторів.

Зокрема, під час навчання системи Copilot використовується код, що розповсюджується під відкритими ліцензіями, які у більшості випадків вимагають повідомлення про авторство (атрибуція). При генерації результуючого коду ця вимога не виконується, що є явним порушенням більшості відкритих ліцензій, таких як GPL, MIT та Apache. Крім того, у Copilot порушуються власні умови GitHub, що стосуються надання послуг та забезпечення конфіденційності, не дотримуються вимог закону DMCA, що забороняє видаляти інформацію про авторські права, та закону CCPA (California Consumer Privacy Act), що регулює поводження з персональними даними.

У тексті позову наведено приблизний розрахунок збитків, завданих спільноті внаслідок діяльності Copilot. Відповідно до статті 1202 Закону про авторське право в цифрову епоху (DMCA, Digital Millennium Copyright Act), мінімальний розмір шкоди становить 2500 доларів за кожне порушення. З урахуванням того, що сервіс Copilot налічує 1.2 млн. користувачів і при кожному використанні сервісу виникає три порушення DMCA (атрибуція, копірайт та умови ліцензії), мінімальний розмір загальної шкоди оцінений у 9 мільярдів доларів (1200000 * 3 * $ 2500).

Правозахисна організація Software Freedom Conservancy (SFC), яка раніше виступала з критикою GitHub і Copilot, прокоментувала позов рекомендацією не відхилятися при захисті інтересів спільноти від одного з раніше сформульованих принципів — «орієнтоване на співтовариство правозастосування не повинно приділяти першорядної уваги фінансовій вигоді». На думку SFC, дії Copilot неприйнятні передусім тим, що підривають механізм «копілефт», націлений на надання рівних прав користувачам, розробникам та споживачам. Багато охоплених у Copilot проектів поставляються під копілефт-ліцензіями, такими як GPL, що вимагають поставки під сумісною ліцензією коду похідних робіт. У разі вставки запропонованого Copilot існуючого коду, розробники можуть мимоволі порушити ліцензію на проект, з якого був запозичений цей код.

Нагадаємо, що влітку GitHub запустив новий комерційний сервіс GitHub Copilot, натренований на масиві вихідних текстів, які розміщені в публічних репозиторіях GitHub, і здатний генерувати типові конструкції при написанні коду. Сервіс може формувати досить складні та великі блоки коду, аж до готових функцій, які можуть повторювати уривки з існуючих проектів. За даними GitHub, система намагається відтворити структуру коду, а не копіює сам код, проте приблизно в 1% випадків запропонована рекомендація може включати уривки коду існуючих проектів розміром більше 150 символів. Для запобігання підстановці існуючого коду Copilot вбудований спеціальний фільтр, що перевіряє перетину з розміщеними на GitHub проектами, але даний фільтр активується на розсуд користувача.

За два дні до подання позову GitHub оголосив про намір реалізувати в 2023 році функцію, що дозволяє відстежувати зв'язок фрагментів, що генеруються в Copilot, з існуючим у репозиторіях кодом. Розробники зможуть переглянути список схожого коду, який вже присутній у публічних репозиторіях, а також відсортувати перетини за ліцензіями на код та час внесення зміни.

Джерело: opennet.ru

Додати коментар або відгук