Съдебни спорове срещу Microsoft и OpenAI, свързани с генератора на код GitHub Copilot

Матю Бътерик, разработчик на типография с отворен код, и адвокатската кантора Joseph Saveri заведоха дело (PDF) срещу доставчиците на технологии, използвани в услугата GitHub Copilot. Анкетираните включват Microsoft, GitHub и компаниите зад проекта OpenAI, които създадоха модела за генериране на код OpenAI Codex, който е в основата на GitHub Copilot. По време на производството беше направен опит да се включи съдът в определянето на законността на създаването на услуги като GitHub Copilot и да се установи дали такива услуги нарушават правата на други разработчици.

Дейността на обвиняемите се сравнява със създаването на нов вид софтуерно пиратство, базирано на манипулиране на съществуващ код, използвайки методи за машинно обучение и позволяващи печалба от работата на други хора. Създаването на Copilot също се разглежда като въвеждането на нов механизъм за монетизиране на работата на разработчиците с отворен код, въпреки факта, че GitHub по-рано обеща никога да не прави това.

Позицията на ищците се свежда до факта, че резултатът от генериране на код от система за машинно обучение, обучена върху публично достъпни изходни текстове, не може да се тълкува като принципно нова и независима работа, тъй като е следствие от обработката на съществуващ код от алгоритми. Според ищците Copilot възпроизвежда само код, който има директни препратки към съществуващ код в отворени хранилища и подобни манипулации не попадат в критериите за честна употреба. С други думи, синтезът на код в GitHub Copilot се разглежда от ищците като създаване на производна работа от съществуващ код, разпространяван под определени лицензи и имащ конкретни автори.

По-специално, при обучение на системата Copilot се използва код, който се разпространява под отворени лицензи, като в повечето случаи се изисква известие за авторство (приписване). При генерирането на получения код това изискване не е изпълнено, което е явно нарушение на повечето отворени лицензи като GPL, MIT и Apache. Освен това Copilot нарушава собствените условия за обслужване и поверителност на GitHub, не спазва DMCA, който забранява премахването на информация за авторски права, и CCPA (Калифорнийски закон за поверителността на потребителите), който регулира обработката на лични данни.

Текстът на иска дава приблизително изчисление на щетите, причинени на общността в резултат на дейността на Copilot. Съгласно раздел 1202 от Закона за авторското право в цифровото хилядолетие (DMCA), минималните щети са $2500 за нарушение. Като се има предвид, че услугата Copilot има 1.2 милиона потребители и има три нарушения на DMCA (приписване, авторски права и лицензионни условия) за всяко използване на услугата, минималната обща щета се оценява на 9 милиарда долара (1200000 * 3 * $2500).

Software Freedom Conservancy (SFC), която по-рано беше критична към GitHub и Copilot, коментира делото, препоръчвайки застъпничеството на общността да не се отклонява от един от формулираните по-рано принципи – „ориентираното към общността правоприлагане не трябва да дава приоритет на финансовата печалба“. Според SFC действията на Copilot са неприемливи най-вече защото подкопават механизма „copyleft“, насочен към предоставяне на равни права на потребителите, разработчиците и потребителите. Много от проектите, обхванати от Copilot, се предоставят под лицензи за копиралефт, като GPL, които изискват кодът на производни произведения да бъде доставен под съвместим лиценз. Поставянето на съществуващ код, предоставен от Copilot, може неволно да наруши лиценза на проекта, от който кодът е заимстван.

Спомнете си, че през лятото GitHub стартира нова комерсиална услуга GitHub Copilot, обучена върху масив от изходни кодове, хоствани в публични хранилища на GitHub, и способна да генерира типични конструкции при писане на код. Услугата може да формира доста сложни и големи блокове код, до готови функции, които могат да повтарят текстови фрагменти от съществуващи проекти. Според GitHub системата се опитва да пресъздаде структурата на кода, вместо да копира самия код, но в около 1% от случаите предложената препоръка може да включва кодови фрагменти на съществуващи проекти, по-големи от 150 знака. За да предотврати подмяна на съществуващ код, Copilot има специален филтър, който проверява за пресичане с проекти, хоствани в GitHub, но този филтър се активира по преценка на потребителя.

Два дни преди завеждането на делото GitHub обяви намерението си да внедри функция през 2023 г., която ви позволява да проследявате връзката на фрагменти, генерирани в Copilot, със съществуващ код в хранилищата. Разработчиците ще могат да преглеждат списък с подобен код, който вече присъства в публични хранилища, както и да сортират пресечните точки по лицензи за код и кога е направена промяната.

Източник: opennet.ru

Добавяне на нов коментар