Procesos legais contra Microsoft e OpenAI relacionados co xerador de código GitHub Copilot

O desenvolvedor de tipografía de código aberto Matthew Butterick e o bufete de avogados Joseph Saveri presentaron unha demanda (PDF) contra os fabricantes da tecnoloxía utilizada no servizo Copilot de GitHub. Os acusados ​​inclúen Microsoft, GitHub e as empresas que supervisan o proxecto OpenAI, que produciu o modelo de xeración de código OpenAI Codex que subxace a GitHub Copilot. Os procedementos tentan implicar ao tribunal para determinar a legalidade da creación de servizos como GitHub Copilot e determinar se tales servizos violan os dereitos doutros desenvolvedores.

Comparáronse as actividades dos acusados ​​coa creación dun novo tipo de piratería de software, baseado na manipulación do código existente mediante técnicas de aprendizaxe automática e que lles permite beneficiarse do traballo doutras persoas. A creación de Copilot tamén se ve como a introdución dun novo mecanismo para monetizar o traballo dos desenvolvedores de software de código aberto, a pesar de que GitHub prometera nunca facelo.

A posición dos demandantes redúcese no feito de que o resultado da xeración de código por un sistema de aprendizaxe automática adestrado en textos fonte dispoñibles publicamente non pode ser interpretado como un traballo fundamentalmente novo e independente, xa que é consecuencia de algoritmos que procesan código xa existente. Segundo os demandantes, Copilot só reproduce código que ten referencias directas ao código existente en repositorios públicos, e tales manipulacións non entran no criterio de uso leal. Noutras palabras, a síntese de código en GitHub Copilot é considerada polos demandantes como a creación dun traballo derivado do código existente, distribuído baixo certas licenzas e con autores específicos.

En particular, cando se adestra o sistema Copilot, utilízase código que se distribúe baixo licenzas abertas, que na maioría dos casos requiren aviso de autoría (atribución). Este requisito non se cumpre ao xerar o código resultante, o que supón unha clara violación da maioría das licenzas de código aberto como GPL, MIT e Apache. Ademais, Copilot infrinxe os propios termos de servizo e privacidade de GitHub, non cumpre coa DMCA, que prohibe a eliminación da información de copyright, e coa CCPA (California Consumer Privacy Act), que regula o manexo de datos persoais.

O texto da demanda proporciona un cálculo aproximado dos danos causados ​​á comunidade como consecuencia das actividades de Copilot. Segundo a Sección 1202 da Digital Millennium Copyright Act (DMCA), os danos mínimos son de 2500 USD por infracción. Tendo en conta o feito de que o servizo Copilot ten 1.2 millóns de usuarios e que cada vez que se utiliza o servizo prodúcense tres violacións da DMCA (atribución, dereitos de autor e condicións de licenza), a cantidade mínima do dano total estímase en 9 millóns de dólares (1200000 * 3). * $ 2500).

A organización de dereitos humanos Software Freedom Conservancy (SFC), que xa criticou previamente a GitHub e Copilot, comentou a demanda cunha recomendación de non desviarse dun dos seus principios anteriormente declarados á hora de protexer os intereses da comunidade: "a aplicación orientada á comunidade debería non prioriza a ganancia financeira". Segundo o SFC, as accións de Copilot son inaceptables principalmente porque socavan o mecanismo copyleft, destinado a proporcionar a igualdade de dereitos aos usuarios, desenvolvedores e consumidores. Moitos dos proxectos tratados en Copilot distribúense baixo licenzas copyleft, como a GPL, que requiren que o código das obras derivadas se distribúa baixo unha licenza compatible. Ao inserir o código existente tal e como suxeriu Copilot, os desenvolvedores poden violar sen querer a licenza do proxecto do que se tomou prestado o código.

Lembremos que no verán GitHub lanzou un novo servizo comercial, GitHub Copilot, adestrado nunha variedade de textos fonte publicados en repositorios públicos de GitHub, e capaz de xerar deseños estándar ao escribir código. O servizo pode xerar bloques de código bastante complexos e grandes, ata funcións xa preparadas que poden repetir pasaxes de texto de proxectos existentes. Segundo GitHub, o sistema tenta recrear a estrutura do código en lugar de copiar o propio código, non obstante, en aproximadamente o 1% dos casos, a recomendación proposta pode incluír fragmentos de código de proxectos existentes que teñan máis de 150 caracteres. Para evitar a substitución do código existente, Copilot ten un filtro integrado que verifica as interseccións con proxectos aloxados en GitHub, pero este filtro actívase segundo o criterio do usuario.

Dous días antes de que se presentase a demanda, GitHub anunciou a súa intención de implementar unha función en 2023 que permitise o seguimento da relación entre os fragmentos xerados en Copilot e o código existente nos repositorios. Os desenvolvedores poderán ver unha lista de códigos similares xa presentes nos repositorios públicos, así como ordenar as interseccións por licenza de código e hora de modificación.

Fonte: opennet.ru

Engadir un comentario