Litígio contra Microsoft e OpenAI relacionado ao gerador de código GitHub Copilot

O desenvolvedor de tipografia de código aberto Matthew Butterick e o escritório de advocacia Joseph Saveri entraram com uma ação judicial (PDF) contra os fabricantes da tecnologia usada no serviço Copilot do GitHub. Os réus incluem Microsoft, GitHub e as empresas que supervisionam o projeto OpenAI, que produziu o modelo de geração de código OpenAI Codex que fundamenta o GitHub Copilot. O processo tenta envolver o tribunal na determinação da legalidade da criação de serviços como o GitHub Copilot e na determinação se tais serviços violam os direitos de outros desenvolvedores.

As atividades dos arguidos foram comparadas à criação de um novo tipo de pirataria de software, baseado na manipulação de códigos existentes através de técnicas de aprendizagem automática e que lhes permite beneficiar do trabalho de outras pessoas. A criação do Copilot também é vista como a introdução de um novo mecanismo para monetizar o trabalho dos desenvolvedores de software de código aberto, apesar do GitHub ter prometido anteriormente nunca fazer isso.

A posição dos demandantes resume-se ao facto de que o resultado da geração de código por um sistema de aprendizagem automática treinado em textos fonte publicamente disponíveis não pode ser interpretado como um trabalho fundamentalmente novo e independente, uma vez que é uma consequência de algoritmos que processam código já existente. Segundo os demandantes, o Copilot apenas reproduz código que tenha referências diretas a códigos existentes em repositórios públicos, e tais manipulações não se enquadram nos critérios de uso justo. Em outras palavras, a síntese de código no GitHub Copilot é considerada pelos demandantes como a criação de uma obra derivada de código existente, distribuída sob determinadas licenças e com autores específicos.

Em particular, no treinamento do sistema Copilot, é utilizado código distribuído sob licenças abertas, na maioria dos casos exigindo notificação de autoria (atribuição). Este requisito não é atendido ao gerar o código resultante, o que é uma clara violação da maioria das licenças de código aberto, como GPL, MIT e Apache. Além disso, o Copilot viola os próprios termos de serviço e privacidade do GitHub, não cumpre a DMCA, que proíbe a remoção de informações de direitos autorais, e a CCPA (California Consumer Privacy Act), que regulamenta o tratamento de dados pessoais.

O texto da ação traz um cálculo aproximado dos danos causados ​​à comunidade em decorrência das atividades da Copilot. De acordo com a Seção 1202 da Lei de Direitos Autorais do Milênio Digital (DMCA), os danos mínimos são de US$ 2500 por violação. Tendo em conta que o serviço Copilot tem 1.2 milhões de utilizadores e cada vez que o serviço é utilizado ocorrem três violações do DMCA (atribuição, direitos de autor e termos de licença), o valor mínimo do dano total é estimado em 9 mil milhões de dólares (1200000 * 3 *$ 2500).

A organização de direitos humanos Software Freedom Conservancy (SFC), que já criticou o GitHub e o Copilot, comentou o processo com uma recomendação para não se desviar de um de seus princípios anteriormente declarados ao proteger os interesses da comunidade - “a aplicação orientada para a comunidade deve não priorizar o ganho financeiro.” De acordo com a SFC, as ações do Copilot são inaceitáveis ​​principalmente porque prejudicam o mecanismo copyleft, que visa proporcionar direitos iguais a utilizadores, desenvolvedores e consumidores. Muitos dos projetos cobertos pelo Copilot são distribuídos sob licenças copyleft, como a GPL, que exige que o código dos trabalhos derivados seja distribuído sob uma licença compatível. Ao inserir o código existente conforme sugerido pelo Copilot, os desenvolvedores podem violar involuntariamente a licença do projeto do qual o código foi emprestado.

Lembremos que no verão o GitHub lançou um novo serviço comercial, GitHub Copilot, treinado em uma série de textos-fonte postados em repositórios públicos do GitHub e capaz de gerar designs padrão ao escrever código. O serviço pode gerar blocos de código bastante complexos e grandes, até funções prontas que podem repetir trechos de texto de projetos existentes. De acordo com o GitHub, o sistema tenta recriar a estrutura do código em vez de copiar o código em si, porém, em aproximadamente 1% dos casos, a recomendação proposta pode incluir trechos de código de projetos existentes com mais de 150 caracteres. Para evitar a substituição do código existente, o Copilot possui um filtro integrado que verifica interseções com projetos hospedados no GitHub, mas esse filtro é ativado a critério do usuário.

Dois dias antes do ajuizamento da ação, o GitHub anunciou a intenção de implementar em 2023 um recurso que permitiria rastrear a relação entre os fragmentos gerados no Copilot e o código existente nos repositórios. Os desenvolvedores poderão visualizar uma lista de códigos semelhantes já presentes em repositórios públicos, bem como classificar interseções por licença de código e horário de modificação.

Fonte: opennet.ru

Adicionar um comentário