O desenvolvedor de tipografía de código aberto Matthew Butterick e o bufete de avogados Joseph Saveri presentaron unha demanda (PDF) contra os fabricantes da tecnoloxía utilizada no servizo Copilot de GitHub. Os acusados inclúen Microsoft, GitHub e as empresas que supervisan o proxecto OpenAI, que produciu o modelo de xeración de código OpenAI Codex que subxace a GitHub Copilot. Os procedementos tentan implicar ao tribunal para determinar a legalidade da creación de servizos como GitHub Copilot e determinar se tales servizos violan os dereitos doutros desenvolvedores.
Comparáronse as actividades dos acusados coa creación dun novo tipo de piratería de software, baseado na manipulación do código existente mediante técnicas de aprendizaxe automática e que lles permite beneficiarse do traballo doutras persoas. A creación de Copilot tamén se ve como a introdución dun novo mecanismo para monetizar o traballo dos desenvolvedores de software de código aberto, a pesar de que GitHub prometera nunca facelo.
A posición dos demandantes redúcese no feito de que o resultado da xeración de código por un sistema de aprendizaxe automática adestrado en textos fonte dispoñibles publicamente non pode ser interpretado como un traballo fundamentalmente novo e independente, xa que é consecuencia de algoritmos que procesan código xa existente. Segundo os demandantes, Copilot só reproduce código que ten referencias directas ao código existente en repositorios públicos, e tales manipulacións non entran no criterio de uso leal. Noutras palabras, a síntese de código en GitHub Copilot é considerada polos demandantes como a creación dun traballo derivado do código existente, distribuído baixo certas licenzas e con autores específicos.
En particular, cando se adestra o sistema Copilot, utilízase código que se distribúe baixo licenzas abertas, que na maioría dos casos requiren aviso de autoría (atribución). Este requisito non se cumpre ao xerar o código resultante, o que supón unha clara violación da maioría das licenzas de código aberto como GPL, MIT e Apache. Ademais, Copilot infrinxe os propios termos de servizo e privacidade de GitHub, non cumpre coa DMCA, que prohibe a eliminación da información de copyright, e coa CCPA (California Consumer Privacy Act), que regula o manexo de datos persoais.
O texto da demanda proporciona un cálculo aproximado dos danos causados á comunidade como consecuencia das actividades de Copilot. Segundo a Sección 1202 da Digital Millennium Copyright Act (DMCA), os danos mínimos son de 2500 USD por infracción. Tendo en conta o feito de que o servizo Copilot ten 1.2 millóns de usuarios e que cada vez que se utiliza o servizo prodúcense tres violacións da DMCA (atribución, dereitos de autor e condicións de licenza), a cantidade mínima do dano total estímase en 9 millóns de dólares (1200000 * 3). * $ 2500).
A organización de dereitos humanos Software Freedom Conservancy (SFC), que xa criticou previamente a GitHub e Copilot, comentou a demanda cunha recomendación de non desviarse dun dos seus principios anteriormente declarados á hora de protexer os intereses da comunidade: "a aplicación orientada á comunidade debería non prioriza a ganancia financeira". Segundo o SFC, as accións de Copilot son inaceptables principalmente porque socavan o mecanismo copyleft, destinado a proporcionar a igualdade de dereitos aos usuarios, desenvolvedores e consumidores. Moitos dos proxectos tratados en Copilot distribúense baixo licenzas copyleft, como a GPL, que requiren que o código das obras derivadas se distribúa baixo unha licenza compatible. Ao inserir o código existente tal e como suxeriu Copilot, os desenvolvedores poden violar sen querer a licenza do proxecto do que se tomou prestado o código.
Lembremos que no verán GitHub lanzou un novo servizo comercial, GitHub Copilot, adestrado nunha variedade de textos fonte publicados en repositorios públicos de GitHub, e capaz de xerar deseños estándar ao escribir código. O servizo pode xerar bloques de código bastante complexos e grandes, ata funcións xa preparadas que poden repetir pasaxes de texto de proxectos existentes. Segundo GitHub, o sistema tenta recrear a estrutura do código en lugar de copiar o propio código, non obstante, en aproximadamente o 1% dos casos, a recomendación proposta pode incluír fragmentos de código de proxectos existentes que teñan máis de 150 caracteres. Para evitar a substitución do código existente, Copilot ten un filtro integrado que verifica as interseccións con proxectos aloxados en GitHub, pero este filtro actívase segundo o criterio do usuario.
Dous días antes de que se presentase a demanda, GitHub anunciou a súa intención de implementar unha función en 2023 que permitise o seguimento da relación entre os fragmentos xerados en Copilot e o código existente nos repositorios. Os desenvolvedores poderán ver unha lista de códigos similares xa presentes nos repositorios públicos, así como ordenar as interseccións por licenza de código e hora de modificación.
Fonte: opennet.ru