Litigi contra Microsoft i OpenAI relacionat amb el generador de codi GitHub Copilot

Matthew Butterick, un desenvolupador de tipografia de codi obert, i Joseph Saveri Law Firm han presentat una demanda (PDF) contra els venedors de tecnologia utilitzats al servei GitHub Copilot. Entre els enquestats hi ha Microsoft, GitHub i les empreses darrere del projecte OpenAI, que va produir el model de generació de codi OpenAI Codex que sustenta GitHub Copilot. Durant el procediment, es va intentar implicar el tribunal per determinar la legalitat de la creació de serveis com GitHub Copilot i esbrinar si aquests serveis violen els drets d'altres desenvolupadors.

L'activitat dels acusats es compara amb la creació d'un nou tipus de pirateria de programari basat en la manipulació del codi existent mitjançant mètodes d'aprenentatge automàtic i permetent treure profit del treball d'altres persones. La creació de Copilot també es veu com la introducció d'un nou mecanisme per monetitzar el treball dels desenvolupadors de codi obert, malgrat que GitHub anteriorment va prometre no fer-ho mai.

La posició dels demandants es redueix al fet que el resultat de la generació de codi per part d'un sistema d'aprenentatge automàtic entrenat en textos font disponibles públicament no es pot interpretar com una obra fonamentalment nova i independent, ja que és una conseqüència del processament del codi existent per part de algorismes. Segons els demandants, Copilot només reprodueix el codi que té referències directes al codi existent en repositoris oberts, i aquestes manipulacions no entren sota criteris d'ús legítim. En altres paraules, la síntesi de codi a GitHub Copilot és considerada pels demandants com la creació d'una obra derivada del codi existent distribuït sota determinades llicències i amb autors específics.

En particular, quan s'entrena el sistema Copilot, s'utilitza codi que es distribueix sota llicències obertes, que en la majoria dels casos requereix un avís d'autoria (atribució). Quan es genera el codi resultant, aquest requisit no es compleix, la qual cosa suposa una clara violació de la majoria de llicències obertes com ara la GPL, MIT i Apache. A més, Copilot incompleix els termes de servei i privadesa de GitHub, no compleix amb la DMCA, que prohibeix l'eliminació de la informació dels drets d'autor, i la CCPA (California Consumer Privacy Act), que regula el tractament de les dades personals.

El text de la demanda proporciona un càlcul aproximat dels danys causats a la comunitat com a conseqüència de les activitats de Copilot. Segons la secció 1202 de la Digital Millennium Copyright Act (DMCA), els danys mínims són de 2500 dòlars per infracció. Atès que el servei Copilot té 1.2 milions d'usuaris i hi ha tres infraccions de la DMCA (atribució, drets d'autor i termes de llicència) per a cada ús del servei, el dany total mínim s'estima en 9 milions de dòlars (1200000 * 3 * 2500 $).

Software Freedom Conservancy (SFC), que anteriorment ha criticat GitHub i Copilot, va comentar la demanda i va recomanar que la defensa de la comunitat no es desviï d'un dels principis formulats anteriorment: "l'aplicació orientada a la comunitat no hauria de donar prioritat als guanys financers". Segons l'SFC, les accions de Copilot són inacceptables principalment perquè soscaven el mecanisme de "copyleft" que té com a objectiu oferir la igualtat de drets als usuaris, desenvolupadors i consumidors. Molts dels projectes coberts a Copilot es subministren sota llicències copyleft, com ara la GPL, que requereixen que el codi d'obres derivats es proporcioni sota una llicència compatible. Enganxar el codi existent proporcionat per Copilot pot violar sense voler la llicència del projecte del qual s'ha pres el codi.

Recordem que a l'estiu GitHub va llançar un nou servei comercial GitHub Copilot, entrenat en una sèrie de codis font allotjats en repositoris públics de GitHub, i capaç de generar construccions típiques en escriure codi. El servei pot formar blocs de codi bastant complexos i grans, fins a funcions ja fetes que poden repetir fragments de text de projectes existents. Segons GitHub, el sistema intenta recrear l'estructura del codi en lloc de copiar el codi en si, però, en aproximadament l'1% dels casos, la recomanació proposada pot incloure fragments de codi de projectes existents de més de 150 caràcters. Per evitar la substitució del codi existent, Copilot té un filtre especial que verifica les interseccions amb projectes allotjats a GitHub, però aquest filtre s'activa a criteri de l'usuari.

Dos dies abans de la presentació de la demanda, GitHub va anunciar la seva intenció d'implementar una funció el 2023 que permeti fer un seguiment de la relació dels fragments generats a Copilot amb el codi existent als repositoris. Els desenvolupadors podran veure una llista de codi similar ja present als repositoris públics, així com ordenar les interseccions per llicències de codi i quan es va fer el canvi.

Font: opennet.ru

Afegeix comentari