Contentieux contre Microsoft et OpenAI lié au générateur de code GitHub Copilot

Matthew Butterick, développeur de typographie open source, et le cabinet d'avocats Joseph Saveri ont intenté une action en justice (PDF) contre les fournisseurs de technologie utilisés dans le service GitHub Copilot. Les personnes interrogées incluent Microsoft, GitHub et les sociétés à l'origine du projet OpenAI, qui ont produit le modèle de génération de code OpenAI Codex qui sous-tend GitHub Copilot. Au cours de la procédure, une tentative a été faite pour impliquer le tribunal dans la détermination de la légalité de la création de services tels que GitHub Copilot et pour déterminer si ces services violaient les droits d'autres développeurs.

L'activité des accusés est comparée à la création d'un nouveau type de piratage de logiciels basé sur la manipulation de code existant à l'aide de méthodes d'apprentissage automatique et permettant de profiter du travail d'autrui. La création de Copilot est également considérée comme l'introduction d'un nouveau mécanisme de monétisation du travail des développeurs open source, malgré le fait que GitHub avait précédemment promis de ne jamais le faire.

La position des plaignants se résume au fait que le résultat de la génération de code par un système d'apprentissage automatique formé sur des textes sources accessibles au public ne peut être interprété comme un travail fondamentalement nouveau et indépendant, puisqu'il est une conséquence du traitement du code existant par algorithmes. Selon les plaignants, Copilot ne reproduit que du code qui fait directement référence au code existant dans des référentiels ouverts, et de telles manipulations ne relèvent pas des critères d'utilisation équitable. Autrement dit, la synthèse de code dans GitHub Copilot est considérée par les plaignants comme la création d'une œuvre dérivée à partir de code existant distribué sous certaines licences et ayant des auteurs spécifiques.

En particulier, lors de la formation du système Copilot, on utilise du code distribué sous licences ouvertes, nécessitant dans la plupart des cas une mention de paternité (attribution). Lors de la génération du code résultant, cette exigence n'est pas remplie, ce qui constitue une violation flagrante de la plupart des licences ouvertes telles que GPL, MIT et Apache. De plus, Copilot viole les propres conditions de service et de confidentialité de GitHub, ne respecte pas le DMCA, qui interdit la suppression des informations de droit d'auteur, et le CCPA (California Consumer Privacy Act), qui réglemente le traitement des données personnelles.

Le texte du procès fournit un calcul approximatif des dommages causés à la communauté du fait des activités de Copilot. En vertu de l'article 1202 du Digital Millennium Copyright Act (DMCA), les dommages minimums sont de 2500 1.2 $ par infraction. Étant donné que le service Copilot compte 9 million d'utilisateurs et qu'il y a trois violations DMCA (attribution, droits d'auteur et conditions de licence) pour chaque utilisation du service, le dommage total minimum est estimé à 1200000 milliards de dollars (3 2500 XNUMX * XNUMX * XNUMX XNUMX $).

Le Software Freedom Conservancy (SFC), qui a déjà critiqué GitHub et Copilot, a commenté le procès en recommandant que le plaidoyer communautaire ne s'écarte pas de l'un des principes formulés précédemment : « l'application orientée vers la communauté ne devrait pas donner la priorité au gain financier ». Selon la SFC, les actions de Copilot sont inacceptables principalement parce qu'elles portent atteinte au mécanisme du « copyleft » visant à garantir l'égalité des droits aux utilisateurs, aux développeurs et aux consommateurs. De nombreux projets couverts par Copilot sont fournis sous des licences copyleft, telles que la GPL, qui nécessitent que le code des œuvres dérivées soit fourni sous une licence compatible. Coller du code existant fourni par Copilot peut involontairement violer la licence du projet auquel le code a été emprunté.

Rappelons qu'au cours de l'été, GitHub a lancé un nouveau service commercial GitHub Copilot, formé sur un ensemble de codes sources hébergés dans des référentiels publics GitHub, et capable de générer des constructions typiques lors de l'écriture de code. Le service peut former des blocs de code assez complexes et volumineux, jusqu'à des fonctions prêtes à l'emploi qui peuvent répéter des fragments de texte de projets existants. Selon GitHub, le système tente de recréer la structure du code plutôt que de copier le code lui-même. Cependant, dans environ 1 % des cas, la recommandation proposée peut inclure des extraits de code de projets existants de plus de 150 caractères. Pour empêcher la substitution du code existant, Copilot dispose d'un filtre spécial qui vérifie les intersections avec les projets hébergés sur GitHub, mais ce filtre est activé à la discrétion de l'utilisateur.

Deux jours avant le dépôt du procès, GitHub a annoncé son intention de mettre en œuvre en 2023 une fonctionnalité permettant de suivre la relation entre les extraits générés dans Copilot et le code existant dans les référentiels. Les développeurs pourront afficher une liste de codes similaires déjà présents dans les référentiels publics, ainsi que trier les intersections par licences de code et quand la modification a été effectuée.

Source: opennet.ru

Ajouter un commentaire