Retssager mod Microsoft og OpenAI relateret til GitHub Copilot-kodegeneratoren

Matthew Butterick, en open source typografiudvikler, og Joseph Saveri Law Firm har anlagt en retssag (PDF) mod de teknologileverandører, der bruges i GitHub Copilot-tjenesten. Respondenterne inkluderer Microsoft, GitHub og virksomhederne bag OpenAI-projektet, som producerede OpenAI Codex-kodegenereringsmodellen, der understøtter GitHub Copilot. Under sagen blev der gjort et forsøg på at involvere retten i at afgøre lovligheden af ​​at skabe tjenester som GitHub Copilot og finde ud af, om sådanne tjenester krænker andre udvikleres rettigheder.

De tiltaltes aktivitet sammenlignes med at skabe en ny form for softwarepirateri baseret på manipulation af eksisterende kode ved hjælp af maskinlæringsmetoder og tillade at drage fordel af andre menneskers arbejde. Oprettelsen af ​​Copilot ses også som introduktionen af ​​en ny mekanisme til at tjene penge på arbejdet fra open source-udviklere, på trods af at GitHub tidligere lovede aldrig at gøre dette.

Sagsøgernes holdning bunder i, at resultatet af kodegenerering ved et maskinlæringssystem trænet på offentligt tilgængelige kildetekster ikke kan fortolkes som et grundlæggende nyt og selvstændigt værk, da det er en konsekvens af bearbejdning af eksisterende kode vha. algoritmer. Ifølge sagsøgerne reproducerer Copilot kun kode, der har direkte referencer til eksisterende kode i åbne arkiver, og sådanne manipulationer falder ikke ind under rimelig brugskriterier. Med andre ord betragtes syntesen af ​​kode i GitHub Copilot af sagsøgerne som skabelsen af ​​et afledt værk fra eksisterende kode distribueret under visse licenser og med specifikke forfattere.

Især ved træning af Copilot-systemet bruges kode, der distribueres under åbne licenser, hvilket i de fleste tilfælde kræver en meddelelse om forfatterskab (tilskrivning). Når den resulterende kode genereres, er dette krav ikke opfyldt, hvilket er en klar overtrædelse af de fleste åbne licenser såsom GPL, MIT og Apache. Derudover overtræder Copilot GitHubs egne servicevilkår og privatliv, overholder ikke DMCA, som forbyder fjernelse af ophavsretlige oplysninger, og CCPA (California Consumer Privacy Act), som regulerer behandlingen af ​​personlige data.

Teksten i retssagen giver en omtrentlig beregning af den skade, der er påført samfundet som følge af Copilots aktiviteter. I henhold til paragraf 1202 i Digital Millennium Copyright Act (DMCA) er minimumserstatningen $2500 pr. krænkelse. I betragtning af, at Copilot-tjenesten har 1.2 millioner brugere, og der er tre DMCA-overtrædelser (tilskrivning, ophavsret og licensvilkår) for hver brug af tjenesten, er den minimale samlede skade anslået til 9 milliarder dollars (1200000 * 3 * $2500).

Software Freedom Conservancy (SFC), som tidligere har været kritisk over for GitHub og Copilot, kommenterede retssagen og anbefalede, at samfundsadvocacy ikke afviger fra et af de tidligere formulerede principper – "samfundsorienteret håndhævelse bør ikke prioritere økonomisk gevinst." Ifølge SFC er Copilots handlinger uacceptable, primært fordi de underminerer "copyleft"-mekanismen, der har til formål at give lige rettigheder til brugere, udviklere og forbrugere. Mange af de projekter, der er omfattet af Copilot, leveres under copyleft-licenser, såsom GPL, som kræver, at afledt værkkode leveres under en kompatibel licens. Indsættelse af eksisterende kode leveret af Copilot kan uforvarende krænke licensen for det projekt, hvorfra koden blev lånt.

Husk på, at GitHub i sommer lancerede en ny kommerciel tjeneste GitHub Copilot, trænet i en række kildekoder, der hostes i offentlige GitHub-lagre, og som er i stand til at generere typiske konstruktioner, når der skrives kode. Tjenesten kan danne ret komplekse og store kodeblokke, op til færdige funktioner, der kan gentage tekstfragmenter fra eksisterende projekter. Ifølge GitHub forsøger systemet at genskabe strukturen af ​​koden i stedet for at kopiere selve koden, men i omkring 1% af tilfældene kan den foreslåede anbefaling omfatte kodestykker af eksisterende projekter, der er større end 150 tegn. For at forhindre substitution af eksisterende kode har Copilot et specielt filter, der tjekker for krydsninger med projekter hostet på GitHub, men dette filter aktiveres efter brugerens skøn.

To dage før indgivelsen af ​​retssagen annoncerede GitHub sin hensigt om at implementere en funktion i 2023, der giver dig mulighed for at spore forholdet mellem uddrag genereret i Copilot med eksisterende kode i lagrene. Udviklere vil være i stand til at se en liste over lignende kode, der allerede findes i offentlige arkiver, samt sortere kryds efter kodelicenser og hvornår ændringen blev foretaget.

Kilde: opennet.ru

Tilføj en kommentar