Rettslige prosesser mot Microsoft og OpenAI relatert til GitHub Copilot-kodegeneratoren

Åpen kildekode-typografiutvikler Matthew Butterick og Joseph Saveri Law Firm har anlagt søksmål (PDF) mot produsentene av teknologien som brukes i GitHubs Copilot-tjeneste. Tiltalte inkluderer Microsoft, GitHub og selskapene som fører tilsyn med OpenAI-prosjektet, som produserte OpenAI Codex-kodegenereringsmodellen som ligger til grunn for GitHub Copilot. Saken forsøker å involvere retten i å avgjøre lovligheten av å lage tjenester som GitHub Copilot og avgjøre om slike tjenester krenker rettighetene til andre utviklere.

De tiltaltes aktiviteter har blitt sammenlignet med etableringen av en ny type programvarepiratvirksomhet, basert på manipulering av eksisterende kode ved hjelp av maskinlæringsteknikker og la dem dra nytte av andre menneskers arbeid. Opprettelsen av Copilot blir også sett på som introduksjonen av en ny mekanisme for å tjene penger på arbeidet til utviklere av åpen kildekode, til tross for at GitHub tidligere hadde lovet å aldri gjøre dette.

Saksøkernes standpunkt koker ned til at resultatet av kodegenerering av et maskinlæringssystem trent på offentlig tilgjengelige kildetekster ikke kan tolkes som et fundamentalt nytt og uavhengig arbeid, siden det er en konsekvens av at algoritmer behandler allerede eksisterende kode. I følge saksøkerne reproduserer Copilot kun kode som har direkte referanser til eksisterende kode i offentlige depoter, og slike manipulasjoner faller ikke inn under kriteriene for rimelig bruk. Med andre ord anses kodesyntese i GitHub Copilot av saksøkerne som opprettelsen av et avledet verk fra eksisterende kode, distribuert under visse lisenser og med spesifikke forfattere.

Spesielt ved opplæring av Copilot-systemet brukes kode som distribueres under åpne lisenser, som i de fleste tilfeller krever varsel om forfatterskap (attribusjon). Dette kravet oppfylles ikke når den resulterende koden genereres, som er et klart brudd på de fleste åpen kildekode-lisenser som GPL, MIT og Apache. I tillegg bryter Copilot GitHubs egne vilkår for tjeneste og personvern, overholder ikke DMCA, som forbyr fjerning av informasjon om opphavsrett, og CCPA (California Consumer Privacy Act), som regulerer håndteringen av personopplysninger.

Teksten i søksmålet gir en omtrentlig beregning av skaden påført samfunnet som følge av Copilots aktiviteter. I henhold til seksjon 1202 i Digital Millennium Copyright Act (DMCA), er minimumserstatningen USD 2500 per brudd. Tatt i betraktning at Copilot-tjenesten har 1.2 millioner brukere og hver gang tjenesten brukes, forekommer tre DMCA-brudd (attribusjon, opphavsrett og lisensvilkår), er minimumsbeløpet for total skade estimert til 9 milliarder dollar (1200000 3 2500 * XNUMX * $XNUMX).

Menneskerettighetsorganisasjonen Software Freedom Conservancy (SFC), som tidligere har kritisert GitHub og Copilot, kommenterte søksmålet med en anbefaling om ikke å avvike fra et av sine tidligere uttalte prinsipper når de beskytter fellesskapets interesser – «samfunnsorientert håndhevelse bør ikke prioritere økonomisk gevinst.» I følge SFC er Copilots handlinger uakseptable først og fremst fordi de undergraver copyleft-mekanismen, rettet mot å gi like rettigheter til brukere, utviklere og forbrukere. Mange av prosjektene som dekkes i Copilot distribueres under copyleft-lisenser, for eksempel GPL, som krever at koden til avledede verk distribueres under en kompatibel lisens. Ved å sette inn eksisterende kode som foreslått av Copilot, kan utviklere uforvarende bryte lisensen til prosjektet som koden ble lånt fra.

La oss huske at GitHub i sommer lanserte en ny kommersiell tjeneste, GitHub Copilot, trent på en rekke kildetekster som er lagt ut i offentlige GitHub-depoter, og som er i stand til å generere standarddesign når du skriver kode. Tjenesten kan generere ganske komplekse og store blokker med kode, opp til ferdige funksjoner som kan gjenta tekstpassasjer fra eksisterende prosjekter. I følge GitHub prøver systemet å gjenskape strukturen til koden i stedet for å kopiere selve koden, men i omtrent 1 % av tilfellene kan den foreslåtte anbefalingen inkludere kodebiter av eksisterende prosjekter som er mer enn 150 tegn lange. For å forhindre erstatning av eksisterende kode, har Copilot et innebygd filter som sjekker for kryss med prosjekter som er vert på GitHub, men dette filteret aktiveres etter brukerens skjønn.

To dager før søksmålet ble anlagt, kunngjorde GitHub sin intensjon om å implementere en funksjon i 2023 som ville tillate sporing av forholdet mellom fragmenter generert i Copilot og eksisterende kode i depotene. Utviklere vil kunne se en liste over lignende kode som allerede finnes i offentlige depoter, samt sortere kryss etter kodelisens og tidspunkt for endring.

Kilde: opennet.ru

Legg til en kommentar