Rättstvister mot Microsoft och OpenAI relaterade till GitHub Copilot-kodgeneratorn

Utvecklaren av typografi med öppen källkod Matthew Butterick och Joseph Saveri Law Firm har lämnat in en stämningsansökan (PDF) mot tillverkarna av tekniken som används i GitHubs Copilot-tjänst. Svarande inkluderar Microsoft, GitHub och de företag som övervakar OpenAI-projektet, som producerade OpenAI Codex-kodgenereringsmodellen som ligger till grund för GitHub Copilot. Förfarandet försöker involvera domstolen i att fastställa lagligheten av att skapa tjänster som GitHub Copilot och avgöra om sådana tjänster kränker andra utvecklares rättigheter.

De tilltalades verksamhet har jämförts med skapandet av en ny typ av piratkopiering av programvara, baserad på manipulering av befintlig kod med hjälp av maskininlärningstekniker och tillåta dem att dra nytta av andra människors arbete. Skapandet av Copilot ses också som introduktionen av en ny mekanism för att tjäna pengar på arbetet hos utvecklare av öppen källkod, trots att GitHub tidigare hade lovat att aldrig göra detta.

Målsägandenas ståndpunkt kokar ner till att resultatet av kodgenerering av ett maskininlärningssystem som tränats på allmänt tillgängliga källtexter inte kan tolkas som ett i grunden nytt och självständigt arbete, eftersom det är en konsekvens av att algoritmer bearbetar redan existerande kod. Enligt kärandena återger Copilot endast kod som har direkta referenser till befintlig kod i offentliga arkiv, och sådana manipulationer faller inte under kriterierna för skälig användning. Med andra ord betraktas kodsyntes i GitHub Copilot av kärandena som skapandet av ett härlett verk från befintlig kod, distribuerad under vissa licenser och med specifika författare.

I synnerhet när man tränar Copilot-systemet används kod som distribueras under öppna licenser, i de flesta fall kräver meddelande om författarskap (attribution). Detta krav uppfylls inte när den resulterande koden genereras, vilket är ett tydligt brott mot de flesta öppen källkodslicenser som GPL, MIT och Apache. Dessutom bryter Copilot mot GitHubs egna användarvillkor och integritet, följer inte DMCA, som förbjuder borttagning av upphovsrättsinformation, och CCPA (California Consumer Privacy Act), som reglerar hanteringen av personuppgifter.

Texten i rättegången ger en ungefärlig beräkning av den skada som orsakats för samhället till följd av Copilots verksamhet. I enlighet med avsnitt 1202 i Digital Millennium Copyright Act (DMCA) är minimiskadeståndet $2500 1.2 per intrång. Med hänsyn till det faktum att Copilot-tjänsten har 9 miljoner användare och varje gång tjänsten används inträffar tre DMCA-överträdelser (tillskrivning, upphovsrätt och licensvillkor), beräknas minimibeloppet för total skada till 1200000 miljarder dollar (3 2500 XNUMX * XNUMX) * XNUMX XNUMX USD).

Människorättsorganisationen Software Freedom Conservancy (SFC), som tidigare har kritiserat GitHub och Copilot, kommenterade stämningsansökan med en rekommendation att inte avvika från en av dess tidigare uttalade principer när man skyddar samhällets intressen – ”gemenskapsorienterad verkställighet bör inte prioritera ekonomisk vinst.” Enligt SFC är Copilots agerande oacceptabla främst för att de undergräver copyleft-mekanismen, som syftar till att ge lika rättigheter för användare, utvecklare och konsumenter. Många av projekten som täcks av Copilot distribueras under copyleft-licenser, såsom GPL, som kräver att koden för härledda verk distribueras under en kompatibel licens. Genom att infoga befintlig kod som Copilot föreslår kan utvecklare omedvetet bryta mot licensen för projektet från vilket koden lånades.

Låt oss komma ihåg att GitHub under sommaren lanserade en ny kommersiell tjänst, GitHub Copilot, utbildad i en mängd källtexter som publicerats i offentliga GitHub-förråd, och som kan generera standarddesigner när du skriver kod. Tjänsten kan generera ganska komplexa och stora kodblock, upp till färdiga funktioner som kan upprepa textavsnitt från befintliga projekt. Enligt GitHub försöker systemet återskapa kodens struktur istället för att kopiera själva koden, men i cirka 1 % av fallen kan den föreslagna rekommendationen innehålla kodavsnitt av befintliga projekt som är mer än 150 tecken långa. För att förhindra ersättning av befintlig kod har Copilot ett inbyggt filter som letar efter korsningar med projekt som finns på GitHub, men detta filter aktiveras efter användarens gottfinnande.

Två dagar innan stämningsansökan lämnades tillkännagav GitHub sin avsikt att implementera en funktion 2023 som skulle möjliggöra spårning av förhållandet mellan fragment som genererats i Copilot och befintlig kod i arkiven. Utvecklare kommer att kunna se en lista över liknande kod som redan finns i offentliga arkiv, samt sortera korsningar efter kodlicens och tidpunkt för ändring.

Källa: opennet.ru

Lägg en kommentar