Juridische procedures tegen Microsoft en OpenAI met betrekking tot de GitHub Copilot-codegenerator

Open source typografie-ontwikkelaar Matthew Butterick en het advocatenkantoor Joseph Saveri hebben een rechtszaak (pdf) aangespannen tegen de makers van de technologie die wordt gebruikt in GitHub's Copilot-service. Gedaagden zijn onder meer Microsoft, GitHub en de bedrijven die toezicht houden op het OpenAI-project, dat het OpenAI Codex-codegeneratiemodel produceerde dat ten grondslag ligt aan GitHub Copilot. De procedure probeert de rechtbank te betrekken bij het bepalen van de wettigheid van het creëren van diensten zoals GitHub Copilot en bij het bepalen of dergelijke diensten de rechten van andere ontwikkelaars schenden.

De activiteiten van de verdachten zijn vergeleken met het creëren van een nieuw soort softwarepiraterij, gebaseerd op de manipulatie van bestaande code met behulp van machinale leertechnieken, waardoor ze kunnen profiteren van het werk van andere mensen. De oprichting van Copilot wordt ook gezien als de introductie van een nieuw mechanisme om geld te verdienen met het werk van open source softwareontwikkelaars, ondanks het feit dat GitHub eerder had beloofd dit nooit te doen.

Het standpunt van de eisers komt neer op het feit dat het resultaat van het genereren van code door een machinaal leersysteem dat is getraind op openbaar beschikbare bronteksten niet kan worden geïnterpreteerd als een fundamenteel nieuw en onafhankelijk werk, aangezien het een gevolg is van algoritmen die reeds bestaande code verwerken. Volgens de eisers reproduceert Copilot alleen code die directe verwijzingen heeft naar bestaande code in openbare repositories, en dergelijke manipulaties vallen niet onder de criteria van redelijk gebruik. Met andere woorden, de codesynthese in GitHub Copilot wordt door de eisers beschouwd als de creatie van een afgeleid werk van bestaande code, gedistribueerd onder bepaalde licenties en met specifieke auteurs.

Met name bij het trainen van het Copilot-systeem wordt gebruik gemaakt van code die wordt verspreid onder open licenties, waarbij in de meeste gevallen kennisgeving van auteurschap (toeschrijving) vereist is. Aan deze vereiste wordt niet voldaan bij het genereren van de resulterende code, wat een duidelijke schending is van de meeste open source-licenties zoals GPL, MIT en Apache. Bovendien schendt Copilot de eigen service- en privacyvoorwaarden van GitHub, voldoet het niet aan de DMCA, die de verwijdering van auteursrechtinformatie verbiedt, en de CCPA (California Consumer Privacy Act), die de omgang met persoonlijke gegevens reguleert.

De tekst van de rechtszaak geeft bij benadering een berekening van de schade die de gemeenschap lijdt als gevolg van de activiteiten van Copilot. Op grond van Sectie 1202 van de Digital Millennium Copyright Act (DMCA) bedraagt ​​de minimale schadevergoeding $2500 per inbreuk. Rekening houdend met het feit dat de Copilot-dienst 1.2 miljoen gebruikers heeft en elke keer dat de dienst wordt gebruikt, er drie DMCA-schendingen plaatsvinden (toeschrijving, copyright en licentievoorwaarden), wordt het minimale bedrag aan totale schade geschat op 9 miljard dollar (1200000 * 3 * $ 2500).

De mensenrechtenorganisatie Software Freedom Conservancy (SFC), die eerder GitHub en Copilot heeft bekritiseerd, heeft op de rechtszaak gereageerd met de aanbeveling om niet af te wijken van een van haar eerder genoemde principes bij het beschermen van de belangen van de gemeenschap: “gemeenschapsgerichte handhaving moet geen prioriteit geven aan financieel gewin.” Volgens de SFC zijn de acties van Copilot vooral onaanvaardbaar omdat ze het copyleft-mechanisme, gericht op het bieden van gelijke rechten aan gebruikers, ontwikkelaars en consumenten, ondermijnen. Veel van de projecten die in Copilot worden behandeld, worden gedistribueerd onder copyleft-licenties, zoals de GPL, die vereist dat de code van afgeleide werken wordt gedistribueerd onder een compatibele licentie. Door bestaande code in te voegen, zoals voorgesteld door Copilot, kunnen ontwikkelaars onbewust de licentie schenden van het project waarvan de code is geleend.

Laten we niet vergeten dat GitHub in de zomer een nieuwe commerciële dienst heeft gelanceerd, GitHub Copilot, die is getraind in een reeks bronteksten die in openbare GitHub-repository's zijn geplaatst en die in staat is standaardontwerpen te genereren bij het schrijven van code. De dienst kan behoorlijk complexe en grote codeblokken genereren, tot kant-en-klare functies die tekstpassages uit bestaande projecten kunnen herhalen. Volgens GitHub probeert het systeem de structuur van de code opnieuw te creëren in plaats van de code zelf te kopiëren, maar in ongeveer 1% van de gevallen kan de voorgestelde aanbeveling codefragmenten van bestaande projecten bevatten die meer dan 150 tekens lang zijn. Om vervanging van bestaande code te voorkomen, heeft Copilot een ingebouwd filter dat controleert op kruispunten met projecten die op GitHub worden gehost, maar dit filter wordt naar goeddunken van de gebruiker geactiveerd.

Twee dagen voordat de rechtszaak werd aangespannen, kondigde GitHub zijn voornemen aan om in 2023 een functie te implementeren waarmee de relatie tussen in Copilot gegenereerde fragmenten en bestaande code in de repositories zou kunnen worden gevolgd. Ontwikkelaars kunnen een lijst bekijken met soortgelijke code die al in openbare repository's aanwezig is, en kruispunten sorteren op codelicentie en tijdstip van wijziging.

Bron: opennet.ru

Voeg een reactie