Gerichtsverfahren gegen Microsoft und OpenAI im Zusammenhang mit dem Codegenerator GitHub Copilot

Der Open-Source-Typografieentwickler Matthew Butterick und die Anwaltskanzlei Joseph Saveri haben eine Klage (PDF) gegen die Hersteller der Technologie eingereicht, die im Copilot-Dienst von GitHub verwendet wird. Zu den Beklagten zählen Microsoft, GitHub und die Unternehmen, die das OpenAI-Projekt beaufsichtigen, das das Codegenerierungsmodell OpenAI Codex erstellt hat, das GitHub Copilot zugrunde liegt. Das Verfahren versucht, das Gericht in die Feststellung der Rechtmäßigkeit der Erstellung von Diensten wie GitHub Copilot und in die Feststellung, ob solche Dienste die Rechte anderer Entwickler verletzen, einzubeziehen.

Die Aktivitäten der Angeklagten wurden mit der Schaffung einer neuen Art von Softwarepiraterie verglichen, die auf der Manipulation vorhandener Codes mithilfe von Techniken des maschinellen Lernens basiert und es ihnen ermöglicht, von der Arbeit anderer zu profitieren. Die Schaffung von Copilot wird auch als Einführung eines neuen Mechanismus zur Monetarisierung der Arbeit von Open-Source-Softwareentwicklern angesehen, obwohl GitHub zuvor versprochen hatte, dies niemals zu tun.

Der Standpunkt der Kläger läuft darauf hinaus, dass das Ergebnis der Codegenerierung durch ein auf öffentlich zugänglichen Quelltexten trainiertes maschinelles Lernsystem nicht als grundsätzlich neues und eigenständiges Werk interpretiert werden kann, da es eine Folge der Verarbeitung bereits vorhandener Codes durch Algorithmen ist. Den Klägern zufolge reproduziert Copilot nur Code, der direkte Verweise auf vorhandenen Code in öffentlichen Repositories aufweist, und solche Manipulationen fallen nicht unter die Kriterien der fairen Nutzung. Mit anderen Worten: Die Kläger betrachten die Code-Synthese in GitHub Copilot als die Erstellung eines abgeleiteten Werks aus vorhandenem Code, das unter bestimmten Lizenzen vertrieben wird und bestimmte Autoren hat.

Insbesondere beim Training des Copilot-Systems wird Code verwendet, der unter offenen Lizenzen verbreitet wird und in den meisten Fällen eine Angabe der Urheberschaft (Namensnennung) erfordert. Diese Anforderung wird bei der Generierung des resultierenden Codes nicht erfüllt, was einen klaren Verstoß gegen die meisten Open-Source-Lizenzen wie GPL, MIT und Apache darstellt. Darüber hinaus verstößt Copilot gegen die eigenen Nutzungsbedingungen und Datenschutzbestimmungen von GitHub, hält sich nicht an den DMCA, der die Entfernung von Urheberrechtsinformationen verbietet, und gegen den CCPA (California Consumer Privacy Act), der den Umgang mit personenbezogenen Daten regelt.

Der Text der Klage liefert eine ungefähre Berechnung des Schadens, der der Gemeinschaft durch die Aktivitäten von Copilot entstanden ist. Gemäß Abschnitt 1202 des Digital Millennium Copyright Act (DMCA) beträgt der Mindestschadensersatz 2500 US-Dollar pro Verstoß. Unter Berücksichtigung der Tatsache, dass der Copilot-Dienst 1.2 Millionen Nutzer hat und bei jeder Nutzung des Dienstes drei DMCA-Verstöße auftreten (Namensnennung, Urheberrecht und Lizenzbestimmungen), wird der minimale Gesamtschaden auf 9 Milliarden Dollar (1200000 * 3) geschätzt * 2500 $).

Die Menschenrechtsorganisation Software Freedom Conservancy (SFC), die zuvor GitHub und Copilot kritisiert hatte, kommentierte die Klage mit der Empfehlung, bei der Wahrung der Interessen der Gemeinschaft nicht von einem ihrer zuvor genannten Grundsätze abzuweichen – „eine gemeinschaftsorientierte Durchsetzung sollte.“ Finanziellen Gewinn nicht in den Vordergrund stellen.“ Laut SFC sind die Maßnahmen von Copilot vor allem deshalb inakzeptabel, weil sie den Copyleft-Mechanismus untergraben, der darauf abzielt, Benutzern, Entwicklern und Verbrauchern gleiche Rechte zu gewähren. Viele der in Copilot abgedeckten Projekte werden unter Copyleft-Lizenzen vertrieben, beispielsweise der GPL, die erfordert, dass der Code abgeleiteter Werke unter einer kompatiblen Lizenz verbreitet wird. Durch das Einfügen von vorhandenem Code, wie von Copilot vorgeschlagen, können Entwickler unabsichtlich die Lizenz des Projekts verletzen, von dem der Code ausgeliehen wurde.

Erinnern wir uns daran, dass GitHub im Sommer einen neuen kommerziellen Dienst, GitHub Copilot, gestartet hat, der auf einer Reihe von Quelltexten basiert, die in öffentlichen GitHub-Repositories veröffentlicht werden, und in der Lage ist, beim Schreiben von Code Standarddesigns zu generieren. Der Dienst kann recht komplexe und große Codeblöcke generieren, bis hin zu vorgefertigten Funktionen, die Textpassagen aus bestehenden Projekten wiederholen können. Laut GitHub versucht das System, die Struktur des Codes wiederherzustellen, anstatt den Code selbst zu kopieren. Allerdings kann die vorgeschlagene Empfehlung in etwa 1 % der Fälle Codeausschnitte bestehender Projekte enthalten, die mehr als 150 Zeichen lang sind. Um die Ersetzung von vorhandenem Code zu verhindern, verfügt Copilot über einen integrierten Filter, der nach Überschneidungen mit auf GitHub gehosteten Projekten sucht. Die Aktivierung dieses Filters liegt jedoch im Ermessen des Benutzers.

Zwei Tage vor Einreichung der Klage kündigte GitHub seine Absicht an, im Jahr 2023 eine Funktion zu implementieren, die es ermöglichen würde, die Beziehung zwischen in Copilot generierten Fragmenten und vorhandenem Code in den Repositories zu verfolgen. Entwickler können eine Liste ähnlichen Codes anzeigen, der bereits in öffentlichen Repositories vorhanden ist, und Schnittmengen nach Codelizenz und Zeitpunkt der Änderung sortieren.

Source: opennet.ru

Kommentar hinzufügen