A Microsoft és az OpenAI elleni peres eljárás a GitHub Copilot kódgenerátorral kapcsolatban

A nyílt forráskódú tipográfia fejlesztője, Matthew Butterick és a Joseph Saveri Ügyvédi Iroda pert (PDF) indított a GitHub Copilot szolgáltatásában használt technológia gyártói ellen. Az alperesek közé tartozik a Microsoft, a GitHub és az OpenAI projektet felügyelő vállalatok, amelyek a GitHub Copilot alapjául szolgáló OpenAI Codex kódgenerálási modellt készítették el. Az eljárás megpróbálja bevonni a bíróságot a GitHub Copilothoz hasonló szolgáltatások létrehozásának jogszerűségének megállapításába, és annak megállapításába, hogy az ilyen szolgáltatások sértik-e más fejlesztők jogait.

A vádlottak tevékenységét egy új típusú szoftverkalózkodás létrehozásához hasonlították, amely a meglévő kód gépi tanulási technikák segítségével történő manipulálásán alapul, és lehetővé teszi számukra, hogy hasznot húzzanak mások munkájából. A Copilot létrehozását a nyílt forráskódú szoftverfejlesztők munkájának pénzzé tételére szolgáló új mechanizmus bevezetésének is tekintik, annak ellenére, hogy a GitHub korábban megígérte, hogy ezt soha nem teszi meg.

A felperesek álláspontja abból adódik, hogy a nyilvánosan elérhető forrásszövegekre oktatott gépi tanulási rendszerrel végzett kódgenerálás eredménye nem értelmezhető alapvetően új, önálló munkaként, hiszen az már meglévő kódot feldolgozó algoritmusok következménye. A felperesek szerint a Copilot csak olyan kódot reprodukál, amely közvetlen hivatkozásokat tartalmaz a nyilvános adattárak meglévő kódjára, és az ilyen manipulációk nem tartoznak a méltányos használat kritériumai közé. Más szavakkal, a GitHub Copilotban a kódszintézist a felperesek egy származékos mű létrehozásának tekintik a meglévő kódból, amelyet bizonyos licencek alatt terjesztenek és meghatározott szerzőkkel rendelkeznek.

Különösen a Copilot rendszer betanítása során olyan kódot használnak, amelyet nyílt licencek alatt terjesztenek, és a legtöbb esetben a szerzőségről szóló értesítést (megjelölést) igényelnek. Ez a követelmény nem teljesül az eredményül kapott kód generálásakor, ami egyértelműen megsérti a legtöbb nyílt forráskódú licencet, mint például a GPL, MIT és Apache. Ezenkívül a Copilot megsérti a GitHub saját szolgáltatási feltételeit és adatvédelmi feltételeit, nem tartja be a DMCA-t, amely tiltja a szerzői jogi információk eltávolítását, és a CCPA-t (California Consumer Privacy Act), amely a személyes adatok kezelését szabályozza.

A per szövege hozzávetőleges számítást ad a Copilot tevékenységével a közösségnek okozott kárról. A Digital Millennium Copyright Act (DMCA) 1202. szakasza értelmében a minimális kártérítés jogsértésenként 2500 USD. Figyelembe véve azt a tényt, hogy a Copilot szolgáltatásnak 1.2 millió felhasználója van, és a szolgáltatás minden egyes használatakor három DMCA-sértés történik (megjelölés, szerzői jog és licencfeltételek), a teljes kár minimális összegét 9 milliárd dollárra becsülik (1200000 3 2500 * XNUMX * XNUMX USD).

A GitHubot és a Copilotot korábban kritizáló Software Freedom Conservancy (SFC) jogvédő szervezet azzal a javaslattal kommentálta a keresetet, hogy a közösség érdekeinek védelmében ne térjen el egyik korábban kifejtett alapelvétől – „közösségorientált jogérvényesítést kell alkalmazni. ne részesítse előnyben az anyagi haszonszerzést." Az SFC szerint a Copilot lépései elsősorban azért elfogadhatatlanok, mert aláássák a copyleft mechanizmust, amelynek célja, hogy egyenlő jogokat biztosítson a felhasználóknak, a fejlesztőknek és a fogyasztóknak. A Copilot által lefedett projektek közül sokat copyleft licencek alatt terjesztik, mint például a GPL, amely megköveteli, hogy a származékos művek kódját kompatibilis licenc alatt terjesztjék. A Copilot javaslata szerint meglévő kód beillesztésével a fejlesztők akaratlanul is megsérthetik annak a projektnek a licencét, amelyből a kódot kölcsönözték.

Emlékezzünk vissza, hogy a nyáron a GitHub elindított egy új kereskedelmi szolgáltatást, a GitHub Copilotot, amely a nyilvános GitHub-tárolókban közzétett forrásszövegek tömbjére oktatott, és képes szabványos terveket generálni kódíráskor. A szolgáltatás meglehetősen összetett és nagy kódblokkokat tud generálni, egészen a kész funkciókig, amelyek megismételhetik a meglévő projektek szövegrészeit. A GitHub szerint a rendszer megpróbálja újra létrehozni a kód szerkezetét, nem pedig magát a kódot másolni, azonban az esetek hozzávetőleg 1%-ában a javasolt ajánlás tartalmazhat meglévő projektek 150 karakternél hosszabb kódrészleteit. A meglévő kód helyettesítésének megakadályozása érdekében a Copilot beépített szűrővel rendelkezik, amely ellenőrzi a kereszteződéseket a GitHubon tárolt projektekkel, de ezt a szűrőt a felhasználó belátása szerint aktiválja.

Két nappal a kereset benyújtása előtt a GitHub bejelentette, hogy 2023-ban olyan funkciót kíván bevezetni, amely lehetővé teszi a Copilotban generált töredékek és a tárolókban meglévő kód közötti kapcsolat nyomon követését. A fejlesztők megtekinthetik a nyilvános tárolókban már megtalálható hasonló kódok listáját, valamint sorba rendezhetik a kereszteződéseket kódlicenc és a módosítás időpontja szerint.

Forrás: opennet.ru

Hozzászólás