Právne konanie proti spoločnosti Microsoft a OpenAI súvisiace s generátorom kódu GitHub Copilot

Vývojár open source typografie Matthew Butterick a Joseph Saveri Law Firm podali žalobu (PDF) proti tvorcom technológie používanej v službe Copilot GitHub. Medzi obžalovaných patria Microsoft, GitHub a spoločnosti, ktoré dohliadajú na projekt OpenAI, ktorý vytvoril model generovania kódu OpenAI Codex, ktorý je základom GitHub Copilot. Konanie sa pokúša zapojiť súd do určovania zákonnosti vytvárania služieb, ako je GitHub Copilot, a určovania, či takéto služby porušujú práva iných vývojárov.

Aktivity obžalovaných boli prirovnané k vytvoreniu nového typu softvérového pirátstva, založeného na manipulácii s existujúcim kódom pomocou techník strojového učenia, ktoré im umožňuje ťažiť z práce iných ľudí. Vytvorenie Copilota sa tiež považuje za zavedenie nového mechanizmu na monetizáciu práce vývojárov softvéru s otvoreným zdrojovým kódom, a to napriek skutočnosti, že GitHub predtým sľúbil, že to nikdy neurobí.

Postoj žalobcov sa scvrkáva na skutočnosť, že výsledok generovania kódu systémom strojového učenia trénovaného na verejne dostupných zdrojových textoch nemožno interpretovať ako zásadne nové a nezávislé dielo, pretože je dôsledkom algoritmov spracovávajúcich už existujúci kód. Podľa žalobcov Copilot reprodukuje iba kód, ktorý má priame odkazy na existujúci kód vo verejných archívoch, a takéto manipulácie nespadajú pod kritériá fair use. Inými slovami, syntéza kódu v GitHub Copilot je navrhovateľmi považovaná za vytvorenie odvodeného diela z existujúceho kódu, ktoré je distribuované pod určitými licenciami a má konkrétnych autorov.

Najmä pri výcviku systému Copilot sa používa kód, ktorý je distribuovaný na základe otvorených licencií, ktoré si vo väčšine prípadov vyžadujú oznámenie o autorstve (uvedenie zdroja). Táto požiadavka nie je splnená pri generovaní výsledného kódu, čo je jasným porušením väčšiny open source licencií ako GPL, MIT a Apache. Okrem toho Copilot porušuje vlastné zmluvné podmienky a súkromie GitHub, nedodržiava zákon DMCA, ktorý zakazuje odstraňovanie informácií o autorských právach, a zákon CCPA (California Consumer Privacy Act), ktorý upravuje zaobchádzanie s osobnými údajmi.

V texte žaloby je uvedený približný výpočet škody spôsobenej komunite v dôsledku činnosti Copilota. V súlade s oddielom 1202 zákona DMCA (Digital Millennium Copyright Act) je minimálna škoda 2500 1.2 USD za porušenie. Ak vezmeme do úvahy skutočnosť, že služba Copilot má 9 milióna používateľov a pri každom použití služby dôjde k trom porušeniam zákona DMCA (uvedenie zdroja, autorské práva a licenčné podmienky), minimálna výška celkových škôd sa odhaduje na 1200000 miliárd dolárov (3 2500 XNUMX * XNUMX * XNUMX XNUMX dolárov).

Organizácia pre ľudské práva Software Freedom Conservancy (SFC), ktorá už predtým kritizovala GitHub a Copilot, sa k žalobe vyjadrila odporúčaním, aby sa pri ochrane záujmov komunity neodchýlil od jedného zo svojich skôr uvedených princípov – „komunitne orientované presadzovanie by malo neuprednostňujte finančný zisk." Podľa SFC sú kroky Copilota neprijateľné predovšetkým preto, že podkopávajú mechanizmus copyleftu, ktorého cieľom je poskytnúť rovnaké práva používateľom, vývojárom a spotrebiteľom. Mnohé z projektov, na ktoré sa vzťahuje Copilot, sú distribuované na základe licencií typu copyleft, ako je napríklad GPL, ktorá vyžaduje, aby bol kód odvodených diel distribuovaný pod kompatibilnou licenciou. Vložením existujúceho kódu, ako navrhuje Copilot, môžu vývojári nevedomky porušiť licenciu projektu, z ktorého bol kód vypožičaný.

Pripomeňme, že v lete GitHub spustil novú komerčnú službu GitHub Copilot, vyškolenú na množstvo zdrojových textov uverejnených vo verejných úložiskách GitHub a schopnú generovať štandardné návrhy pri písaní kódu. Služba dokáže generovať pomerne zložité a veľké bloky kódu, až po hotové funkcie, ktoré dokážu opakovať textové pasáže z existujúcich projektov. Podľa GitHubu sa systém snaží obnoviť štruktúru kódu a nie skopírovať samotný kód, avšak približne v 1 % prípadov môže navrhované odporúčanie obsahovať úryvky kódu existujúcich projektov, ktoré sú dlhšie ako 150 znakov. Aby sa zabránilo nahradeniu existujúceho kódu, Copilot má vstavaný filter, ktorý kontroluje križovatky s projektmi hostenými na GitHub, ale tento filter sa aktivuje podľa uváženia používateľa.

Dva dni pred podaním žaloby GitHub oznámil svoj zámer implementovať v roku 2023 funkciu, ktorá by umožnila sledovanie vzťahu medzi fragmentmi generovanými v Copilot a existujúcim kódom v úložiskách. Vývojári budú môcť zobraziť zoznam podobného kódu, ktorý sa už nachádza vo verejných úložiskách, ako aj triediť križovatky podľa licencie kódu a času úpravy.

Zdroj: opennet.ru

Pridať komentár