Soudní spory proti Microsoftu a OpenAI související s generátorem kódu GitHub Copilot

Matthew Butterick, open-source typografický vývojář, a Joseph Saveri Law Firm podali žalobu (PDF) proti dodavatelům technologií používaných ve službě GitHub Copilot. Mezi respondenty patří Microsoft, GitHub a společnosti stojící za projektem OpenAI, který vytvořil model generování kódu OpenAI Codex, který je základem GitHub Copilot. Během řízení byl učiněn pokus zapojit soud do určování zákonnosti vytváření služeb, jako je GitHub Copilot, a zjišťovat, zda takové služby neporušují práva jiných vývojářů.

Činnost obžalovaných je přirovnávána k vytváření nového druhu softwarového pirátství založeného na manipulaci se stávajícím kódem pomocí metod strojového učení a umožňujícím profitovat z práce jiných lidí. Vytvoření Copilota je také vnímáno jako zavedení nového mechanismu pro monetizaci práce open source vývojářů, a to navzdory skutečnosti, že GitHub dříve slíbil, že to nikdy neudělá.

Postoj žalobců je takový, že výsledek generování kódu systémem strojového učení trénovaného na veřejně dostupných zdrojových textech nelze interpretovat jako zásadně nové a nezávislé dílo, neboť je důsledkem zpracování existujícího kódu pomocí algoritmů. Podle žalobců Copilot pouze reprodukuje kód, který má přímé odkazy na existující kód v otevřených repozitářích, a takové manipulace nespadají pod kritéria fair use. Jinými slovy, syntéza kódu v GitHub Copilot je žalobci považována za vytvoření odvozeného díla z existujícího kódu distribuovaného pod určitými licencemi a majícího konkrétní autory.

Zejména při výcviku systému Copilot se používá kód, který je distribuován pod otevřenými licencemi, ve většině případů vyžadujících upozornění na autorství (uvedení zdroje). Při generování výsledného kódu není tento požadavek splněn, což je jasným porušením většiny open source licencí, jako jsou GPL, MIT a Apache. Copilot navíc porušuje vlastní podmínky služby a soukromí GitHubu, nedodržuje zákon DMCA, který zakazuje odstraňovat informace o autorských právech, a zákon CCPA (California Consumer Privacy Act), který upravuje zacházení s osobními údaji.

V textu žaloby je uveden přibližný výpočet škody způsobené komunitě v důsledku činnosti společnosti Copilot. Podle oddílu 1202 zákona DMCA (Digital Millennium Copyright Act) jsou minimální škody 2500 1.2 USD za porušení. Vzhledem k tomu, že služba Copilot má 9 milionu uživatelů a při každém použití služby dochází ke třem porušením zákona DMCA (uvedení autora, autorská práva a licenční podmínky), minimální celková škoda se odhaduje na 1200000 miliard dolarů (3 2500 * XNUMX * XNUMX XNUMX USD).

Organizace Software Freedom Conservancy (SFC), která již dříve kritizovala GitHub a Copilot, se k žalobě vyjádřila doporučením, aby se komunitní advokacie neodchylovala od jednoho z dříve formulovaných principů – „komunitně orientované vymáhání by nemělo upřednostňovat finanční zisk“. Podle SFC jsou kroky Copilota nepřijatelné především proto, že podkopávají mechanismus „copyleft“ zaměřený na poskytování rovných práv uživatelům, vývojářům a spotřebitelům. Mnoho projektů pokrytých Copilotem je dodáváno pod licencí copyleft, jako je GPL, která vyžaduje, aby byl kód odvozených děl dodáván pod kompatibilní licencí. Vložení existujícího kódu poskytnutého Copilotem může nevědomky porušit licenci projektu, ze kterého byl kód vypůjčen.

Připomeňme, že v létě GitHub spustil novou komerční službu GitHub Copilot, trénovanou na řadě zdrojových kódů hostovaných ve veřejných repozitářích GitHub a schopných generovat typické konstrukce při psaní kódu. Služba může tvořit poměrně složité a velké bloky kódu až po hotové funkce, které dokážou opakovat textové fragmenty z existujících projektů. Podle GitHubu se systém spíše než zkopírování samotného kódu snaží znovu vytvořit strukturu kódu, nicméně asi v 1 % případů může navrhované doporučení obsahovat úryvky kódu stávajících projektů větší než 150 znaků. Aby se zabránilo nahrazení stávajícího kódu, má Copilot speciální filtr, který kontroluje průniky s projekty hostovanými na GitHubu, ale tento filtr je aktivován podle uvážení uživatele.

Dva dny před podáním žaloby GitHub oznámil svůj záměr implementovat v roce 2023 funkci, která vám umožní sledovat vztah úryvků generovaných v Copilotu s existujícím kódem v úložištích. Vývojáři budou moci zobrazit seznam podobného kódu, který se již nachází ve veřejných úložištích, a také seřadit průniky podle licencí kódu a podle toho, kdy byla změna provedena.

Zdroj: opennet.ru

Přidat komentář