Pravni postopki proti Microsoftu in OpenAI v zvezi z generatorjem kode GitHub Copilot

Razvijalec odprtokodne tipografije Matthew Butterick in odvetniška pisarna Joseph Saveri sta vložila tožbo (PDF) proti izdelovalcem tehnologije, uporabljene v storitvi Copilot GitHub. Med obtoženimi so Microsoft, GitHub in podjetja, ki nadzirajo projekt OpenAI, ki je izdelal model za generiranje kode OpenAI Codex, ki je osnova GitHub Copilot. Postopek poskuša vključiti sodišče v ugotavljanje zakonitosti ustvarjanja storitev, kot je GitHub Copilot, in ugotavljanje, ali takšne storitve kršijo pravice drugih razvijalcev.

Dejavnosti toženih so primerjali z ustvarjanjem nove vrste piratstva programske opreme, ki temelji na manipulaciji obstoječe kode z uporabo tehnik strojnega učenja in jim omogoča, da se okoristijo z delom drugih ljudi. Ustvarjanje Copilota se razume tudi kot uvedba novega mehanizma za monetizacijo dela razvijalcev odprtokodne programske opreme, kljub dejstvu, da je GitHub prej obljubil, da tega nikoli ne bo storil.

Stališče tožnikov se skrči na dejstvo, da rezultata generiranja kode s sistemom strojnega učenja, ki je naučen na javno dostopnih izvornih besedilih, ni mogoče razlagati kot bistveno novo in neodvisno delo, saj je posledica algoritmov, ki obdelujejo že obstoječo kodo. Po mnenju tožnikov Copilot reproducira samo kodo, ki ima neposredne reference na obstoječo kodo v javnih repozitorijih, takšne manipulacije pa ne sodijo pod merila poštene uporabe. Z drugimi besedami, sintezo kode v GitHub Copilot tožniki obravnavajo kot ustvarjanje izpeljanega dela iz obstoječe kode, ki se distribuira pod določenimi licencami in ima določene avtorje.

Zlasti pri usposabljanju sistema Copilot se uporablja koda, ki se distribuira pod odprtimi licencami, ki v večini primerov zahtevajo obvestilo o avtorstvu (pripis). Ta zahteva ni izpolnjena pri generiranju nastale kode, kar je očitna kršitev večine odprtokodnih licenc, kot so GPL, MIT in Apache. Poleg tega Copilot krši GitHubove lastne pogoje storitve in zasebnosti, ni v skladu z DMCA, ki prepoveduje odstranjevanje informacij o avtorskih pravicah, in CCPA (California Consumer Privacy Act), ki ureja ravnanje z osebnimi podatki.

Besedilo tožbe podaja približen izračun škode, povzročene skupnosti zaradi delovanja Copilota. V skladu z razdelkom 1202 Zakona o avtorskih pravicah v digitalnem tisočletju (DMCA) je minimalna odškodnina 2500 USD na kršitev. Ob upoštevanju dejstva, da ima storitev Copilot 1.2 milijona uporabnikov in da se ob vsaki uporabi storitve zgodijo tri kršitve DMCA (pripis avtorstva, avtorske pravice in licenčni pogoji), je minimalni znesek skupne škode ocenjen na 9 milijard dolarjev (1200000 * 3 * 2500 $).

Organizacija za človekove pravice Software Freedom Conservancy (SFC), ki je v preteklosti že kritizirala GitHub in Copilot, je tožbo komentirala s priporočilom, naj pri varovanju interesov skupnosti ne odstopa od enega svojih prej navedenih načel – »v skupnost usmerjeno uveljavljanje bi moralo ne daje prednost finančnim dobičkom.« Po mnenju SFC so dejanja Copilota nesprejemljiva predvsem zato, ker spodkopavajo mehanizem copyleft, katerega cilj je zagotoviti enake pravice uporabnikom, razvijalcem in potrošnikom. Številni projekti, zajeti v Copilot, se distribuirajo pod licencami copyleft, kot je GPL, ki zahtevajo, da se koda izpeljanih del distribuira pod združljivo licenco. Z vstavljanjem obstoječe kode, kot predlaga Copilot, lahko razvijalci nehote kršijo licenco projekta, iz katerega je bila koda izposojena.

Naj spomnimo, da je GitHub poleti lansiral novo komercialno storitev GitHub Copilot, ki je usposobljena za niz izvornih besedil, objavljenih v javnih repozitorijih GitHub, in je sposobna generirati standardne modele pri pisanju kode. Storitev lahko ustvari precej zapletene in velike bloke kode, do že pripravljenih funkcij, ki lahko ponovijo odlomke besedila iz obstoječih projektov. Glede na GitHub poskuša sistem znova ustvariti strukturo kode, namesto da bi kopiral samo kodo, vendar lahko v približno 1% primerov predlagano priporočilo vključuje delčke kode obstoječih projektov, ki so daljši od 150 znakov. Da prepreči zamenjavo obstoječe kode, ima Copilot vgrajen filter, ki preverja presečišča s projekti, ki gostujejo na GitHubu, vendar se ta filter aktivira po lastni presoji uporabnika.

Dva dni pred vložitvijo tožbe je GitHub objavil svojo namero, da bo leta 2023 implementiral funkcijo, ki bi omogočila sledenje razmerju med fragmenti, ustvarjenimi v Copilotu, in obstoječo kodo v repozitorijih. Razvijalci si bodo lahko ogledali seznam podobne kode, ki je že prisotna v javnih repozitorijih, pa tudi razvrstili presečišča po licenci kode in času spremembe.

Vir: opennet.ru

Dodaj komentar