GitHub Copilot -koodigeneraattoriin liittyvät oikeudenkäynnit Microsoftia ja OpenAI:ta vastaan

Avoimen lähdekoodin typografian kehittäjä Matthew Butterick ja Joseph Saveri Law Firm ovat nostaneet kanteen (PDF) GitHubin Copilot-palvelussa käytetyn teknologian tekijöitä vastaan. Vastaajia ovat Microsoft, GitHub ja yritykset, jotka valvovat OpenAI-projektia, joka tuotti OpenAI Codex -koodin luontimallin, joka on GitHub Copilotin taustalla. Oikeudenkäynnissä pyritään saamaan tuomioistuin mukaan GitHub Copilotin kaltaisten palvelujen luomisen laillisuuden määrittämiseen ja sen selvittämiseen, loukkaavatko tällaiset palvelut muiden kehittäjien oikeuksia.

Syytettyjen toimintaa on verrattu uudentyyppisen ohjelmistopiratismin luomiseen, joka perustuu olemassa olevan koodin manipulointiin koneoppimistekniikoita käyttämällä ja mahdollistaen heidän hyötymisen muiden ihmisten työstä. Copilotin luominen nähdään myös uuden mekanismin käyttöönottona avoimen lähdekoodin ohjelmistokehittäjien työn ansaitsemiseksi, vaikka GitHub oli aiemmin luvannut olla tekemättä niin.

Kantajien kanta tiivistyy siihen, että julkisesti saatavilla oleviin lähdeteksteihin koulutetun koneoppimisjärjestelmän koodin generoinnin tulosta ei voida tulkita pohjimmiltaan uudeksi ja itsenäiseksi työksi, koska se on seurausta jo olemassa olevaa koodia käsittelevistä algoritmeista. Kantajien mukaan Copilot toistaa vain koodia, jolla on suorat viittaukset olemassa olevaan koodiin julkisissa arkistoissa, eivätkä tällaiset manipulaatiot kuulu reilun käytön kriteerien piiriin. Toisin sanoen kantajat pitävät koodisynteesiä GitHub Copilotissa johdannaisteoksen luomisena olemassa olevasta koodista, jota jaetaan tietyillä lisensseillä ja jolla on tietyt tekijät.

Erityisesti Copilot-järjestelmän koulutuksessa käytetään avoimilla lisensseillä levitettävää koodia, joka useimmissa tapauksissa edellyttää tekijän ilmoittamista (attribuutio). Tämä vaatimus ei täyty luotaessa tuloksena olevaa koodia, mikä rikkoo selvästi useimpia avoimen lähdekoodin lisenssejä, kuten GPL, MIT ja Apache. Lisäksi Copilot rikkoo GitHubin omia käyttöehtoja ja yksityisyyttä, ei noudata DMCA:ta, joka kieltää tekijänoikeustietojen poistamisen, eikä CCPA:ta (California Consumer Privacy Act), joka säätelee henkilötietojen käsittelyä.

Kanteen tekstissä on likimääräinen laskelma Copilotin toiminnan seurauksena yhteisölle aiheutuneista vahingoista. Digital Millennium Copyright Act (DMCA) -lain pykälän 1202 mukaan vähimmäisvahingonkorvaus on 2500 1.2 dollaria loukkausta kohden. Ottaen huomioon, että Copilot-palvelulla on 9 miljoonaa käyttäjää ja joka kerta kun palvelua käytetään, tapahtuu kolme DMCA-rikkomusta (nimi, tekijänoikeus ja lisenssiehdot), kokonaisvahingon vähimmäismääräksi on arvioitu 1200000 miljardia dollaria (3 2500 XNUMX * XNUMX * XNUMX XNUMX dollaria).

Aiemmin GitHubia ja Copilotia kritisoinut ihmisoikeusjärjestö Software Freedom Conservancy (SFC) kommentoi oikeusjuttua suosituksella, että yhteisön etuja suojeltaessa ei poikita yhdestä aiemmin todetusta periaatteestaan ​​- "yhteisölähtöisen täytäntöönpanon pitäisi älä aseta etusijalle taloudellista hyötyä." SFC:n mukaan Copilotin toimia ei voida hyväksyä ensisijaisesti siksi, että ne heikentävät copyleft-mekanismia, jonka tavoitteena on tarjota yhtäläiset oikeudet käyttäjille, kehittäjille ja kuluttajille. Monet Copilotin kattamat hankkeet jaetaan copyleft-lisensseillä, kuten GPL, jotka edellyttävät johdannaisteosten koodin levittämistä yhteensopivalla lisenssillä. Lisäämällä olemassa olevan koodin Copilotin ehdotuksen mukaisesti kehittäjät voivat tahattomasti rikkoa sen projektin lisenssiä, josta koodi lainattiin.

Muistetaan, että GitHub lanseerasi kesällä uuden kaupallisen palvelun, GitHub Copilotin, joka on koulutettu julkisiin GitHub-arkistoihin lähetettyihin lähdeteksteihin ja joka pystyy luomaan standardimalleja koodia kirjoitettaessa. Palvelu voi tuottaa varsin monimutkaisia ​​ja suuria koodilohkoja aina valmiisiin toimintoihin, jotka voivat toistaa tekstipätkiä olemassa olevista projekteista. GitHubin mukaan järjestelmä yrittää luoda koodin rakenteen uudelleen eikä kopioida itse koodia, mutta noin 1 %:ssa tapauksista ehdotettu suositus voi sisältää yli 150 merkin pituisia koodinpätkiä olemassa olevista projekteista. Estääkseen olemassa olevan koodin korvaamisen Copilotissa on sisäänrakennettu suodatin, joka tarkistaa risteykset GitHubissa isännöityjen projektien kanssa, mutta tämä suodatin aktivoidaan käyttäjän harkinnan mukaan.

Kaksi päivää ennen kanteen nostamista GitHub ilmoitti aikovansa ottaa käyttöön vuonna 2023 ominaisuuden, joka mahdollistaisi Copilotissa luotujen fragmenttien ja arkistoissa olevan koodin välisen suhteen seuraamisen. Kehittäjät voivat tarkastella luetteloa vastaavista koodeista, jotka ovat jo julkisissa arkistoissa, sekä lajitella risteyksiä koodilisenssin ja muokkausajan mukaan.

Lähde: opennet.ru

Lisää kommentti