Proceduri legale împotriva Microsoft și OpenAI legate de generatorul de coduri GitHub Copilot

Dezvoltatorul de tipografie open source Matthew Butterick și firma de avocatură Joseph Saveri au intentat un proces (PDF) împotriva producătorilor tehnologiei utilizate în serviciul Copilot al GitHub. Inculpații includ Microsoft, GitHub și companiile care supraveghează proiectul OpenAI, care a produs modelul de generare a codului OpenAI Codex care stă la baza GitHub Copilot. Procedurile încearcă să implice instanța în stabilirea legalității creării de servicii precum GitHub Copilot și în stabilirea dacă astfel de servicii încalcă drepturile altor dezvoltatori.

Activitățile inculpaților au fost comparate cu crearea unui nou tip de piraterie software, bazată pe manipularea codului existent folosind tehnici de învățare automată și care să le permită să beneficieze de munca altor persoane. Crearea Copilot este văzută și ca introducerea unui nou mecanism de monetizare a muncii dezvoltatorilor de software open source, în ciuda faptului că GitHub a promis anterior că nu va face niciodată acest lucru.

Poziția reclamanților se rezumă la faptul că rezultatul generării codului de către un sistem de învățare automată antrenat pe texte sursă disponibile publicului nu poate fi interpretat ca o lucrare fundamental nouă și independentă, deoarece este o consecință a algoritmilor care prelucrează codul deja existent. Potrivit reclamanților, Copilot reproduce doar cod care are trimiteri directe la codul existent în depozitele publice, iar astfel de manipulări nu se încadrează în criteriile de utilizare loială. Cu alte cuvinte, sinteza codului în GitHub Copilot este considerată de către reclamanți ca fiind crearea unei lucrări derivate din codul existent, distribuit sub anumite licențe și având autori anumiți.

În special, la antrenamentul sistemului Copilot, se folosește cod care este distribuit sub licențe deschise, în majoritatea cazurilor necesitând notificarea autorului (atribuire). Această cerință nu este îndeplinită la generarea codului rezultat, ceea ce reprezintă o încălcare clară a majorității licențelor open source, cum ar fi GPL, MIT și Apache. În plus, Copilot încalcă termenii și condițiile de confidențialitate GitHub proprii, nu respectă DMCA, care interzice eliminarea informațiilor privind drepturile de autor, și CCPA (California Consumer Privacy Act), care reglementează manipularea datelor cu caracter personal.

Textul procesului prevede un calcul aproximativ al prejudiciului cauzat comunității ca urmare a activităților Copilot. În conformitate cu Secțiunea 1202 din Digital Millennium Copyright Act (DMCA), daunele minime sunt de 2500 USD per încălcare. Ținând cont de faptul că serviciul Copilot are 1.2 milioane de utilizatori și de fiecare dată când serviciul este utilizat, apar trei încălcări ale DMCA (condiții de atribuire, drepturi de autor și licență), valoarea minimă a prejudiciului total este estimată la 9 miliarde de dolari (1200000 * 3). * 2500 USD).

Organizația pentru drepturile omului Software Freedom Conservancy (SFC), care a criticat anterior GitHub și Copilot, a comentat procesul cu o recomandare de a nu se abate de la unul dintre principiile ei enunțate anterior atunci când protejează interesele comunității - „execuția orientată spre comunitate ar trebui să nu acordați prioritate câștigului financiar.” Potrivit SFC, acțiunile Copilot sunt inacceptabile în primul rând pentru că subminează mecanismul copyleft, menit să ofere drepturi egale utilizatorilor, dezvoltatorilor și consumatorilor. Multe dintre proiectele acoperite de Copilot sunt distribuite sub licențe copyleft, cum ar fi GPL, care necesită ca codul lucrărilor derivate să fie distribuit sub o licență compatibilă. Prin inserarea codului existent așa cum este sugerat de Copilot, dezvoltatorii pot încălca fără să vrea licența proiectului de la care a fost împrumutat codul.

Să ne amintim că în vară GitHub a lansat un nou serviciu comercial, GitHub Copilot, instruit pe o serie de texte sursă postate în depozitele publice GitHub și capabil să genereze design-uri standard atunci când scrie cod. Serviciul poate genera blocuri de cod destul de complexe și mari, până la funcții gata făcute care pot repeta pasaje de text din proiectele existente. Potrivit GitHub, sistemul încearcă să recreeze structura codului, mai degrabă decât să copieze codul în sine, cu toate acestea, în aproximativ 1% din cazuri, recomandarea propusă poate include fragmente de cod ale proiectelor existente care au mai mult de 150 de caractere lungime. Pentru a preveni înlocuirea codului existent, Copilot are un filtru încorporat care verifică intersecțiile cu proiectele găzduite pe GitHub, dar acest filtru este activat la discreția utilizatorului.

Cu două zile înainte de depunerea procesului, GitHub și-a anunțat intenția de a implementa o funcție în 2023 care să permită urmărirea relației dintre fragmentele generate în Copilot și codul existent în depozite. Dezvoltatorii vor putea vedea o listă de coduri similare deja prezente în depozitele publice, precum și să sorteze intersecțiile după licența de cod și momentul modificării.

Sursa: opennet.ru

Adauga un comentariu