Procedimenti legali contro Microsoft e OpenAI relativi al generatore di codice GitHub Copilot

Lo sviluppatore di tipografia open source Matthew Butterick e lo studio legale Joseph Saveri hanno intentato una causa (PDF) contro i creatori della tecnologia utilizzata nel servizio Copilot di GitHub. Gli imputati includono Microsoft, GitHub e le società che supervisionano il progetto OpenAI, che ha prodotto il modello di generazione del codice OpenAI Codex che è alla base di GitHub Copilot. Il procedimento tenta di coinvolgere il tribunale nel determinare la legalità della creazione di servizi come GitHub Copilot e nel determinare se tali servizi violano i diritti di altri sviluppatori.

Le attività degli imputati sono state paragonate alla creazione di un nuovo tipo di pirateria informatica, basata sulla manipolazione del codice esistente utilizzando tecniche di apprendimento automatico e consentendo loro di trarre vantaggio dal lavoro di altre persone. La creazione di Copilot è vista anche come l'introduzione di un nuovo meccanismo per monetizzare il lavoro degli sviluppatori di software open source, nonostante GitHub avesse precedentemente promesso di non farlo mai.

La posizione dei ricorrenti si riduce al fatto che il risultato della generazione del codice da parte di un sistema di apprendimento automatico addestrato su testi sorgente disponibili al pubblico non può essere interpretato come un lavoro fondamentalmente nuovo e indipendente, poiché è una conseguenza dell’elaborazione di codici già esistenti da parte di algoritmi. Secondo i querelanti, Copilot riproduce solo codice che ha riferimenti diretti al codice esistente negli archivi pubblici e tali manipolazioni non rientrano nei criteri del fair use. In altre parole, la sintesi del codice in GitHub Copilot è considerata dai ricorrenti come la creazione di un'opera derivata da codice esistente, distribuita con determinate licenze e avente autori specifici.

In particolare, durante l'addestramento del sistema Copilot, viene utilizzato codice distribuito con licenze aperte, nella maggior parte dei casi richiedendo l'avviso di paternità (attribuzione). Questo requisito non viene soddisfatto durante la generazione del codice risultante, il che costituisce una chiara violazione della maggior parte delle licenze open source come GPL, MIT e Apache. Inoltre, Copilot viola i termini di servizio e di privacy di GitHub, non rispetta il DMCA, che vieta la rimozione delle informazioni sul copyright, e il CCPA (California Consumer Privacy Act), che regola il trattamento dei dati personali.

Il testo della causa fornisce un calcolo approssimativo del danno causato alla comunità a seguito delle attività di Copilot. Ai sensi della Sezione 1202 del Digital Millennium Copyright Act (DMCA), il danno minimo è di $ 2500 per violazione. Tenendo conto del fatto che il servizio Copilot ha 1.2 milioni di utenti e ogni volta che il servizio viene utilizzato si verificano tre violazioni DMCA (attribuzione, copyright e termini di licenza), l'importo minimo del danno totale è stimato in 9 miliardi di dollari (1200000 * 3 * $ 2500).

L’organizzazione per i diritti umani Software Freedom Conservancy (SFC), che in precedenza aveva criticato GitHub e Copilot, ha commentato la causa raccomandando di non deviare da uno dei principi precedentemente stabiliti nella protezione degli interessi della comunità: “l’applicazione orientata alla comunità dovrebbe non dare priorità al guadagno finanziario”. Secondo la SFC, le azioni di Copilot sono inaccettabili soprattutto perché minano il meccanismo del copyleft, volto a garantire pari diritti a utenti, sviluppatori e consumatori. Molti dei progetti trattati in Copilot sono distribuiti con licenze copyleft, come la GPL, che richiede che il codice delle opere derivate sia distribuito con una licenza compatibile. Inserendo il codice esistente come suggerito da Copilot, gli sviluppatori potrebbero involontariamente violare la licenza del progetto da cui è stato preso in prestito il codice.

Ricordiamo che in estate GitHub ha lanciato un nuovo servizio commerciale, GitHub Copilot, addestrato su una serie di testi sorgente pubblicati nei repository GitHub pubblici e in grado di generare progetti standard durante la scrittura del codice. Il servizio può generare blocchi di codice piuttosto complessi e di grandi dimensioni, fino a funzioni già pronte che possono ripetere passaggi di testo da progetti esistenti. Secondo GitHub, il sistema tenta di ricreare la struttura del codice anziché copiare il codice stesso, tuttavia, in circa l'1% dei casi, la raccomandazione proposta può includere frammenti di codice di progetti esistenti lunghi più di 150 caratteri. Per impedire la sostituzione del codice esistente, Copilot ha un filtro integrato che controlla le intersezioni con i progetti ospitati su GitHub, ma questo filtro viene attivato a discrezione dell'utente.

Due giorni prima dell'avvio della causa, GitHub ha annunciato l'intenzione di implementare nel 2023 una funzionalità che consentirebbe di tracciare la relazione tra i frammenti generati in Copilot e il codice esistente nei repository. Gli sviluppatori potranno visualizzare un elenco di codici simili già presenti nei repository pubblici, nonché ordinare le intersezioni per licenza del codice e ora di modifica.

Fonte: opennet.ru

Aggiungi un commento