Prosiding undang-undang terhadap Microsoft dan OpenAI berkaitan dengan penjana kod Copilot GitHub

Pembangun tipografi sumber terbuka Matthew Butterick dan Firma Undang-undang Joseph Saveri telah memfailkan saman (PDF) terhadap pembuat teknologi yang digunakan dalam perkhidmatan Copilot GitHub. Defendan termasuk Microsoft, GitHub dan syarikat yang menyelia projek OpenAI, yang menghasilkan model penjanaan kod OpenAI Codex yang mendasari GitHub Copilot. Prosiding cuba melibatkan mahkamah dalam menentukan kesahihan mewujudkan perkhidmatan seperti GitHub Copilot dan menentukan sama ada perkhidmatan tersebut melanggar hak pembangun lain.

Aktiviti defendan telah dibandingkan dengan penciptaan jenis cetak rompak perisian baharu, berdasarkan manipulasi kod sedia ada menggunakan teknik pembelajaran mesin dan membenarkan mereka mendapat manfaat daripada kerja orang lain. Penciptaan Copilot juga dilihat sebagai pengenalan mekanisme baharu untuk mengewangkan kerja pembangun perisian sumber terbuka, walaupun pada hakikatnya GitHub sebelum ini berjanji tidak akan melakukan ini.

Kedudukan plaintif berpunca daripada fakta bahawa hasil penjanaan kod oleh sistem pembelajaran mesin yang dilatih pada teks sumber yang tersedia secara umum tidak boleh ditafsirkan sebagai kerja yang pada asasnya baharu dan bebas, kerana ia adalah akibat daripada pemprosesan algoritma kod sedia ada. Menurut plaintif, Copilot hanya mengeluarkan semula kod yang mempunyai rujukan langsung kepada kod sedia ada dalam repositori awam, dan manipulasi sedemikian tidak termasuk di bawah kriteria penggunaan adil. Dalam erti kata lain, sintesis kod dalam GitHub Copilot dianggap oleh plaintif sebagai penciptaan karya terbitan daripada kod sedia ada, diedarkan di bawah lesen tertentu dan mempunyai pengarang tertentu.

Khususnya, apabila melatih sistem Copilot, kod digunakan yang diedarkan di bawah lesen terbuka, dalam kebanyakan kes memerlukan notis pengarang (atribusi). Keperluan ini tidak dipenuhi apabila menjana kod yang terhasil, yang merupakan pelanggaran yang jelas terhadap kebanyakan lesen sumber terbuka seperti GPL, MIT dan Apache. Selain itu, Copilot melanggar syarat perkhidmatan dan privasi GitHub sendiri, tidak mematuhi DMCA, yang melarang penyingkiran maklumat hak cipta, dan CCPA (California Consumer Privacy Act), yang mengawal selia pengendalian data peribadi.

Teks tuntutan mahkamah menyediakan pengiraan anggaran kerosakan yang berlaku kepada masyarakat akibat aktiviti Copilot. Menurut Seksyen 1202 Akta Hak Cipta Milenium Digital (DMCA), ganti rugi minimum ialah $2500 bagi setiap pelanggaran. Mengambil kira hakikat bahawa perkhidmatan Copilot mempunyai 1.2 juta pengguna dan setiap kali perkhidmatan itu digunakan, tiga pelanggaran DMCA berlaku (atribusi, hak cipta dan syarat lesen), jumlah minimum kerosakan dianggarkan pada 9 bilion dolar (1200000 * 3 * $2500).

Organisasi hak asasi manusia Software Freedom Conservancy (SFC), yang sebelum ini mengkritik GitHub dan Copilot, mengulas mengenai tuntutan mahkamah dengan saranan untuk tidak menyimpang daripada salah satu prinsip yang dinyatakan sebelum ini apabila melindungi kepentingan masyarakat - “penguatkuasaan berorientasikan komuniti harus tidak mengutamakan keuntungan kewangan.” Menurut SFC, tindakan Copilot tidak boleh diterima terutamanya kerana ia menjejaskan mekanisme copyleft, bertujuan untuk memberikan hak yang sama kepada pengguna, pembangun dan pengguna. Kebanyakan projek yang diliputi dalam Copilot diedarkan di bawah lesen copyleft, seperti GPL, yang memerlukan kod karya terbitan untuk diedarkan di bawah lesen yang serasi. Dengan memasukkan kod sedia ada seperti yang dicadangkan oleh Copilot, pembangun mungkin tanpa disedari melanggar lesen projek dari mana kod itu dipinjam.

Mari kita ingat bahawa pada musim panas GitHub melancarkan perkhidmatan komersil baharu, GitHub Copilot, dilatih pada pelbagai teks sumber yang disiarkan dalam repositori GitHub awam, dan mampu menjana reka bentuk standard semasa menulis kod. Perkhidmatan ini boleh menjana blok kod yang agak kompleks dan besar, sehingga fungsi siap sedia yang boleh mengulang petikan teks daripada projek sedia ada. Menurut GitHub, sistem cuba mencipta semula struktur kod dan bukannya menyalin kod itu sendiri, namun, dalam kira-kira 1% kes, cadangan yang dicadangkan mungkin termasuk coretan kod projek sedia ada yang panjangnya lebih daripada 150 aksara. Untuk mengelakkan penggantian kod sedia ada, Copilot mempunyai penapis terbina dalam yang menyemak persimpangan dengan projek yang dihoskan pada GitHub, tetapi penapis ini diaktifkan mengikut budi bicara pengguna.

Dua hari sebelum tuntutan mahkamah difailkan, GitHub mengumumkan hasratnya untuk melaksanakan ciri pada 2023 yang akan membolehkan penjejakan hubungan antara serpihan yang dijana dalam Copilot dan kod sedia ada dalam repositori. Pembangun akan dapat melihat senarai kod serupa yang sudah ada dalam repositori awam, serta mengisih persimpangan mengikut lesen kod dan masa pengubahsuaian.

Sumber: opennet.ru

Tambah komen