Thủ tục pháp lý chống lại Microsoft và OpenAI liên quan đến trình tạo mã GitHub Copilot

Nhà phát triển kiểu chữ mã nguồn mở Matthew Butterick và Công ty luật Joseph Saveri đã đệ đơn kiện (PDF) chống lại các nhà sản xuất công nghệ được sử dụng trong dịch vụ Copilot của GitHub. Các bị cáo bao gồm Microsoft, GitHub và các công ty giám sát dự án OpenAI, công ty đã tạo ra mô hình tạo mã OpenAI Codex làm nền tảng cho GitHub Copilot. Quá trình tố tụng cố gắng yêu cầu tòa án xác định tính hợp pháp của việc tạo ra các dịch vụ như GitHub Copilot và xác định xem các dịch vụ đó có vi phạm quyền của các nhà phát triển khác hay không.

Hoạt động của các bị cáo được so sánh với việc tạo ra một loại vi phạm bản quyền phần mềm mới, dựa trên việc thao túng mã hiện có bằng kỹ thuật học máy và cho phép họ hưởng lợi từ công việc của người khác. Việc tạo ra Copilot cũng được coi là sự ra đời của một cơ chế mới để kiếm tiền từ công việc của các nhà phát triển phần mềm nguồn mở, bất chấp thực tế là GitHub trước đó đã hứa không bao giờ làm điều này.

Quan điểm của nguyên đơn tập trung vào thực tế là kết quả tạo mã bằng hệ thống máy học được đào tạo trên các văn bản nguồn có sẵn công khai không thể được hiểu là một tác phẩm mới và độc lập về cơ bản, vì nó là hệ quả của các thuật toán xử lý mã hiện có. Theo các nguyên đơn, Copilot chỉ sao chép mã có tham chiếu trực tiếp đến mã hiện có trong các kho lưu trữ công cộng và những thao tác như vậy không thuộc tiêu chí sử dụng hợp pháp. Nói cách khác, việc tổng hợp mã trong GitHub Copilot được các nguyên đơn coi là việc tạo ra một tác phẩm phái sinh từ mã hiện có, được phân phối theo một số giấy phép nhất định và có các tác giả cụ thể.

Đặc biệt, khi đào tạo hệ thống Copilot, mã được sử dụng được phân phối theo giấy phép mở, trong hầu hết các trường hợp đều yêu cầu thông báo về quyền tác giả (ghi công). Yêu cầu này không được đáp ứng khi tạo mã kết quả, đây là sự vi phạm rõ ràng đối với hầu hết các giấy phép nguồn mở như GPL, MIT và Apache. Ngoài ra, Copilot vi phạm các điều khoản dịch vụ và quyền riêng tư của GitHub, không tuân thủ DMCA, cấm xóa thông tin bản quyền và CCPA (Đạo luật quyền riêng tư của người tiêu dùng California), quy định việc xử lý dữ liệu cá nhân.

Văn bản của vụ kiện đưa ra ước tính gần đúng về thiệt hại gây ra cho cộng đồng do hoạt động của Copilot. Theo Mục 1202 của Đạo luật bản quyền kỹ thuật số thiên niên kỷ (DMCA), mức thiệt hại tối thiểu là 2500 USD cho mỗi hành vi vi phạm. Tính đến thực tế là dịch vụ Copilot có 1.2 triệu người dùng và mỗi lần sử dụng dịch vụ này sẽ xảy ra 9 lần vi phạm DMCA (điều khoản ghi công, bản quyền và giấy phép), tổng thiệt hại tối thiểu ước tính là 1200000 tỷ đô la (3 * 2500). * XNUMX USD).

Tổ chức nhân quyền Software Freedom Conservancy (SFC), trước đây đã chỉ trích GitHub và Copilot, đã bình luận về vụ kiện với khuyến nghị không đi chệch khỏi một trong những nguyên tắc đã nêu trước đó khi bảo vệ lợi ích của cộng đồng - “việc thực thi theo định hướng cộng đồng nên không ưu tiên lợi ích tài chính.” Theo SFC, hành động của Copilot là không thể chấp nhận được chủ yếu vì chúng làm suy yếu cơ chế copyleft, nhằm mục đích cung cấp quyền bình đẳng cho người dùng, nhà phát triển và người tiêu dùng. Nhiều dự án trong Copilot được phân phối theo giấy phép copyleft, chẳng hạn như GPL, yêu cầu mã của các tác phẩm phái sinh phải được phân phối theo giấy phép tương thích. Bằng cách chèn mã hiện có theo đề xuất của Copilot, các nhà phát triển có thể vô tình vi phạm giấy phép của dự án mà mã được mượn.

Chúng ta hãy nhớ lại rằng vào mùa hè, GitHub đã ra mắt một dịch vụ thương mại mới, GitHub Copilot, được đào tạo về một loạt văn bản nguồn được đăng trong kho GitHub công khai và có khả năng tạo ra các thiết kế tiêu chuẩn khi viết mã. Dịch vụ này có thể tạo ra các khối mã khá phức tạp và lớn, cho đến các hàm được tạo sẵn có thể lặp lại các đoạn văn bản từ các dự án hiện có. Theo GitHub, hệ thống cố gắng tạo lại cấu trúc của mã thay vì sao chép chính mã đó, tuy nhiên, trong khoảng 1% trường hợp, đề xuất được đề xuất có thể bao gồm các đoạn mã của các dự án hiện có dài hơn 150 ký tự. Để ngăn việc thay thế mã hiện có, Copilot có bộ lọc tích hợp để kiểm tra các điểm giao nhau với các dự án được lưu trữ trên GitHub, nhưng bộ lọc này được kích hoạt theo quyết định của người dùng.

Hai ngày trước khi vụ kiện được đệ trình, GitHub đã công bố ý định triển khai một tính năng vào năm 2023 cho phép theo dõi mối quan hệ giữa các đoạn được tạo trong Copilot và mã hiện có trong kho. Các nhà phát triển sẽ có thể xem danh sách mã tương tự đã có trong các kho lưu trữ công cộng, cũng như sắp xếp các điểm giao nhau theo giấy phép mã và thời gian sửa đổi.

Nguồn: opennet.ru

Thêm một lời nhận xét