Postępowanie prawne przeciwko Microsoft i OpenAI związane z generatorem kodu GitHub Copilot

Twórca typografii open source Matthew Butterick i kancelaria prawnicza Joseph Saveri złożyli pozew (PDF) przeciwko twórcom technologii wykorzystywanej w usłudze Copilot oferowanej przez GitHub. Pozwanymi są Microsoft, GitHub i firmy nadzorujące projekt OpenAI, w ramach którego opracowano model generowania kodu OpenAI Codex będący podstawą GitHub Copilot. Postępowanie ma na celu włączenie sądu w ustalenie legalności tworzenia usług typu GitHub Copilot oraz ustalenie, czy usługi te naruszają prawa innych deweloperów.

Działania oskarżonych porównano do stworzenia nowego rodzaju piractwa komputerowego, polegającego na manipulacji istniejącym kodem z wykorzystaniem technik uczenia maszynowego i umożliwieniu korzystania z pracy innych osób. Powstanie Copilota postrzegane jest także jako wprowadzenie nowego mechanizmu monetyzacji pracy twórców oprogramowania open source, mimo że GitHub wcześniej obiecał, że nigdy tego nie zrobi.

Stanowisko powodów sprowadza się do tego, że wyniku wygenerowania kodu przez system uczenia maszynowego wytrenowanego na publicznie dostępnych tekstach źródłowych nie można interpretować jako dzieła zasadniczo nowego i samodzielnego, gdyż jest on konsekwencją przetwarzania już istniejącego kodu przez algorytmy. Zdaniem powodów Copilot odtwarza jedynie kod, który zawiera bezpośrednie odniesienia do istniejącego kodu w publicznych repozytoriach, a tego typu manipulacje nie podlegają kryteriom dozwolonego użytku. Innymi słowy, synteza kodu w GitHub Copilot jest postrzegana przez powodów jako utworzenie dzieła pochodnego na podstawie istniejącego kodu, rozpowszechnianego na określonych licencjach i mającego określonych autorów.

W szczególności przy szkoleniu systemu Copilot wykorzystuje się kod rozpowszechniany na otwartych licencjach, w większości przypadków wymagających podania autorstwa (uznania autorstwa). Wymóg ten nie jest spełniony przy generowaniu powstałego kodu, co stanowi wyraźne naruszenie większości licencji open source, takich jak GPL, MIT i Apache. Ponadto Copilot narusza własne warunki świadczenia usług i prywatność GitHub, nie przestrzega ustawy DMCA, która zabrania usuwania informacji o prawach autorskich oraz ustawy CCPA (California Consumer Privacy Act), która reguluje postępowanie z danymi osobowymi.

Treść pozwu zawiera przybliżoną kalkulację szkód wyrządzonych społeczeństwu w wyniku działań Copilot. Zgodnie z sekcją 1202 ustawy Digital Millennium Copyright Act (DMCA) minimalna wysokość odszkodowania wynosi 2500 USD za każde naruszenie. Biorąc pod uwagę fakt, że z usługi Copilot korzysta 1.2 mln użytkowników i przy każdym skorzystaniu z usługi dochodzi do trzech naruszeń ustawy DMCA (uznanie autorstwa, prawa autorskie i postanowienia licencyjne), minimalną kwotę całkowitych szkód szacuje się na 9 miliardów dolarów (1200000 3 2500 * XNUMX * XNUMX dolarów).

Organizacja praw człowieka Software Freedom Conservancy (SFC), która wcześniej krytykowała GitHub i Copilot, w komentarzu do pozwu zaleciła, aby przy ochronie interesów społeczności nie odstępować od jednej z wcześniej określonych zasad – „egzekucja zorientowana na społeczność powinna nie traktuj priorytetowo korzyści finansowych.” Zdaniem SFC działania Copilot są niedopuszczalne przede wszystkim dlatego, że podważają mechanizm copyleft, mający na celu zapewnienie równych praw użytkownikom, programistom i konsumentom. Wiele projektów objętych Copilot jest rozpowszechnianych na podstawie licencji typu copyleft, takich jak GPL, które wymagają, aby kod dzieł pochodnych był rozpowszechniany na podstawie kompatybilnej licencji. Wstawiając istniejący kod zgodnie z sugestią Copilot, programiści mogą nieświadomie naruszyć licencję projektu, z którego kod został zapożyczony.

Przypomnijmy, że latem GitHub uruchomił nową usługę komercyjną GitHub Copilot, która szkoli się na szeregu tekstów źródłowych zamieszczanych w publicznych repozytoriach GitHub i potrafi generować standardowe projekty podczas pisania kodu. Usługa potrafi generować dość złożone i duże bloki kodu, aż po gotowe funkcje umożliwiające powtarzanie fragmentów tekstu z istniejących projektów. Według GitHuba system stara się odtworzyć strukturę kodu, a nie sam go skopiować, jednak w około 1% przypadków proponowana rekomendacja może zawierać fragmenty kodu istniejących projektów dłuższe niż 150 znaków. Aby zapobiec zastępowaniu istniejącego kodu, Copilot posiada wbudowany filtr, który sprawdza skrzyżowania z projektami hostowanymi na GitHub, ale ten filtr jest aktywowany według uznania użytkownika.

Dwa dni przed złożeniem pozwu GitHub ogłosił zamiar wdrożenia w 2023 roku funkcji umożliwiającej śledzenie powiązań pomiędzy fragmentami wygenerowanymi w Copilocie a istniejącym kodem w repozytoriach. Programiści będą mogli przeglądać listę podobnych kodów znajdujących się już w publicznych repozytoriach, a także sortować skrzyżowania według licencji na kod i czasu modyfikacji.

Źródło: opennet.ru

Dodaj komentarz