Litigation laban sa Microsoft at OpenAI na nauugnay sa GitHub Copilot code generator

Ang developer ng open source na typography na si Matthew Butterick at ang Joseph Saveri Law Firm ay nagsampa ng demanda (PDF) laban sa mga gumagawa ng teknolohiyang ginagamit sa serbisyo ng Copilot ng GitHub. Kasama sa mga nasasakdal ang Microsoft, GitHub at ang mga kumpanyang nangangasiwa sa proyekto ng OpenAI, na gumawa ng modelo ng pagbuo ng code ng OpenAI Codex na sumasailalim sa GitHub Copilot. Sinusubukan ng mga paglilitis na isangkot ang hukuman sa pagtukoy sa legalidad ng paglikha ng mga serbisyo tulad ng GitHub Copilot at pagtukoy kung ang mga naturang serbisyo ay lumalabag sa mga karapatan ng ibang mga developer.

Ang mga aktibidad ng mga nasasakdal ay inihambing sa paglikha ng isang bagong uri ng software piracy, batay sa pagmamanipula ng umiiral na code gamit ang mga diskarte sa pag-aaral ng makina at nagpapahintulot sa kanila na makinabang mula sa gawain ng ibang tao. Ang paglikha ng Copilot ay nakikita rin bilang ang pagpapakilala ng isang bagong mekanismo para sa pagkakitaan ang gawain ng mga open source software developer, sa kabila ng katotohanan na ang GitHub ay dati nang nangako na hinding-hindi ito gagawin.

Ang posisyon ng mga nagsasakdal ay nagmumula sa katotohanan na ang resulta ng pagbuo ng code sa pamamagitan ng isang sistema ng pag-aaral ng makina na sinanay sa mga mapagkukunang text na available sa publiko ay hindi maaaring bigyang-kahulugan bilang isang panimula na bago at independiyenteng gawain, dahil ito ay resulta ng pagproseso ng mga algorithm na mayroon nang code. Ayon sa mga nagsasakdal, ang Copilot ay gumagawa lamang ng code na may direktang mga sanggunian sa umiiral na code sa mga pampublikong repositoryo, at ang mga naturang manipulasyon ay hindi napapailalim sa pamantayan ng patas na paggamit. Sa madaling salita, ang code synthesis sa GitHub Copilot ay isinasaalang-alang ng mga nagsasakdal bilang ang paglikha ng isang derivative na gawa mula sa umiiral na code, ipinamahagi sa ilalim ng ilang partikular na lisensya at pagkakaroon ng mga partikular na may-akda.

Sa partikular, kapag nagsasanay sa Copilot system, ginagamit ang code na ipinamamahagi sa ilalim ng mga bukas na lisensya, sa karamihan ng mga kaso na nangangailangan ng paunawa ng pagiging may-akda (attribution). Hindi natutugunan ang kinakailangang ito kapag bumubuo ng resultang code, na isang malinaw na paglabag sa karamihan ng mga open source na lisensya gaya ng GPL, MIT at Apache. Bilang karagdagan, nilalabag ng Copilot ang sariling mga tuntunin ng serbisyo at privacy ng GitHub, hindi sumusunod sa DMCA, na nagbabawal sa pag-alis ng impormasyon sa copyright, at sa CCPA (California Consumer Privacy Act), na kumokontrol sa pangangasiwa ng personal na data.

Ang teksto ng demanda ay nagbibigay ng tinatayang kalkulasyon ng pinsalang idinulot sa komunidad bilang resulta ng mga aktibidad ng Copilot. Alinsunod sa Seksyon 1202 ng Digital Millennium Copyright Act (DMCA), ang pinakamababang pinsala ay $2500 bawat paglabag. Isinasaalang-alang ang katotohanan na ang serbisyo ng Copilot ay may 1.2 milyong mga gumagamit at sa bawat oras na ang serbisyo ay ginagamit, tatlong mga paglabag sa DMCA ang nangyayari (attribution, copyright at mga tuntunin ng lisensya), ang pinakamababang halaga ng kabuuang pinsala ay tinatantya sa 9 bilyong dolyar (1200000 * 3 * $2500).

Ang organisasyon ng karapatang pantao na Software Freedom Conservancy (SFC), na dati nang pumuna sa GitHub at Copilot, ay nagkomento sa demanda na may rekomendasyon na huwag lumihis sa isa sa mga naunang sinabi nitong mga prinsipyo kapag pinoprotektahan ang mga interes ng komunidad - "ang pagpapatupad ng komunidad ay dapat hindi unahin ang pinansiyal na pakinabang." Ayon sa SFC, ang mga aksyon ng Copilot ay hindi katanggap-tanggap lalo na dahil sinisira nila ang mekanismo ng copyleft, na naglalayong magbigay ng pantay na karapatan sa mga user, developer at consumer. Marami sa mga proyektong saklaw sa Copilot ay ipinamamahagi sa ilalim ng mga lisensya ng copyleft, tulad ng GPL, na nangangailangan ng code ng mga gawang hinalaw na ipamahagi sa ilalim ng isang katugmang lisensya. Sa pamamagitan ng paglalagay ng umiiral na code gaya ng iminungkahi ng Copilot, maaaring hindi sinasadya ng mga developer na lumabag sa lisensya ng proyekto kung saan hiniram ang code.

Alalahanin natin na noong tag-araw ay naglunsad ang GitHub ng bagong komersyal na serbisyo, ang GitHub Copilot, na sinanay sa hanay ng mga source text na nai-post sa mga pampublikong GitHub repository, at may kakayahang bumuo ng mga karaniwang disenyo kapag nagsusulat ng code. Ang serbisyo ay maaaring makabuo ng medyo kumplikado at malalaking bloke ng code, hanggang sa mga yari na function na maaaring ulitin ang mga sipi ng teksto mula sa mga kasalukuyang proyekto. Ayon sa GitHub, sinusubukan ng system na muling likhain ang istraktura ng code sa halip na kopyahin ang code mismo, gayunpaman, sa humigit-kumulang 1% ng mga kaso, ang iminungkahing rekomendasyon ay maaaring magsama ng mga snippet ng code ng mga kasalukuyang proyekto na higit sa 150 character ang haba. Upang maiwasan ang pagpapalit ng umiiral na code, ang Copilot ay may built-in na filter na tumitingin sa mga intersection na may mga proyektong naka-host sa GitHub, ngunit ang filter na ito ay isinaaktibo sa pagpapasya ng user.

Dalawang araw bago ihain ang demanda, inihayag ng GitHub ang intensyon nitong magpatupad ng feature sa 2023 na magpapahintulot sa pagsubaybay sa kaugnayan sa pagitan ng mga fragment na nabuo sa Copilot at umiiral na code sa mga repositoryo. Magagawang tingnan ng mga developer ang isang listahan ng mga katulad na code na naroroon na sa mga pampublikong repositoryo, pati na rin ang pag-uuri ng mga intersection ayon sa lisensya ng code at oras ng pagbabago.

Pinagmulan: opennet.ru

Magdagdag ng komento