Судовае разьбіральніцтва супраць Microsoft і OpenAI, звязанае з генератарам кода GitHub Copilot

Мэцью Батэрык (Matthew Butterick), які распрацоўвае адкрытыя праекты для друкаркі, і юрыдычная кампанія Joseph Saveri Law Firm, ініцыявалі судовае разбіральніцтва (PDF) супраць вытворцаў тэхналогій, якія выкарыстоўваюцца ў сэрвісе GitHub Copilot. Сярод адказнікаў Microsoft, GitHub і кампаніі, якія курыруюць праект OpenAI, які падрыхтаваў мадэль генерацыі кода OpenAI Codex, якая ляжыць у аснове GitHub Copilot. У ходзе разбору зроблена спроба прыцягнуць суд да вызначэння ступені законнасці стварэння сэрвісаў, падобных GitHub Copilot, і высвятленню, ці парушаюць такія сэрвісы правы іншых распрацоўшчыкаў.

Дзейнасць адказчыкаў параўноўваецца са стварэннем новага віду пірацтва праграмнага забеспячэння, заснаванага на маніпуляцыі існуючым кодам пры дапамозе метадаў машыннага навучання і які дазваляе здабываць выгаду за кошт працы іншых людзей. Стварэнне Copilot таксама разглядаецца як увядзенне ў практыку новага механізму манетызацыі працы распрацоўшчыкаў адкрытага ПЗ, нягледзячы на ​​тое, што GitHub раней абяцаў ніколі гэтага не рабіць.

Пазіцыя пазоўнікаў зводзіцца да таго, што вынік генерацыі кода сістэмай машыннага навучання, натрэніраванай на публічна даступных зыходных тэкстах, нельга тлумачыць як прынцыпова новую і самастойную працу, бо яна з'яўляецца следствам апрацоўкі алгарытмамі ўжо існага кода. Па меркаванні пазоўнікаў Copilot толькі прайгравае код, які мае прамыя дасылкі да існага кода ў адчыненых рэпазітарах, і падобныя маніпуляцыі не падпадаюць пад крытэры добрасумленнага выкарыстання. Іншымі словамі, сінтэз кода ў GitHub Copilot разглядаецца пазоўнікамі як стварэнне вытворнай працы ад існага кода, які распаўсюджваецца пад вызначанымі ліцэнзіямі і што мае пэўных аўтараў.

У прыватнасці, пры навучанні сістэмы Copilot выкарыстоўваецца код, які распаўсюджваецца пад адкрытымі ліцэнзіямі, у большасці выпадкаў патрабавальнымі паведамленні аб аўтарстве (атрыбуцыя). Пры генерацыі выніковага кода дадзенае патрабаванне не выконваецца, што з'яўляецца відавочным парушэннем большасці адчыненых ліцэнзій, такіх як GPL, MIT і Apache. Акрамя таго, у Copilot парушаюцца ўласныя ўмовы GitHub, якія тычацца аказання паслуг і забеспячэння прыватнасці, не выконваюцца патрабаванні закона DMCA, які забараняе выдаляць інфармацыю аб аўтарскіх правах, і закона CCPA (California Consumer Privacy Act), які рэгулюе абыходжанне з персанальнымі дадзенымі.

У тэксце пазову прыведзены прыблізны разлік шкоды, нанесенай супольнасці ў выніку дзейнасці Copilot. У адпаведнасці з 1202 артыкулам Закона аб аўтарскім праве ў лічбавую эпоху (DMCA, Digital Millennium Copyright Act), мінімальны памер шкоды складае 2500 долараў за кожнае парушэнне. З улікам таго, што сэрвіс Copilot налічвае 1.2 млн карыстачоў і пры кожным выкарыстанні сэрвісу ўзнікае тры парушэнні DMCA (атрыбуцыя, капірайт і ўмовы ліцэнзіі), мінімальны памер агульнай шкоды ацэнены ў 9 мільярдаў даляраў (1200000 * 3 * $ 2500).

Праваабарончая арганізацыя Software Freedom Conservancy (SFC), якая раней выступала з крытыкай GitHub і Copilot, пракаментавала пазоў рэкамендацыяй не адхіляцца пры абароне інтарэсаў супольнасці ад аднаго з раней сфармуляваных прынцыпаў – «арыентаванае на супольнасць правапрымяненне не павінна надаваць першарадную ўвагу фінансавай выгадзе». На думку SFC дзеянні Copilot непрымальныя перш за ўсё тым, што падрываюць механізм "капілефт", накіраваны на прадастаўленне роўных правоў карыстальнікам, распрацоўшчыкам і спажыўцам. Многія з ахопленых у Copilot праектаў пастаўляюцца пад капілефт-ліцэнзіямі, такімі як GPL, якія патрабуюць пастаўкі пад сумяшчальнай ліцэнзіяй кода вытворных прац. У выпадку ўстаўкі прапанаванага Copilot існуючага кода распрацоўшчыкі могуць мімаволі парушыць ліцэнзію на праект, з якога быў запазычаны дадзены код.

Нагадаем, што ўлетку GitHub запусціў новы камерцыйны сэрвіс GitHub Copilot, натрэніраваны на масіве зыходных тэкстаў, размешчаных у публічных рэпазітарах GitHub, і здольны генераваць тыпавыя канструкцыі пры напісанні кода. Сэрвіс можа фармаваць досыць складаныя і вялікія блокі кода, аж да гатовых функцый, якія могуць паўтараць урыўкі тэксту з існых праектаў. Па дадзеных GitHub сістэма спрабуе ўзнавіць структуру кода, а не капіюе сам код, тым не менш прыкладна ў 1% выпадкаў прапанаваная рэкамендацыя можа ўключаць урыўкі кода існуючых праектаў памерам больш за 150 сімвалаў. Для прадухілення падстаноўкі існуючага кода ў Copilot убудаваны спецыяльны фільтр, які правярае скрыжавання з размешчанымі на GitHub праектамі, але дадзены фільтр актывуецца на меркаванне карыстальніка.

За два дні да падачы пазову GitHub абвясціў аб намеры рэалізаваць у 2023 годзе функцыю, якая дазваляе адсочваць сувязь генерыруюцца ў Copilot фрагментаў з існуючым у рэпазітарах кодам. Распрацоўнікі змогуць прагледзець спіс падобнага кода, ужо прысутнага ў публічных рэпазітарах, а таксама адсартаваць перасячэнні па ліцэнзіях на код і чакай занясенні змены.

Крыніца: opennet.ru

Дадаць каментар