Procedimientos legales contra Microsoft y OpenAI relacionados con el generador de código GitHub Copilot

El desarrollador de tipografía de código abierto Matthew Butterick y el bufete de abogados Joseph Saveri han presentado una demanda (PDF) contra los creadores de la tecnología utilizada en el servicio Copilot de GitHub. Los demandados incluyen a Microsoft, GitHub y las empresas que supervisan el proyecto OpenAI, que produjo el modelo de generación de código OpenAI Codex que subyace a GitHub Copilot. El procedimiento intenta involucrar al tribunal en la determinación de la legalidad de la creación de servicios como GitHub Copilot y si dichos servicios violan los derechos de otros desarrolladores.

Las actividades de los acusados ​​han sido comparadas con la creación de un nuevo tipo de piratería de software, basado en la manipulación de códigos existentes utilizando técnicas de aprendizaje automático y permitiéndoles beneficiarse del trabajo de otras personas. La creación de Copilot también se considera la introducción de un nuevo mecanismo para monetizar el trabajo de los desarrolladores de software de código abierto, a pesar de que GitHub había prometido previamente no hacerlo nunca.

La posición de los demandantes se reduce al hecho de que el resultado de la generación de código mediante un sistema de aprendizaje automático entrenado en textos fuente disponibles públicamente no puede interpretarse como un trabajo fundamentalmente nuevo e independiente, ya que es una consecuencia de algoritmos que procesan código ya existente. Según los demandantes, Copilot solo reproduce código que tiene referencias directas al código existente en repositorios públicos, y tales manipulaciones no entran dentro del criterio de uso legítimo. En otras palabras, los demandantes consideran la síntesis de código en GitHub Copilot como la creación de un trabajo derivado de un código existente, distribuido bajo ciertas licencias y con autores específicos.

En particular, al entrenar el sistema Copilot, se utiliza código que se distribuye bajo licencias abiertas, que en la mayoría de los casos requieren notificación de autoría (atribución). Este requisito no se cumple al generar el código resultante, lo que supone una clara violación de la mayoría de licencias de código abierto como GPL, MIT y Apache. Además, Copilot viola los propios términos de servicio y privacidad de GitHub, no cumple con la DMCA, que prohíbe la eliminación de información de derechos de autor, ni con la CCPA (Ley de Privacidad del Consumidor de California), que regula el manejo de datos personales.

El texto de la demanda proporciona un cálculo aproximado del daño causado a la comunidad como resultado de las actividades de Copilot. De conformidad con la Sección 1202 de la Ley de Derechos de Autor del Milenio Digital (DMCA), los daños mínimos son de $2500 por infracción. Teniendo en cuenta que el servicio Copilot tiene 1.2 millones de usuarios y cada vez que se utiliza el servicio ocurren tres violaciones de la DMCA (atribución, derechos de autor y términos de licencia), el monto mínimo del daño total se estima en 9 mil millones de dólares (1200000 * 3 * $2500).

La organización de derechos humanos Software Freedom Conservancy (SFC), que anteriormente criticó a GitHub y Copilot, comentó sobre la demanda con una recomendación de no desviarse de uno de sus principios previamente declarados al proteger los intereses de la comunidad: “la aplicación de la ley orientada a la comunidad debe No priorizar las ganancias financieras”. Según la SFC, las acciones de Copilot son inaceptables principalmente porque socavan el mecanismo copyleft, cuyo objetivo es garantizar la igualdad de derechos a usuarios, desarrolladores y consumidores. Muchos de los proyectos cubiertos en Copilot se distribuyen bajo licencias copyleft, como la GPL, que requiere que el código de trabajos derivados se distribuya bajo una licencia compatible. Al insertar código existente como lo sugiere Copilot, los desarrolladores pueden violar sin saberlo la licencia del proyecto del cual se tomó prestado el código.

Recordemos que en verano GitHub lanzó un nuevo servicio comercial, GitHub Copilot, formado en una serie de textos fuente publicados en repositorios públicos de GitHub y capaz de generar diseños estándar al escribir código. El servicio puede generar bloques de código bastante complejos y grandes, hasta funciones listas para usar que pueden repetir pasajes de texto de proyectos existentes. Según GitHub, el sistema intenta recrear la estructura del código en lugar de copiar el código en sí; sin embargo, en aproximadamente el 1% de los casos, la recomendación propuesta puede incluir fragmentos de código de proyectos existentes que tienen más de 150 caracteres. Para evitar la sustitución del código existente, Copilot tiene un filtro incorporado que busca intersecciones con proyectos alojados en GitHub, pero este filtro se activa a discreción del usuario.

Dos días antes de que se presentara la demanda, GitHub anunció su intención de implementar una función en 2023 que permitiría rastrear la relación entre los fragmentos generados en Copilot y el código existente en los repositorios. Los desarrolladores podrán ver una lista de códigos similares que ya están presentes en los repositorios públicos, así como ordenar las intersecciones por licencia de código y hora de modificación.

Fuente: opennet.ru

Añadir un comentario