Νομικές διαδικασίες κατά της Microsoft και του OpenAI που σχετίζονται με τη δημιουργία κώδικα GitHub Copilot

Ο προγραμματιστής τυπογραφίας ανοιχτού κώδικα Matthew Butterick και η δικηγορική εταιρεία Joseph Saveri υπέβαλαν αγωγή (PDF) κατά των κατασκευαστών της τεχνολογίας που χρησιμοποιείται στην υπηρεσία Copilot του GitHub. Οι κατηγορούμενοι περιλαμβάνουν τη Microsoft, το GitHub και τις εταιρείες που επιβλέπουν το έργο OpenAI, το οποίο παρήγαγε το μοντέλο δημιουργίας κώδικα OpenAI Codex που αποτελεί τη βάση του GitHub Copilot. Η διαδικασία επιχειρεί να εμπλέξει το δικαστήριο στον καθορισμό της νομιμότητας της δημιουργίας υπηρεσιών όπως το GitHub Copilot και στον καθορισμό του εάν τέτοιες υπηρεσίες παραβιάζουν τα δικαιώματα άλλων προγραμματιστών.

Οι δραστηριότητες των κατηγορουμένων έχουν συγκριθεί με τη δημιουργία ενός νέου τύπου πειρατείας λογισμικού, που βασίζεται στη χειραγώγηση του υπάρχοντος κώδικα χρησιμοποιώντας τεχνικές μηχανικής μάθησης και τους επιτρέπει να επωφελούνται από την εργασία άλλων ανθρώπων. Η δημιουργία του Copilot θεωρείται επίσης ως η εισαγωγή ενός νέου μηχανισμού για τη δημιουργία εσόδων από την εργασία των προγραμματιστών λογισμικού ανοιχτού κώδικα, παρά το γεγονός ότι το GitHub είχε προηγουμένως υποσχεθεί να μην το κάνει ποτέ.

Η θέση των εναγόντων συνοψίζεται στο γεγονός ότι το αποτέλεσμα της δημιουργίας κώδικα από ένα σύστημα μηχανικής μάθησης που εκπαιδεύεται σε δημόσια διαθέσιμα κείμενα πηγής δεν μπορεί να ερμηνευθεί ως θεμελιωδώς νέο και ανεξάρτητο έργο, καθώς είναι συνέπεια αλγορίθμων που επεξεργάζονται ήδη υπάρχοντα κώδικα. Σύμφωνα με τους ενάγοντες, το Copilot αναπαράγει μόνο κώδικα που έχει άμεσες αναφορές σε υπάρχοντα κώδικα σε δημόσια αποθετήρια και τέτοιοι χειρισμοί δεν εμπίπτουν στα κριτήρια της ορθής χρήσης. Με άλλα λόγια, η σύνθεση κώδικα στο GitHub Copilot θεωρείται από τους ενάγοντες ως η δημιουργία ενός παράγωγου έργου από υπάρχοντα κώδικα, που διανέμεται υπό ορισμένες άδειες και έχει συγκεκριμένους δημιουργούς.

Ειδικότερα, κατά την εκπαίδευση του συστήματος Copilot, χρησιμοποιείται κώδικας που διανέμεται υπό ανοικτές άδειες, στις περισσότερες περιπτώσεις απαιτώντας ειδοποίηση συγγραφής (αναφορά). Αυτή η απαίτηση δεν πληρούται κατά τη δημιουργία του προκύπτοντος κώδικα, κάτι που αποτελεί σαφή παραβίαση των περισσότερων αδειών χρήσης ανοιχτού κώδικα όπως η GPL, το MIT και ο Apache. Επιπλέον, το Copilot παραβιάζει τους Όρους Παροχής Υπηρεσιών και το απόρρητο του GitHub, δεν συμμορφώνεται με το DMCA, το οποίο απαγορεύει την αφαίρεση των πληροφοριών πνευματικών δικαιωμάτων, και το CCPA (California Consumer Privacy Act), που ρυθμίζει τον χειρισμό των προσωπικών δεδομένων.

Το κείμενο της αγωγής παρέχει έναν κατά προσέγγιση υπολογισμό της ζημίας που προκλήθηκε στην κοινότητα ως αποτέλεσμα των δραστηριοτήτων του Copilot. Σύμφωνα με την Ενότητα 1202 του Νόμου για τα δικαιώματα πνευματικής ιδιοκτησίας στην ψηφιακή εποχή (DMCA), οι ελάχιστες ζημιές είναι 2500 $ ανά παραβίαση. Λαμβάνοντας υπόψη το γεγονός ότι η υπηρεσία Copilot έχει 1.2 εκατομμύρια χρήστες και κάθε φορά που χρησιμοποιείται η υπηρεσία, συμβαίνουν τρεις παραβιάσεις DMCA (απόδοση, πνευματικά δικαιώματα και όροι άδειας χρήσης), το ελάχιστο ποσό συνολικής ζημίας υπολογίζεται σε 9 δισεκατομμύρια δολάρια (1200000 * 3 * 2500 $).

Η οργάνωση ανθρωπίνων δικαιωμάτων Software Freedom Conservancy (SFC), η οποία έχει επικρίνει στο παρελθόν το GitHub και το Copilot, σχολίασε την αγωγή με μια σύσταση να μην παρεκκλίνουμε από μία από τις προηγούμενες αρχές της κατά την προστασία των συμφερόντων της κοινότητας - «η επιβολή με προσανατολισμό στην κοινότητα θα πρέπει μην δίνετε προτεραιότητα στο οικονομικό κέρδος». Σύμφωνα με το SFC, οι ενέργειες του Copilot είναι απαράδεκτες κυρίως επειδή υπονομεύουν τον μηχανισμό copyleft, που στοχεύει στην παροχή ίσων δικαιωμάτων σε χρήστες, προγραμματιστές και καταναλωτές. Πολλά από τα έργα που καλύπτονται στο Copilot διανέμονται με άδειες copyleft, όπως η GPL, που απαιτούν τη διανομή του κώδικα των παράγωγων έργων με συμβατή άδεια. Με την εισαγωγή υπάρχοντος κώδικα όπως προτείνεται από το Copilot, οι προγραμματιστές ενδέχεται να παραβιάσουν άθελά τους την άδεια του έργου από το οποίο δανείστηκε ο κωδικός.

Ας θυμηθούμε ότι το καλοκαίρι το GitHub κυκλοφόρησε μια νέα εμπορική υπηρεσία, το GitHub Copilot, που εκπαιδεύτηκε σε μια σειρά από κείμενα πηγής που δημοσιεύτηκαν σε δημόσια αποθετήρια GitHub και ήταν ικανό να δημιουργεί τυπικά σχέδια κατά τη σύνταξη κώδικα. Η υπηρεσία μπορεί να δημιουργήσει αρκετά περίπλοκα και μεγάλα μπλοκ κώδικα, μέχρι έτοιμες λειτουργίες που μπορούν να επαναλάβουν αποσπάσματα κειμένου από υπάρχοντα έργα. Σύμφωνα με το GitHub, το σύστημα προσπαθεί να αναδημιουργήσει τη δομή του κώδικα αντί να αντιγράψει τον ίδιο τον κώδικα, ωστόσο, σε περίπου 1% των περιπτώσεων, η προτεινόμενη σύσταση μπορεί να περιλαμβάνει αποσπάσματα κώδικα υπαρχόντων έργων που έχουν μήκος περισσότερους από 150 χαρακτήρες. Για να αποφευχθεί η αντικατάσταση του υπάρχοντος κώδικα, το Copilot διαθέτει ένα ενσωματωμένο φίλτρο που ελέγχει για διασταυρώσεις με έργα που φιλοξενούνται στο GitHub, αλλά αυτό το φίλτρο ενεργοποιείται κατά την κρίση του χρήστη.

Δύο ημέρες πριν από την κατάθεση της αγωγής, το GitHub ανακοίνωσε την πρόθεσή του να εφαρμόσει ένα χαρακτηριστικό το 2023 που θα επέτρεπε την παρακολούθηση της σχέσης μεταξύ των τμημάτων που δημιουργούνται στο Copilot και του υπάρχοντος κώδικα στα αποθετήρια. Οι προγραμματιστές θα μπορούν να δουν μια λίστα παρόμοιου κώδικα που υπάρχει ήδη σε δημόσια αποθετήρια, καθώς και να ταξινομούν τις διασταυρώσεις ανά άδεια κωδικού και ώρα τροποποίησης.

Πηγή: opennet.ru

Προσθέστε ένα σχόλιο