Το DeepMind AI Masters Team Παίζει και ξεπερνά τους ανθρώπους στο Quake III

Το Capture the flag είναι μια αρκετά απλή ανταγωνιστική λειτουργία που συναντάμε σε πολλούς δημοφιλείς σκοπευτές. Κάθε ομάδα έχει έναν δείκτη που βρίσκεται στη βάση της και ο στόχος είναι να συλλάβει τον δείκτη της αντίπαλης ομάδας και να τον φέρει με επιτυχία στον εαυτό της. Ωστόσο, αυτό που είναι εύκολο για τους ανθρώπους να κατανοήσουν δεν είναι τόσο εύκολο για τις μηχανές. Για την καταγραφή της σημαίας, οι χαρακτήρες που δεν είναι παίκτες (bots) προγραμματίζονται παραδοσιακά χρησιμοποιώντας ευρετικές μεθόδους και απλούς αλγόριθμους που παρέχουν περιορισμένη ελευθερία επιλογής και είναι σημαντικά κατώτεροι από τους ανθρώπους. Αλλά η τεχνητή νοημοσύνη και η μηχανική μάθηση υπόσχονται να αλλάξουν εντελώς αυτήν την κατάσταση.

В άρθρο, που δημοσιεύτηκε αυτή την εβδομάδα στο περιοδικό Science περίπου ένα χρόνο μετά προεκτύπωση, καθώς και στο το ιστολόγιό σας, ερευνητές από την DeepMind, μια θυγατρική της Alphabet με έδρα το Λονδίνο, περιγράφουν ένα σύστημα που μπορεί όχι μόνο να μάθει να παίζει capture the flag στους χάρτες Quake III Arena της id Software, αλλά και να αναπτύξει εντελώς νέες στρατηγικές ομάδας, σε καμία περίπτωση κατώτερες από έναν άνθρωπο.

Το DeepMind AI Masters Team Παίζει και ξεπερνά τους ανθρώπους στο Quake III

«Κανείς δεν είπε στο AI πώς να παίξει αυτό το παιχνίδι, είχε μόνο το αποτέλεσμα - είτε το AI κέρδισε τον αντίπαλό του είτε όχι. Η ομορφιά της χρήσης αυτής της προσέγγισης είναι ότι ποτέ δεν ξέρεις ποια συμπεριφορά θα προκύψει όταν εκπαιδεύεις πράκτορες», λέει ο Max Jaderberg, ερευνητής στο DeepMind που εργάστηκε στο παρελθόν στο σύστημα μηχανικής μάθησης AlphaStar (πιο πρόσφατα ξεπεράστηκε ανθρώπινη ομάδα επαγγελματιών στο StarCraft II). Εξήγησε περαιτέρω ότι η βασική μέθοδος της νέας τους δουλειάς είναι, πρώτον, η ενισχυμένη μάθηση, η οποία χρησιμοποιεί ένα είδος συστήματος ανταμοιβής για να ωθήσει τους πράκτορες λογισμικού να επιτύχουν καθορισμένους στόχους και το σύστημα ανταμοιβής λειτούργησε ανεξάρτητα από το αν η ομάδα AI κέρδισε ή όχι , αλλά κατά δεύτερον, οι πράκτορες εκπαιδεύτηκαν σε ομάδες, γεγονός που ανάγκασε το AI να κυριαρχήσει στην αλληλεπίδραση της ομάδας από την αρχή.

«Από ερευνητική άποψη, αυτή είναι μια καινοτομία για μια αλγοριθμική προσέγγιση που είναι πραγματικά συναρπαστική», πρόσθεσε ο Max. «Ο τρόπος που εκπαιδεύσαμε την τεχνητή νοημοσύνη μας δείχνει καλά πώς να κλιμακώνουμε και να εφαρμόζουμε κάποιες κλασικές εξελικτικές ιδέες».

Το DeepMind AI Masters Team Παίζει και ξεπερνά τους ανθρώπους στο Quake III

Με προκλητική ονομασία For The Win (FTW), οι πράκτορες της DeepMind μαθαίνουν απευθείας από τα εικονοστοιχεία της οθόνης χρησιμοποιώντας ένα συνελικτικό νευρωνικό δίκτυο, ένα σύνολο μαθηματικών συναρτήσεων (νευρώνες) διατεταγμένες σε στρώματα που διαμορφώνονται σύμφωνα με τον ανθρώπινο οπτικό φλοιό. Τα δεδομένα που λαμβάνονται μεταδίδονται σε δύο δίκτυα με πολλαπλή βραχυπρόθεσμη μνήμη (Αγγλικά μακροπρόθεσμη μνήμη - LSTM), ικανά να αναγνωρίζουν μακροπρόθεσμες εξαρτήσεις. Ο ένας διαχειρίζεται τα επιχειρησιακά δεδομένα με γρήγορη ταχύτητα απόκρισης, ενώ ο άλλος εργάζεται αργά για να αναλύσει και να διατυπώσει στρατηγικές. Και τα δύο σχετίζονται με τη μεταβλητή μνήμη, την οποία χρησιμοποιούν μαζί για να προβλέψουν τις αλλαγές στον κόσμο του παιχνιδιού και να εκτελέσουν ενέργειες μέσω του ελεγκτή εξομοίωσης παιχνιδιού.

Το DeepMind AI Masters Team Παίζει και ξεπερνά τους ανθρώπους στο Quake III

Συνολικά, το DeepMind εκπαίδευσε 30 πράκτορες, τους έδωσε μια σειρά από συμπαίκτες και αντιπάλους για να παίξουν και επέλεξε τυχαία κάρτες παιχνιδιού για να αποτρέψει την τεχνητή νοημοσύνη από το να τις θυμάται. Κάθε πράκτορας είχε το δικό του σήμα ανταμοιβής, επιτρέποντάς του να δημιουργήσει τους δικούς του εσωτερικούς στόχους, όπως να συλλάβει τη σημαία. Κάθε AI μεμονωμένα έπαιξε περίπου 450 χιλιάδες παιχνίδια capture the flag, που ισοδυναμεί με περίπου τέσσερα χρόνια εμπειρίας παιχνιδιού.

Πλήρως εκπαιδευμένοι πράκτορες FTW έχουν μάθει να εφαρμόζουν στρατηγικές κοινές σε οποιονδήποτε χάρτη, ρόστερ ομάδας και μέγεθος ομάδας. Έμαθαν ανθρώπινες συμπεριφορές όπως να ακολουθούν συμπαίκτες, να στρατοπεδεύουν σε μια εχθρική βάση και να υπερασπίζονται τη βάση τους από τους επιτιθέμενους και σταδιακά έχασαν λιγότερο ωφέλιμα μοτίβα, όπως το να παρακολουθούν πολύ στενά έναν σύμμαχο.

Ποια αποτελέσματα λοιπόν επιτεύχθηκαν; Σε ένα τουρνουά 40 ατόμων στο οποίο άνθρωποι και πράκτορες έπαιξαν τυχαία τόσο μαζί όσο και εναντίον του άλλου, οι πράκτορες του FTW ξεπέρασαν σημαντικά το ποσοστό νίκης των ανθρώπινων παικτών. Η βαθμολογία Elo του AI, που είναι η πιθανότητα νίκης, ήταν 1600, σε σύγκριση με 1300 για τους «ισχυρούς» ανθρώπους παίκτες και 1050 για τον «μέσο» άνθρωπο παίκτη.

Το DeepMind AI Masters Team Παίζει και ξεπερνά τους ανθρώπους στο Quake III

Αυτό δεν προκαλεί έκπληξη, καθώς η ταχύτητα αντίδρασης του AI είναι σημαντικά υψηλότερη από αυτή ενός ανθρώπου, γεγονός που έδωσε στον πρώτο σημαντικό πλεονέκτημα στα αρχικά πειράματα. Αλλά ακόμη και όταν η ακρίβεια των παραγόντων μειώθηκε και ο χρόνος αντίδρασης αυξήθηκε χάρη στον ενσωματωμένο λανθάνοντα χρόνο των 257 χιλιοστών του δευτερολέπτου, η τεχνητή νοημοσύνη εξακολουθούσε να έχει καλύτερη απόδοση από τους ανθρώπους. Οι προχωρημένοι και οι casual παίκτες κέρδισαν μόνο το 21% και το 12% των συνολικών παιχνιδιών, αντίστοιχα.

Επιπλέον, μετά τη δημοσίευση της μελέτης, οι επιστήμονες αποφάσισαν να δοκιμάσουν πράκτορες σε πλήρεις χάρτες Quake III Arena με αρχιτεκτονική σύνθετου επιπέδου και πρόσθετα αντικείμενα, όπως το Future Crossings και το Ironwood, όπου το AI άρχισε να προκαλεί με επιτυχία τους ανθρώπους σε δοκιμαστικούς αγώνες. . Όταν οι ερευνητές εξέτασαν τα μοτίβα ενεργοποίησης νευρωνικών δικτύων των πρακτόρων, δηλαδή τις λειτουργίες των νευρώνων που είναι υπεύθυνοι για τον προσδιορισμό της εξόδου με βάση τις εισερχόμενες πληροφορίες, βρήκαν συστάδες που αντιπροσωπεύουν δωμάτια, την κατάσταση των σημαιών, την ορατότητα των συμπαικτών και των αντιπάλων και η παρουσία ή η απουσία πρακτόρων στη βάση του εχθρού ή βάσει ομάδας και άλλες σημαντικές πτυχές του παιχνιδιού. Οι εκπαιδευμένοι πράκτορες περιείχαν ακόμη και νευρώνες που κωδικοποιούσαν συγκεκριμένες καταστάσεις απευθείας, όπως όταν μια σημαία έπαιρνε έναν πράκτορα ή όταν την κρατούσε ένας σύμμαχος.

«Νομίζω ότι ένα από τα πράγματα που πρέπει να δούμε είναι ότι αυτές οι ομάδες πολλών πρακτόρων είναι εξαιρετικά ισχυρές και η μελέτη μας το δείχνει αυτό», λέει ο Jaderberg. "Αυτό μαθαίνουμε να κάνουμε όλο και καλύτερα τα τελευταία χρόνια - πώς να λύσουμε το πρόβλημα της ενισχυτικής μάθησης." Και η ενισχυμένη προπόνηση λειτούργησε πραγματικά θαυμάσια.»

Ο Thore Graepel, καθηγητής της επιστήμης των υπολογιστών στο University College του Λονδίνου και επιστήμονας του DeepMind, πιστεύει ότι η δουλειά τους αναδεικνύει τις δυνατότητες της μάθησης πολλαπλών παραγόντων για το μέλλον της τεχνητής νοημοσύνης. Μπορεί επίσης να χρησιμεύσει ως βάση για έρευνα σχετικά με την αλληλεπίδραση ανθρώπου-μηχανής και συστήματα που αλληλοσυμπληρώνονται ή συνεργάζονται.

«Τα αποτελέσματά μας δείχνουν ότι η ενισχυτική μάθηση πολλαπλών παραγόντων μπορεί να κυριαρχήσει με επιτυχία σε ένα σύνθετο παιχνίδι σε σημείο που οι ανθρώπινοι παίκτες πιστεύουν ακόμη και ότι οι παίκτες υπολογιστών κάνουν καλύτερους συμπαίκτες. Η μελέτη παρέχει επίσης εξαιρετικά ενδιαφέρουσα εις βάθος ανάλυση του τρόπου με τον οποίο οι εκπαιδευμένοι πράκτορες συμπεριφέρονται και συνεργάζονται, λέει ο Grapel. «Αυτό που κάνει αυτά τα αποτελέσματα τόσο συναρπαστικά είναι ότι αυτοί οι πράκτορες αντιλαμβάνονται το περιβάλλον τους σε πρώτο πρόσωπο, [δηλαδή] ακριβώς όπως ένας άνθρωπος παίκτης. Για να μάθουν πώς να παίζουν τακτικά και να συνεργάζονται με τους συμπαίκτες τους, αυτοί οι παράγοντες έπρεπε να βασίζονται σε σχόλια από τα αποτελέσματα του παιχνιδιού, χωρίς κανένας δάσκαλος ή προπονητής να τους δείξει τι να κάνουν».



Πηγή: 3dnews.ru

Προσθέστε ένα σχόλιο