Το OpenAI διδάσκει την ομαδική εργασία AI σε ένα παιχνίδι κρυφτού

Ένα καλό παλιομοδίτικο παιχνίδι κρυφτού μπορεί να είναι ένα εξαιρετικό τεστ για τα bot τεχνητής νοημοσύνης (AI) για να δείξουν πώς παίρνουν αποφάσεις και αλληλεπιδρούν μεταξύ τους και με διάφορα αντικείμενα γύρω τους.

στο έργο του νέο άρθρο, που δημοσιεύτηκε από ερευνητές του OpenAI, ενός μη κερδοσκοπικού οργανισμού έρευνας τεχνητής νοημοσύνης που έχει γίνει διάσημος νίκη επί παγκόσμιων πρωταθλητών στο παιχνίδι υπολογιστή Dota 2, οι επιστήμονες περιγράφουν πώς οι πράκτορες που ελέγχονται από την τεχνητή νοημοσύνη εκπαιδεύτηκαν ώστε να είναι πιο εξελιγμένοι στην αναζήτηση και την απόκρυψη μεταξύ τους σε ένα εικονικό περιβάλλον. Τα αποτελέσματα της μελέτης έδειξαν ότι μια ομάδα δύο bots μαθαίνει πιο αποτελεσματικά και πιο γρήγορα από οποιονδήποτε μεμονωμένο πράκτορα χωρίς συμμάχους.

Το OpenAI διδάσκει την ομαδική εργασία AI σε ένα παιχνίδι κρυφτού

Οι επιστήμονες έχουν χρησιμοποιήσει μια μέθοδο που έχει κερδίσει από καιρό τη φήμη της μηχανική μάθηση με ενίσχυση, στο οποίο η τεχνητή νοημοσύνη τοποθετείται σε ένα άγνωστο σε αυτήν περιβάλλον, ενώ διαθέτει συγκεκριμένους τρόπους αλληλεπίδρασης μαζί της, καθώς και σύστημα ανταμοιβών και προστίμων για το ένα ή το άλλο αποτέλεσμα των πράξεών της. Αυτή η μέθοδος είναι αρκετά αποτελεσματική λόγω της ικανότητας της τεχνητής νοημοσύνης να εκτελεί διάφορες ενέργειες σε ένα εικονικό περιβάλλον με τεράστια ταχύτητα, εκατομμύρια φορές πιο γρήγορα από ό,τι μπορεί να φανταστεί ένας άνθρωπος. Αυτό επιτρέπει τη δοκιμή και το λάθος να βρουν τις πιο αποτελεσματικές στρατηγικές για την επίλυση ενός δεδομένου προβλήματος. Αλλά αυτή η προσέγγιση έχει επίσης ορισμένους περιορισμούς, για παράδειγμα, η δημιουργία ενός περιβάλλοντος και η διεξαγωγή πολλών κύκλων εκπαίδευσης απαιτεί τεράστιους υπολογιστικούς πόρους και η ίδια η διαδικασία απαιτεί ένα ακριβές σύστημα σύγκρισης των αποτελεσμάτων των ενεργειών τεχνητής νοημοσύνης με τον στόχο της. Επιπλέον, οι δεξιότητες που αποκτά ο πράκτορας με αυτόν τον τρόπο περιορίζονται στην περιγραφόμενη εργασία και, μόλις το AI μάθει να το αντιμετωπίζει, δεν θα υπάρξουν περαιτέρω βελτιώσεις.

Για να εκπαιδεύσουν την τεχνητή νοημοσύνη να παίζει κρυφτό, οι επιστήμονες χρησιμοποίησαν μια προσέγγιση που ονομάζεται «Μη κατευθυνόμενη εξερεύνηση», όπου οι πράκτορες έχουν πλήρη ελευθερία να αναπτύξουν την κατανόησή τους για τον κόσμο του παιχνιδιού και να αναπτύξουν στρατηγικές νίκης. Αυτό είναι παρόμοιο με την προσέγγιση εκμάθησης πολλαπλών παραγόντων που χρησιμοποίησαν οι ερευνητές στο DeepMind όταν χρησιμοποίησαν πολλαπλά συστήματα τεχνητής νοημοσύνης εκπαιδεύτηκαν να παίζουν capture the flag mode στο Quake III Arena. Όπως και σε αυτήν την περίπτωση, οι πράκτορες AI δεν είχαν προηγουμένως εκπαιδευτεί στους κανόνες του παιχνιδιού, αλλά με την πάροδο του χρόνου έμαθαν βασικές στρατηγικές και κατάφεραν ακόμη και να εκπλήξουν τους ερευνητές με μη τετριμμένες λύσεις.

Σε ένα παιχνίδι κρυφτού, αρκετοί πράκτορες των οποίων η δουλειά ήταν να κρύβονται έπρεπε να αποφύγουν το οπτικό πεδίο των αντιπάλων τους μετά από ένα ελαφρύ ξεκίνημα με κεφάλι, ενώ η ομάδα των πρακτόρων αναζήτησης ήταν ακινητοποιημένη. Επιπλέον, η «ορατική γραμμή» σε αυτό το πλαίσιο είναι ένας κώνος 135 μοιρών μπροστά από ένα μεμονωμένο bot. Οι πράκτορες δεν μπορούσαν να βγουν πολύ μακριά έξω από την περιοχή παιχνιδιού και αναγκάστηκαν να περιηγηθούν σε τυχαία δημιουργημένα δωμάτια με τη δυνατότητα να χρησιμοποιήσουν κάποια εξωτερικά αντικείμενα (κουτιά, κινητούς τοίχους, ειδικές ράμπες) διάσπαρτα γύρω που θα μπορούσαν να χρησιμοποιηθούν τόσο για τη δημιουργία κάλυψης όσο και για διείσδυση σε αυτά .

Το OpenAI διδάσκει την ομαδική εργασία AI σε ένα παιχνίδι κρυφτού

Μέσα από μια μακρά διαδικασία εκμάθησης, οι πράκτορες AI έμαθαν έξι μοναδικές στρατηγικές, καθεμία από τις οποίες τους βοήθησε να προχωρήσουν στο επόμενο στάδιο του παιχνιδιού. Στην αρχή, οι ομάδες αναζητητών και κρυφτών απλά έτρεξαν και κυνήγησαν η μία την άλλη, αλλά μετά από περίπου 25 εκατομμύρια αγώνες, η ομάδα κρυφτών έμαθε να μπλοκάρει περάσματα με κουτιά και να χτίζει καταφύγια από αυτά. Μετά από άλλα 75 εκατομμύρια αγώνες, η ομάδα ανακάλυψε τρόπους να χρησιμοποιήσει ράμπες για να μπει σε αυτά τα κρησφύγετα. Μετά από άλλους 10 εκατομμύρια γύρους, οι hiders έμαθαν να σέρνουν ράμπες στην άκρη του αγωνιστικού χώρου και να τις κλειδώνουν στη θέση τους για να εμποδίσουν τους αντιπάλους να τις χρησιμοποιήσουν.

Το OpenAI διδάσκει την ομαδική εργασία AI σε ένα παιχνίδι κρυφτού

Μετά από 388 εκατομμύρια αγώνες, οι αναζητητές έμαθαν να χρησιμοποιούν μπλοκαρισμένες ράμπες για να σκαρφαλώνουν σε κιβώτια που τους έχουν φέρει, και στη συνέχεια, κινούμενοι απευθείας πάνω τους, να διεισδύουν σε εχθρικά κρησφύγετα που δημιουργούνται από φορητούς τοίχους. Και τελικά, μετά από 458 εκατομμύρια αγώνες, η ομάδα απόκρυψης κατέληξε στο συμπέρασμα ότι έπρεπε να μπλοκάρει όλα τα αντικείμενα και στη συνέχεια να χτίσει ένα καταφύγιο, το οποίο προφανώς οδήγησε στην τελική τους νίκη.

Αυτό που είναι ιδιαίτερα εντυπωσιακό είναι ότι μετά από 22 εκατομμύρια αγώνες, οι πράκτορες έμαθαν να συντονίζουν τις ενέργειές τους και η αποτελεσματικότητα της συνεργασίας τους αυξήθηκε μόνο στο μέλλον, για παράδειγμα, ο καθένας έφερε το δικό του κουτί ή τοίχο για να δημιουργήσει ένα καταφύγιο και διάλεξε το μερίδιό του από αντικείμενα για να μπλοκ, για να περιπλέξει το παιχνίδι δυσκολίας στους αντιπάλους.

Το OpenAI διδάσκει την ομαδική εργασία AI σε ένα παιχνίδι κρυφτού

Οι επιστήμονες σημείωσαν επίσης ένα σημαντικό σημείο που σχετίζεται με την επιρροή του αριθμού των αντικειμένων εκπαίδευσης (η ποσότητα των δεδομένων που διέρχεται από το νευρωνικό δίκτυο - «Μέγεθος παρτίδας») στην ταχύτητα εκμάθησης. Το προεπιλεγμένο μοντέλο απαιτούσε 132,3 εκατομμύρια αγώνες σε 34 ώρες προπόνησης για να φτάσει στο σημείο όπου η ομάδα κρυφτών έμαθε να μπλοκάρει τις ράμπες, ενώ περισσότερα δεδομένα οδήγησαν σε αισθητή μείωση του χρόνου προπόνησης. Για παράδειγμα, η αύξηση του αριθμού των παραμέτρων (μέρος των δεδομένων που λαμβάνονται κατά τη διάρκεια ολόκληρης της εκπαιδευτικής διαδικασίας) από 0,5 εκατομμύρια σε 5,8 εκατομμύρια αύξησε την απόδοση δειγματοληψίας κατά 2,2 φορές και η αύξηση του μεγέθους των δεδομένων εισόδου από 64 KB σε 128 KB μείωσε την εκπαίδευση χρόνο σχεδόν μιάμιση φορά.

Το OpenAI διδάσκει την ομαδική εργασία AI σε ένα παιχνίδι κρυφτού

Στο τέλος της εργασίας τους, οι ερευνητές αποφάσισαν να δοκιμάσουν πόση εκπαίδευση στο παιχνίδι θα μπορούσε να βοηθήσει τους πράκτορες να αντιμετωπίσουν παρόμοιες εργασίες εκτός παιχνιδιού. Πραγματοποιήθηκαν πέντε δοκιμές συνολικά: επίγνωση του αριθμού των αντικειμένων (κατανόηση ότι ένα αντικείμενο συνεχίζει να υπάρχει ακόμα κι αν δεν φαίνεται και δεν χρησιμοποιείται). "Κλείδωμα και επιστροφή" - η ικανότητα να θυμάται κανείς την αρχική του θέση και να επιστρέψει σε αυτήν μετά την ολοκλήρωση κάποιας πρόσθετης εργασίας. «διαδοχικός αποκλεισμός» - 4 κουτιά βρίσκονταν τυχαία σε τρία δωμάτια χωρίς πόρτες, αλλά με ράμπες για να μπουν μέσα, οι πράκτορες έπρεπε να τα βρουν και να τα μπλοκάρουν όλα. τοποθέτηση κουτιών σε προκαθορισμένες τοποθεσίες. δημιουργώντας ένα καταφύγιο γύρω από ένα αντικείμενο με τη μορφή κυλίνδρου.

Ως αποτέλεσμα, σε τρεις από τις πέντε εργασίες, τα bots που είχαν υποβληθεί σε προκαταρκτική εκπαίδευση στο παιχνίδι έμαθαν πιο γρήγορα και έδειξαν καλύτερα αποτελέσματα από την τεχνητή νοημοσύνη που εκπαιδεύτηκε να λύνει προβλήματα από την αρχή. Είχαν ελαφρώς καλύτερες επιδόσεις στην ολοκλήρωση της εργασίας και στην επιστροφή στην αρχική θέση, μπλοκάροντας διαδοχικά κουτιά σε κλειστά δωμάτια και τοποθετώντας κουτιά σε δεδομένες περιοχές, αλλά είχαν ελαφρώς πιο αδύναμη αναγνώριση στον αριθμό των αντικειμένων και στη δημιουργία κάλυψης γύρω από ένα άλλο αντικείμενο.

Οι ερευνητές αποδίδουν μικτά αποτελέσματα στο πώς η τεχνητή νοημοσύνη μαθαίνει και θυμάται ορισμένες δεξιότητες. «Πιστεύουμε ότι οι εργασίες όπου η προ-προπόνηση εντός του παιχνιδιού είχε καλύτερη απόδοση περιελάμβανε την επαναχρησιμοποίηση δεξιοτήτων που είχαν μάθει προηγουμένως με οικείο τρόπο, ενώ η εκτέλεση των υπόλοιπων εργασιών καλύτερα από την τεχνητή νοημοσύνη που εκπαιδεύτηκε από την αρχή θα απαιτούσε τη χρήση τους με διαφορετικό τρόπο, κάτι που πολύ πιο δύσκολο», γράφουν οι συν-συγγραφείς του έργου. «Αυτό το αποτέλεσμα υπογραμμίζει την ανάγκη ανάπτυξης μεθόδων για την αποτελεσματική επαναχρησιμοποίηση των δεξιοτήτων που αποκτήθηκαν μέσω της εκπαίδευσης κατά τη μεταφορά τους από το ένα περιβάλλον στο άλλο».

Η δουλειά που έγινε είναι πραγματικά εντυπωσιακή, αφού η προοπτική χρήσης αυτής της μεθόδου διδασκαλίας ξεπερνά πολύ τα όρια οποιουδήποτε παιχνιδιού. Οι ερευνητές λένε ότι το έργο τους είναι ένα σημαντικό βήμα προς τη δημιουργία τεχνητής νοημοσύνης με συμπεριφορά «βασισμένη στη φυσική» και «ανθρώπινη» συμπεριφορά που μπορεί να διαγνώσει ασθένειες, να προβλέψει τις δομές σύνθετων μορίων πρωτεΐνης και να αναλύσει αξονικές τομογραφίες.

Στο παρακάτω βίντεο μπορείτε να δείτε ξεκάθαρα πώς έγινε η όλη διαδικασία εκμάθησης, πώς η τεχνητή νοημοσύνη έμαθε την ομαδική εργασία και οι στρατηγικές της έγιναν όλο και πιο πονηρές και περίπλοκες.



Πηγή: 3dnews.ru

Προσθέστε ένα σχόλιο