Ενισχυτική μάθηση ή εξελικτικές στρατηγικές; - Και τα δυο

Γεια σου Χαμπρ!

Δεν αποφασίζουμε συχνά να δημοσιεύουμε εδώ μεταφράσεις κειμένων δύο ετών, χωρίς κώδικα και σαφώς ακαδημαϊκού χαρακτήρα - αλλά σήμερα θα κάνουμε μια εξαίρεση. Ελπίζουμε ότι το δίλημμα που τίθεται στον τίτλο του άρθρου ανησυχεί πολλούς από τους αναγνώστες μας και έχετε ήδη διαβάσει τη θεμελιώδη εργασία για τις εξελικτικές στρατηγικές με την οποία αυτή η ανάρτηση υποστηρίζει στο πρωτότυπο ή θα τη διαβάσετε τώρα. Καλώς ήρθατε στη γάτα!

Ενισχυτική μάθηση ή εξελικτικές στρατηγικές; - Και τα δυο

Τον Μάρτιο του 2017, το OpenAI έκανε πάταγο στην κοινότητα βαθιάς μάθησης με το έγγραφο "Οι στρατηγικές εξέλιξης ως κλιμακούμενη εναλλακτική λύση στην ενισχυτική μάθηση" Αυτή η εργασία περιέγραψε εντυπωσιακά αποτελέσματα υπέρ του γεγονότος ότι η ενισχυτική μάθηση (RL) δεν έχει γίνει σφήνα και όταν εκπαιδεύουμε πολύπλοκα νευρωνικά δίκτυα, είναι σκόπιμο να δοκιμάζουμε άλλες μεθόδους. Στη συνέχεια ξέσπασε μια συζήτηση σχετικά με τη σημασία της ενισχυτικής μάθησης και το πόσο αξίζει το καθεστώς της ως «απαραίτητης» τεχνολογίας για τη διδασκαλία της επίλυσης προβλημάτων. Εδώ θέλω να πω ότι αυτές οι δύο τεχνολογίες δεν πρέπει να θεωρούνται ανταγωνιστικές, εκ των οποίων η μία είναι σαφώς καλύτερη από την άλλη. Αντίθετα, αλληλοσυμπληρώνονται τελικά. Πράγματι, αν σκεφτείς λίγο τι χρειάζεται για να δημιουργήσεις γενική AI και τέτοια συστήματα, τα οποία καθ' όλη τη διάρκεια της ύπαρξής τους θα ήταν ικανά να μάθουν, να κρίνουν και να σχεδιάσουν, τότε σχεδόν σίγουρα θα καταλήξουμε στο συμπέρασμα ότι θα απαιτηθεί αυτή ή η άλλη συνδυασμένη λύση. Παρεμπιπτόντως, ήταν ακριβώς αυτή η συνδυασμένη λύση στην οποία ήρθε η φύση, η οποία προίκισε τα θηλαστικά και άλλα ανώτερα ζώα με πολύπλοκη νοημοσύνη κατά τη διάρκεια της εξέλιξης.

Εξελικτικές Στρατηγικές

Η κύρια διατριβή του εγγράφου OpenAI ήταν ότι, αντί να χρησιμοποιούν ενισχυτική μάθηση σε συνδυασμό με την παραδοσιακή backpropagation, εκπαίδευσαν επιτυχώς ένα νευρωνικό δίκτυο για την επίλυση σύνθετων προβλημάτων χρησιμοποιώντας αυτό που αποκαλούσαν «εξελικτική στρατηγική» (ES). Αυτή η προσέγγιση ES συνίσταται στη διατήρηση μιας κατανομής βαρών σε όλο το δίκτυο, που περιλαμβάνει πολλούς πράκτορες που εργάζονται παράλληλα και χρησιμοποιώντας παραμέτρους που επιλέγονται από αυτήν την κατανομή. Κάθε πράκτορας λειτουργεί στο δικό του περιβάλλον και μετά την ολοκλήρωση ενός συγκεκριμένου αριθμού επεισοδίων ή σταδίων ενός επεισοδίου, ο αλγόριθμος επιστρέφει μια αθροιστική ανταμοιβή, εκφρασμένη ως βαθμολογία φυσικής κατάστασης. Λαμβάνοντας υπόψη αυτήν την τιμή, η κατανομή των παραμέτρων μπορεί να μετατοπιστεί σε πιο επιτυχημένους πράκτορες, στερώντας τους λιγότερο επιτυχημένους. Με την επανάληψη μιας τέτοιας λειτουργίας εκατομμύρια φορές με τη συμμετοχή εκατοντάδων πρακτόρων, είναι δυνατό να μετακινηθεί η κατανομή των βαρών σε ένα χώρο που θα επιτρέψει στους πράκτορες να διαμορφώσουν μια πολιτική υψηλής ποιότητας για την επίλυση της εργασίας που τους έχει ανατεθεί. Πράγματι, τα αποτελέσματα που παρουσιάζονται στο άρθρο είναι εντυπωσιακά: αποδεικνύεται ότι εάν εκτελέσετε χίλιους πράκτορες παράλληλα, τότε η ανθρωπόμορφη κίνηση σε δύο πόδια μπορεί να μάθει σε λιγότερο από μισή ώρα (ενώ ακόμη και οι πιο προηγμένες μέθοδοι RL απαιτούν περισσότερα έξοδα από μία ώρα σε αυτό). Για πιο λεπτομερείς πληροφορίες, προτείνω να διαβάσετε το εξαιρετικό post από τους συγγραφείς του πειράματος, καθώς και επιστημονικό άρθρο.

Ενισχυτική μάθηση ή εξελικτικές στρατηγικές; - Και τα δυο

Διαφορετικές στρατηγικές για τη διδασκαλία της ανθρωπόμορφης όρθιας βάδισης, που μελετήθηκαν χρησιμοποιώντας τη μέθοδο ES από το OpenAI.

Μαύρο κουτί

Το μεγάλο πλεονέκτημα αυτής της μεθόδου είναι ότι μπορεί εύκολα να παραλληλιστεί. Ενώ οι μέθοδοι RL, όπως το A3C, απαιτούν την ανταλλαγή πληροφοριών μεταξύ των νημάτων εργασίας και ενός διακομιστή παραμέτρων, το ES χρειάζεται μόνο εκτιμήσεις καταλληλότητας και γενικευμένες πληροφορίες κατανομής παραμέτρων. Λόγω αυτής της απλότητας, αυτή η μέθοδος είναι πολύ μπροστά από τις σύγχρονες μεθόδους RL όσον αφορά τις δυνατότητες κλιμάκωσης. Ωστόσο, όλα αυτά δεν είναι μάταια: πρέπει να βελτιστοποιήσετε το δίκτυο σύμφωνα με την αρχή του μαύρου κουτιού. Σε αυτήν την περίπτωση, το "μαύρο κουτί" σημαίνει ότι κατά τη διάρκεια της εκπαίδευσης αγνοείται εντελώς η εσωτερική δομή του δικτύου και χρησιμοποιείται μόνο το συνολικό αποτέλεσμα (ανταμοιβή για το επεισόδιο) και εξαρτάται από αυτό εάν τα βάρη ενός συγκεκριμένου δικτύου θα κληρονομηθεί από τις επόμενες γενιές. Σε περιπτώσεις όπου δεν λαμβάνουμε πολλά σχόλια από το περιβάλλον - και σε πολλά παραδοσιακά προβλήματα RL η ροή των ανταμοιβών είναι πολύ αραιή - το πρόβλημα μεταβαίνει από ένα "εν μέρει μαύρο κουτί" σε ένα "εντελώς μαύρο κουτί". Σε αυτή την περίπτωση, μπορείτε να αυξήσετε σημαντικά την παραγωγικότητα, επομένως, φυσικά, ένας τέτοιος συμβιβασμός είναι δικαιολογημένος. «Ποιος χρειάζεται τις κλίσεις αν είναι ούτως ή άλλως απελπιστικά θορυβώδεις;» - αυτή είναι η γενική άποψη.

Ωστόσο, σε καταστάσεις όπου η ανατροφοδότηση είναι πιο ενεργή, τα πράγματα αρχίζουν να πηγαίνουν στραβά για το ES. Η ομάδα OpenAI περιγράφει πώς εκπαιδεύτηκε ένα απλό δίκτυο ταξινόμησης MNIST χρησιμοποιώντας ES και αυτή τη φορά η εκπαίδευση ήταν 1000 φορές πιο αργή. Το γεγονός είναι ότι το σήμα gradient στην ταξινόμηση εικόνων είναι εξαιρετικά κατατοπιστικό σχετικά με το πώς να διδάξετε το δίκτυο καλύτερη ταξινόμηση. Έτσι, το πρόβλημα είναι λιγότερο με την τεχνική RL και περισσότερο με αραιές ανταμοιβές σε περιβάλλοντα που παράγουν θορυβώδεις διαβαθμίσεις.

Η λύση της φύσης

Εάν προσπαθούμε να μάθουμε από το παράδειγμα της φύσης, σκεπτόμενοι τρόπους ανάπτυξης της τεχνητής νοημοσύνης, τότε σε ορισμένες περιπτώσεις η τεχνητή νοημοσύνη μπορεί να θεωρηθεί ως προσέγγιση προσανατολισμένη στο πρόβλημα. Άλλωστε, η φύση λειτουργεί μέσα σε περιορισμούς που απλώς δεν έχουν οι επιστήμονες υπολογιστών. Υπάρχει η άποψη ότι μια καθαρά θεωρητική προσέγγιση για την επίλυση ενός συγκεκριμένου προβλήματος μπορεί να προσφέρει πιο αποτελεσματικές λύσεις από τις εμπειρικές εναλλακτικές. Ωστόσο, εξακολουθώ να πιστεύω ότι θα άξιζε τον κόπο να δοκιμάσουμε πώς ένα δυναμικό σύστημα που λειτουργεί υπό ορισμένους περιορισμούς (η Γη) έχει δημιουργήσει παράγοντες (ζώα, ιδιαίτερα θηλαστικά) ικανούς για ευέλικτη και πολύπλοκη συμπεριφορά. Ενώ ορισμένοι από αυτούς τους περιορισμούς δεν ισχύουν σε κόσμους προσομοίωσης της επιστήμης δεδομένων, άλλοι είναι εντάξει.

Έχοντας εξετάσει τη διανοητική συμπεριφορά των θηλαστικών, βλέπουμε ότι σχηματίζεται ως αποτέλεσμα της πολύπλοκης αμοιβαίας επιρροής δύο στενά αλληλένδετων διαδικασιών: μαθαίνοντας από τις εμπειρίες των άλλων и Μαθαίνοντας κάνοντας. Το πρώτο συχνά ταυτίζεται με την εξέλιξη που καθοδηγείται από τη φυσική επιλογή, αλλά εδώ χρησιμοποιώ έναν ευρύτερο όρο για να λάβω υπόψη την επιγενετική, τα μικροβιώματα και άλλους μηχανισμούς που επιτρέπουν την ανταλλαγή εμπειριών μεταξύ γενετικά άσχετων οργανισμών. Η δεύτερη διαδικασία, η εκμάθηση από την εμπειρία, είναι όλες οι πληροφορίες που καταφέρνει να μάθει ένα ζώο σε όλη του τη ζωή, και αυτές οι πληροφορίες καθορίζονται άμεσα από την αλληλεπίδραση αυτού του ζώου με τον έξω κόσμο. Αυτή η κατηγορία περιλαμβάνει τα πάντα, από την εκμάθηση για την αναγνώριση αντικειμένων έως τον έλεγχο της επικοινωνίας που είναι εγγενής στη μαθησιακή διαδικασία.

Σε γενικές γραμμές, αυτές οι δύο διαδικασίες που συμβαίνουν στη φύση μπορούν να συγκριθούν με δύο επιλογές για τη βελτιστοποίηση των νευρωνικών δικτύων. Οι εξελικτικές στρατηγικές, όπου οι πληροφορίες σχετικά με τις κλίσεις χρησιμοποιούνται για την ενημέρωση πληροφοριών σχετικά με τον οργανισμό, πλησιάζουν στο να μάθουν από την εμπειρία άλλων. Ομοίως, οι μέθοδοι κλίσης, όπου η απόκτηση μιας ή της άλλης εμπειρίας οδηγεί σε μια ή την άλλη αλλαγή στη συμπεριφορά του πράκτορα, είναι συγκρίσιμες με τη μάθηση από τη δική του εμπειρία. Αν σκεφτούμε τους τύπους ευφυούς συμπεριφοράς ή ικανοτήτων που αναπτύσσει κάθε μία από αυτές τις δύο προσεγγίσεις στα ζώα, η σύγκριση γίνεται πιο έντονη. Και στις δύο περιπτώσεις, οι «εξελικτικές μέθοδοι» προωθούν τη μελέτη αντιδραστικών συμπεριφορών που επιτρέπουν σε κάποιον να αναπτύξει μια συγκεκριμένη φυσική κατάσταση (αρκετή για να παραμείνει ζωντανός). Το να μάθεις να περπατάς ή να δραπετεύεις από την αιχμαλωσία είναι σε πολλές περιπτώσεις ισοδύναμο με πιο «ενστικτώδεις» συμπεριφορές που είναι «συνδεδεμένες» σε πολλά ζώα σε γενετικό επίπεδο. Επιπλέον, αυτό το παράδειγμα επιβεβαιώνει ότι οι εξελικτικές μέθοδοι είναι εφαρμόσιμες σε περιπτώσεις όπου το σήμα ανταμοιβής είναι εξαιρετικά σπάνιο (για παράδειγμα, το γεγονός της επιτυχούς ανατροφής ενός μωρού). Σε μια τέτοια περίπτωση, είναι αδύνατο να συσχετιστεί η ανταμοιβή με οποιοδήποτε συγκεκριμένο σύνολο ενεργειών που μπορεί να έχουν πραγματοποιηθεί πολλά χρόνια πριν από την εμφάνιση αυτού του γεγονότος. Από την άλλη πλευρά, εάν λάβουμε υπόψη μια περίπτωση στην οποία το ES αποτυγχάνει, δηλαδή η ταξινόμηση εικόνων, τα αποτελέσματα είναι αξιοσημείωτα συγκρίσιμα με τα αποτελέσματα της μάθησης των ζώων που επιτεύχθηκαν σε αμέτρητα συμπεριφορικά ψυχολογικά πειράματα που διεξήχθησαν πάνω από 100 και πλέον χρόνια.

Μαθαίνοντας από τα ζώα

Οι μέθοδοι που χρησιμοποιούνται στην ενισχυτική μάθηση προέρχονται σε πολλές περιπτώσεις απευθείας από την ψυχολογική βιβλιογραφία λειτουργική προετοιμασία, και η λειτουργική προετοιμασία μελετήθηκε χρησιμοποιώντας ψυχολογία των ζώων. Παρεμπιπτόντως, ο Richard Sutton, ένας από τους δύο ιδρυτές της ενισχυτικής μάθησης, έχει πτυχίο στην ψυχολογία. Στο πλαίσιο της λειτουργικής προετοιμασίας, τα ζώα μαθαίνουν να συνδέουν την ανταμοιβή ή την τιμωρία με συγκεκριμένα πρότυπα συμπεριφοράς. Οι εκπαιδευτές και οι ερευνητές μπορούν να χειραγωγήσουν αυτή τη συσχέτιση ανταμοιβής με τον ένα ή τον άλλο τρόπο, προκαλώντας τα ζώα να επιδείξουν νοημοσύνη ή ορισμένες συμπεριφορές. Ωστόσο, η λειτουργική προετοιμασία, όπως χρησιμοποιείται στην έρευνα σε ζώα, δεν είναι τίποτα περισσότερο από μια πιο έντονη μορφή της ίδιας προετοιμασίας βάσει της οποίας τα ζώα μαθαίνουν σε όλη τους τη ζωή. Λαμβάνουμε συνεχώς σήματα θετικής ενίσχυσης από το περιβάλλον και προσαρμόζουμε τη συμπεριφορά μας ανάλογα. Στην πραγματικότητα, πολλοί νευροεπιστήμονες και γνωστικοί επιστήμονες πιστεύουν ότι οι άνθρωποι και άλλα ζώα λειτουργούν πραγματικά σε ακόμη υψηλότερο επίπεδο και μαθαίνουν συνεχώς να προβλέπουν το αποτέλεσμα της συμπεριφοράς τους σε μελλοντικές καταστάσεις με βάση πιθανές ανταμοιβές.

Ο κεντρικός ρόλος της πρόβλεψης στη μάθηση από την εμπειρία αλλάζει τη δυναμική που περιγράφεται παραπάνω με σημαντικούς τρόπους. Το σήμα που παλαιότερα θεωρούνταν πολύ αραιό (επεισοδιακή ανταμοιβή) αποδεικνύεται πολύ πυκνό. Θεωρητικά, η κατάσταση είναι κάπως έτσι: ανά πάσα στιγμή, ο εγκέφαλος του θηλαστικού υπολογίζει τα αποτελέσματα με βάση ένα περίπλοκο ρεύμα αισθητηριακών ερεθισμάτων και ενεργειών, ενώ το ζώο απλώς βυθίζεται σε αυτό το ρεύμα. Σε αυτή την περίπτωση, η τελική συμπεριφορά του ζώου δίνει ένα ισχυρό σήμα που πρέπει να χρησιμοποιηθεί για να καθοδηγήσει τη διόρθωση των προβλέψεων και την ανάπτυξη της συμπεριφοράς. Ο εγκέφαλος χρησιμοποιεί όλα αυτά τα σήματα για να βελτιστοποιήσει τις προβλέψεις (και, κατά συνέπεια, την ποιότητα των ενεργειών που γίνονται) στο μέλλον. Μια επισκόπηση αυτής της προσέγγισης δίνεται στο εξαιρετικό βιβλίο "Αβεβαιότητα σερφΟ γνωστικός επιστήμονας και φιλόσοφος Andy Clark. Εάν επεκτείνουμε τέτοιους συλλογισμούς στην εκπαίδευση τεχνητών παραγόντων, τότε αποκαλύπτεται ένα θεμελιώδες ελάττωμα στην ενισχυτική μάθηση: το σήμα που χρησιμοποιείται σε αυτό το παράδειγμα είναι απελπιστικά αδύναμο σε σύγκριση με αυτό που θα μπορούσε να είναι (ή θα έπρεπε να είναι). Σε περιπτώσεις όπου είναι αδύνατο να αυξηθεί ο κορεσμός του σήματος (ίσως επειδή είναι εγγενώς αδύναμος ή σχετίζεται με αντιδραστικότητα χαμηλού επιπέδου), είναι πιθανώς καλύτερο να προτιμάτε μια μέθοδο εκπαίδευσης που είναι καλά παραλληλισμένη, για παράδειγμα, ES.

Πιο πλούσια εκπαίδευση νευρωνικών δικτύων

Με βάση τις αρχές της υψηλότερης νευρικής δραστηριότητας που είναι εγγενής στον εγκέφαλο των θηλαστικών, ο οποίος είναι συνεχώς απασχολημένος με τις προβλέψεις, έχουν γίνει πρόσφατες πρόοδοι στην ενισχυτική μάθηση, η οποία πλέον λαμβάνει υπόψη τη σημασία τέτοιων προβλέψεων. Μπορώ αμέσως να σας προτείνω δύο παρόμοια έργα:

Και στις δύο αυτές εργασίες, οι συγγραφείς συμπληρώνουν την τυπική προεπιλεγμένη πολιτική των νευρωνικών τους δικτύων με αποτελέσματα προβλέψεων για την κατάσταση του περιβάλλοντος στο μέλλον. Στο πρώτο άρθρο, η πρόβλεψη εφαρμόζεται σε μια ποικιλία μεταβλητών μέτρησης και στο δεύτερο, η πρόβλεψη εφαρμόζεται σε αλλαγές στο περιβάλλον και στη συμπεριφορά του πράκτορα αυτού καθαυτού. Και στις δύο περιπτώσεις, το αραιό σήμα που σχετίζεται με τη θετική ενίσχυση γίνεται πολύ πιο πλούσιο και πιο ενημερωτικό, επιτρέποντας τόσο ταχύτερη μάθηση όσο και απόκτηση πιο περίπλοκων συμπεριφορών. Τέτοιες βελτιώσεις είναι διαθέσιμες μόνο με μεθόδους που χρησιμοποιούν σήμα gradient και όχι με μεθόδους που λειτουργούν με βάση την αρχή του "μαύρου κουτιού", όπως το ES.

Επιπλέον, η εκμάθηση από την εμπειρία και οι μέθοδοι κλίσης είναι πολύ πιο αποτελεσματικές. Ακόμη και σε περιπτώσεις όπου ήταν δυνατό να μελετηθεί ένα συγκεκριμένο πρόβλημα χρησιμοποιώντας τη μέθοδο ES γρηγορότερα από τη χρήση ενισχυτικής μάθησης, το κέρδος επιτεύχθηκε λόγω του γεγονότος ότι η στρατηγική ES περιλάμβανε πολλές φορές περισσότερα δεδομένα από ό,τι με την RL. Αναλογιζόμενοι σε αυτήν την περίπτωση τις αρχές της μάθησης στα ζώα, σημειώνουμε ότι το αποτέλεσμα της μάθησης από το παράδειγμα κάποιου άλλου εκδηλώνεται μετά από πολλές γενιές, ενώ μερικές φορές ένα μόνο γεγονός που βιώνεται από μόνο του είναι αρκετό για να μάθει το ζώο το μάθημα για πάντα. Ενώ όπως εκπαίδευση χωρίς παραδείγματα Αν και δεν ταιριάζει απόλυτα στις παραδοσιακές μεθόδους κλίσης, είναι πολύ πιο κατανοητό από το ES. Υπάρχουν, για παράδειγμα, προσεγγίσεις όπως π.χ νευρωνικός επεισοδιακός έλεγχος, όπου αποθηκεύονται οι τιμές Q κατά τη διάρκεια της εκπαιδευτικής διαδικασίας, μετά την οποία το πρόγραμμα τις ελέγχει πριν προβεί σε ενέργειες. Το αποτέλεσμα είναι μια μέθοδος κλίσης που σας επιτρέπει να μάθετε πώς να επιλύετε προβλήματα πολύ πιο γρήγορα από πριν. Σε ένα άρθρο για τον νευρωνικό επεισοδιακό έλεγχο, οι συγγραφείς αναφέρουν τον ανθρώπινο ιππόκαμπο, ο οποίος είναι ικανός να διατηρεί πληροφορίες για ένα γεγονός ακόμα και μετά από μια μοναδική εμπειρία και, ως εκ τούτου, παίζει κρίσιμος ρόλος στη διαδικασία της ανάμνησης. Τέτοιοι μηχανισμοί απαιτούν πρόσβαση στην εσωτερική οργάνωση του πράκτορα, κάτι που είναι επίσης, εξ ορισμού, αδύνατο στο παράδειγμα ES.

Λοιπόν, γιατί να μην τα συνδυάσετε;

Είναι πιθανό ότι μεγάλο μέρος αυτού του άρθρου μπορεί να αφήσει την εντύπωση ότι υποστηρίζω μεθόδους RL. Ωστόσο, στην πραγματικότητα πιστεύω ότι μακροπρόθεσμα η καλύτερη λύση είναι να συνδυαστούν και οι δύο μέθοδοι, έτσι ώστε η καθεμία να χρησιμοποιείται στις καταστάσεις στις οποίες ταιριάζει καλύτερα. Προφανώς, στην περίπτωση πολλών αντιδραστικών πολιτικών ή σε καταστάσεις με πολύ αραιά σήματα θετικής ενίσχυσης, το ES κερδίζει, ειδικά αν έχετε την υπολογιστική ισχύ στη διάθεσή σας για την οποία μπορείτε να εκτελέσετε μαζικά παράλληλη εκπαίδευση. Από την άλλη πλευρά, οι μέθοδοι κλίσης που χρησιμοποιούν ενισχυτική μάθηση ή εποπτευόμενη μάθηση θα είναι χρήσιμες όταν έχουμε πρόσβαση σε εκτενή ανατροφοδότηση και πρέπει να μάθουμε πώς να λύνουμε ένα πρόβλημα γρήγορα και με λιγότερα δεδομένα.

Περνώντας στη φύση, διαπιστώνουμε ότι η πρώτη μέθοδος, στην ουσία, θέτει τα θεμέλια για τη δεύτερη. Αυτός είναι ο λόγος για τον οποίο, κατά τη διάρκεια της εξέλιξης, τα θηλαστικά έχουν αναπτύξει εγκεφάλους που τους επιτρέπουν να μαθαίνουν εξαιρετικά αποτελεσματικά από πολύπλοκα σήματα που προέρχονται από το περιβάλλον. Άρα, το ερώτημα παραμένει ανοιχτό. Ίσως οι εξελικτικές στρατηγικές θα μας βοηθήσουν να εφεύρουμε αποτελεσματικές αρχιτεκτονικές μάθησης που θα είναι επίσης χρήσιμες για μεθόδους μάθησης με κλίση. Άλλωστε, η λύση που έχει βρει η φύση είναι όντως πολύ επιτυχημένη.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο