Η νέα έρευνα δείχνει νέες ελπίδες για τη “σύνθεση γενικεύσεων”
Οι άνθρωποι κατανοούν από φύσης πώς να συσχετίζουν έννοιες. Μόλις μάθουν την έννοια του “ξεφεύγω,” καταλαβαίνουν αμέσως τι σημαίνει “ξεφεύγω δύο φορές γύρω από το δωμάτιο” ή “ξεφεύγω με τα χέρια ψηλά.”
Αλλά μπορούν οι μηχανές να σκέφτονται με αυτόν τον τρόπο; Τον προηγούμενο αιώνα, οι Jerry Fodor και Zenon Pylyshyn, φιλόσοφοι και γνωσιακοί επιστήμονες, υποστήριξαν ότι τα τεχνητά νευρικά δίκτυα – οι μηχανές που κινούν την τεχνητή νοημοσύνη και τη μηχανική μάθηση – δεν είναι ικανά να κάνουν αυτές τις συσχετίσεις, γνωστές ως “σύνθεση γενικεύσεων.” Ωστόσο, τις δεκαετίες από τότε, οι επιστήμονες έχουν αναπτύξει τρόπους για να εμβαθύνουν αυτήν την ικανότητα στα νευρικά δίκτυα και τεχνολογίες σχετικές, αλλά με μεικτή επιτυχία, κρατώντας έτσι ζωντανό αυτόν τον δεκαετή διάλογο.
Επαναστατική Τεχνική: Μετα-Μάθηση για την Σύνθεση
Οι ερευνητές του Πανεπιστημίου της Νέας Υόρκης και του Πανεπιστημίου Pompeu Fabra της Ισπανίας έχουν αναπτύξει μια τεχνική – που αναφέρεται στο περιοδικό Nature – που προωθεί τη δυνατότητα αυτών των εργαλείων, όπως το ChatGPT, να κάνουν συνθετικές γενικεύσεις. Αυτή η τεχνική, η Μετα-Μάθηση για τη Σύνθεση (MLC), υπερτερεί των υπαρχόντων προσεγγίσεων και είναι συγκρίσιμη, και σε ορισμένες περιπτώσεις καλύτερη, από την ανθρώπινη απόδοση. Η MLC επικεντρώνεται στην εκπαίδευση των νευρικών δικτύων – των μηχανών που κινούν το ChatGPT και σχετικές τεχνολογίες για την αναγνώριση φωνής και την επεξεργασία φυσικής γλώσσας – ώστε να γίνουν καλύτερα στη σύνθετη γενίκευση μέσα από την πρακτική.
Οι δημιουργοί των υπαρχόντων συστημάτων, συμπεριλαμβανομένων των μεγάλων μοντέλων γλώσσας, ελπίζαν ότι η σύνθετη γενίκευση θα προέκυπτε από τις τυπικές μεθόδους εκπαίδευσης, ή έχουν αναπτύξει εξειδικευμένες αρχιτεκτονικές για να επιτύχουν αυτές τις ικανότητες. Αντίθετα, η MLC δείχνει πώς η συγκεκριμένη πρακτική αυτών των δεξιοτήτων επιτρέπει σε αυτά τα συστήματα να απελευθερώσουν νέες δυνάμεις, σημειώνουν οι συγγραφείς.
“Για 35 χρόνια, οι ερευνητές στις γνωστικές επιστήμες, την τεχνητή νοημοσύνη, τη γλωσσολογία και τη φιλοσοφία έχουν συζητήσει εάν τα νευρωνικά δίκτυα μπορούν να επιτύχουν ανθρώπινη συστηματική γενίκευση,” δηλώνει ο Brenden Lake, βοηθός καθηγητής στο Κέντρο Επιστήμης Δεδομένων του NYU και του Τμήματος Ψυχολογίας και ένας από τους συγγραφείς της μελέτης. “Έχουμε δείξει, για πρώτη φορά, ότι ένα γενικό νευρωνικό δίκτυο μπορεί να μιμηθεί ή να υπερβεί την ανθρώπινη συστηματική γενίκευση σε μια άμεση σύγκριση.”
Πώς Λειτουργεί η MLC
Κατά την εξερεύνηση της πιθανότητας ενίσχυσης της σύνθετης μάθησης στα νευρωνικά δίκτυα, οι ερευνητές δημιούργησαν τη MLC, μια νέα διαδικασία μάθησης κατά την οποία ένα νευρωνικό δίκτυο ενημερώνεται συνεχώς για να βελτιώσει τις δεξιότητές του μέσα από μια σειρά επεισοδίων. Σε κάθε επεισόδιο, η MLC λαμβάνει ένα νέο λέξη και της ζητείται να τη χρησιμοποιήσει σύνθετα – για παράδειγμα, να πάρει τη λέξη “αλμά” και στη συνέχεια να δημιουργήσει νέους συνδυασμούς λέξεων, όπως “αλμά δύο φορές” ή “αλμά γύρω δύο φορές.” Η MLC στη συνέχεια λαμβάνει ένα νέο επεισόδιο που περιλαμβάνει μια διαφορετική λέξη, και ούτω καθεξής, κάθε φορά βελτιώνοντας τις σύνθετες δεξιότητες του δικτύου.
Δοκιμή της Τεχνικής
Για να δοκιμάσουν την αποτελεσματικότητα της MLC, ο Brenden Lake, συν-διευθυντής της Πρωτοβουλίας Νου, Εγκεφάλου και Μηχανών του Πανεπιστημίου της Νέας Υόρκης, και ο Marco Baroni, ερευνητής στο Καταλανικό Ινστιτούτο Έρευνας και Προηγμένων Σπουδών και καθηγητής στο Τμήμα Μετάφρασης και Γλωσσολογίας του Πανεπιστημίου Pompeu Fabra, πραγματοποίησαν μια σειρά πειραμάτων με ανθρώπους που ήταν ταυτόστικα με τα έργα που εκτέλεσε η MLC.
Επιπλέον, αντί να μάθουν τη σημασία πραγματικών λέξεων – όρους που οι άνθρωποι θα γνώριζαν ήδη – έπρεπε επίσης να μάθουν τη σημασία ανόητων όρων (π.χ., “ζαπ” και “νταξ”) όπως τους καθορίσανε οι ερευνητές και να ξέρουν πώς να τους εφαρμόσουν με διάφορους τρόπους. Η MLC απέδωσε εξίσου καλά με τους ανθρώπους – και, σε ορισμένες περιπτώσεις, καλύτερα από τους ανθρώπους. Η MLC και οι άνθρωποι επίσης υπερτερούσαν του ChatGPT και του GPT-4, που παρόλο που διαθέτουν εντυπωσιακές γενικές ικανότητες, είχαν δυσκολίες με αυτήν την εκπαιδευτική εργασία.
“Μεγάλα μοντέλα γλώσσας όπως το ChatGPT εξακολουθούν να αγωνίζονται με τη σύνθετη γενίκευση, αν και έχουν βελτιωθεί τα τελευταία χρόνια,” παρατηρεί ο Baroni, μέλος της Έρευνας Υπολογιστικής Γλωσσολογίας και Θεωρίας Γλωσσολογίας του Πανεπιστημίου Pompeu Fabra. “Αλλά νομίζουμε ότι η MLC μπορεί να βελτιώσει περαιτέρω τις σύνθετες δεξιότητες των μεγάλων μοντέλων γλώσσας.”