Μία νέα έρευνα του Stanford University μελέτησε την απόδοση του ChatGPT σε διαφορετικές εργασίες μέσα στη διάρκεια μερικών μηνών. Οι εργασίες περιλάμβαναν τη λύση μαθηματικών προβλημάτων, την απάντηση σε ευαίσθητες ερωτήσεις, την παραγωγή κώδικα λογισμικού και άλλα.
Τα αποτελέσματα έδειξαν λοιπόν πως οι ικανότητες του ChatGPT δεν ήταν συνεπείς. Στα μαθηματικά προβλήματα για παράδειγμα, το GPT-4 ξεκίνησε με σωστή αναγνώριση πρώτων αριθμών σε ποσοστό 97.6% το Μάρτιο, αλλά τρεις μήνες μετά η απόδοση αυτή έπεσε κατά 2.4%.
Όταν ρυθμίζουμε ένα large language model (LLM) για να βελτιώσει τις επιδόσεις του σε συγκεκριμένες εργασίες, αυτό μπορεί να έχει ακούσιες συνέπειες οι οποίες μπορεί να πλήξουν τις επιδόσεις του μοντέλου σε άλλες εργασίες. Υπάρχουν πολλών ειδών αλληλεξαρτήσεις στο πώς απαντά σωστά το μοντέλο, μερικές από τις οποίες μπορεί να οδηγήσουν σε χειροτέρευση της συμπεριφοράς που παρατηρούμε. – James Zou, καθηγητής επιστήμης υπολογιστών στο Stanford
Πρακτικά, διορθώσεις σε ένα κομμάτι του ChatGPT, μπορεί να έχουν ανεπιθύμητες επιπτώσεις σε άλλα κομμάτια του λόγω της πολυπλοκότητάς του.
Δυστυχώς, επειδή το ChatGPT λειτουργεί σαν ένα μαύρο κουτί, οι ερευνητές και το κοινό δεν μπορούν να δουν πώς δουλεύει. Η άρνηση της OpenAI να κάνει τον κώδικα open source, οδήγησε στην έλλειψη διαφάνειας στον τρόπο που λειτουργεί η AI.
Με τον καιρό, οι απαντήσεις του ChatGPT δεν έγιναν απλά λιγότερο ακριβείς, αλλά σταμάτησε να εξηγεί και το λογισμό πίσω από τις απαντήσεις. Είναι σαν να ζητάς από ένα μαθητή να σου εξηγήσει πώς έλυσε ένα μαθηματικό πρόβλημα βήμα-βήμα. Βοηθά τους ερευνητές να καταλάβουν πώς η AI κατέληξε σε αυτό το συμπέρασμα. Αλλά το ChatGPT σταμάτησε να αποκαλύπτει τα βήματα.