Με βάση τις ψήφους των χρηστών στο Chatbot Arena, το μοντέλο Claude 3 Opus της Anthropic ξεπερνά τις επιδόσεις του μοντέλου GPT-4 Turbo του OpenAI.
Το Claude 3 Opus ξεπέρασε το GPT-4 Turbo στο Chatbot Arena. Για πρώτη φορά από τότε που έγινε διαθέσιμη η ανοιχτή πλατφόρμα για την αξιολόγηση μοντέλων τεχνητής νοημοσύνης (Μάιος 2023), το OpenAI έχασε την πρώτη θέση στην κατάταξη. Το Opus είναι το πιο ισχυρό από τα μοντέλα που ανακοινώθηκαν από την Anthropic στις αρχές Μαρτίου.
Claude 3 ανώτερο από το GPT-4
Όπως τόνισε ένας προγραμματιστής στο X, ο Βασιλιάς είναι νεκρός. Το GPT-4 καταλάμβανε πάντα την πρώτη θέση στην κατάταξη από την κυκλοφορία του Chatbot Arena. Το τελευταίο είναι μια πλατφόρμα που χρησιμοποιείται για την αξιολόγηση των μοντέλων τεχνητής νοημοσύνης που δημιουργούνται από τους χρήστες.
Αντί να χρησιμοποιεί τα πολλά διαθέσιμα σημεία αναφοράς για τη μέτρηση της απόδοσης (που κάνουν τις συγκρίσεις περίπλοκες), η Large Model Systems Organization (LMSYS) ανέπτυξε το Chatbot Arena. Οι χρήστες που επισκέπτονται την πλατφόρμα ιστού βλέπουν ένα πεδίο κειμένου για την προτροπή και δύο παράθυρα όπου θα γραφτεί η απάντηση από δύο ανώνυμα μοντέλα. Για κάθε απάντηση είναι απαραίτητο να ψηφίσετε την καλύτερη μέχρι να αναδειχθεί ο νικητής.
Με βάση τις ψήφους που ελήφθησαν (η κατάταξη ενημερώνεται στις 26 Μαρτίου), το Claude 3 Opus έχει καλύτερη απόδοση από τις εκδόσεις 1106 (Νοέμβριος 2023) και 0125 (Ιανουάριος 2024) του GPT-4 Turbo. Στην τέταρτη θέση βρίσκεται το Gemini Pro της Google. Δύο ακόμη μοντέλα από την Anthropic, συγκεκριμένα το Claude 3 Sonnet και το Haiku, ξεπερνούν τις εκδόσεις 0314 (Μάρτιος 2023) και 0613 (Ιούνιος 2023) του GPT-4.
Η «σύγκρουση» μεταξύ των chatbots θα συνεχιστεί τους επόμενους μήνες, επομένως η κατάταξη μπορεί να αλλάζει συχνά. Μέχρι αυτό το καλοκαίρι, το OpenAI αναμένεται να κυκλοφορήσει τον διάδοχο του GPT-4 Turbo (GPT-4.5 Turbo ή GPT-5).