Η Google παραδέχεται ότι το viral βίντεο της τεχνητής νοημοσύνης ήταν επεξεργασμένο

25 Δεκεμβρίου, 2023, 1:00 μμ

Ένα βίντεο που παρουσίαζε τις δυνατότητες του μοντέλου τεχνητής νοημοσύνης (AI) της Google και φαινόταν υπερβολικά καλό για να είναι αληθινό, ενδέχεται να είναι ακριβώς έτσι.

Η δοκιμή Gemini, η οποία έχει 1,6 εκατομμύρια προβολές στο YouTube, δείχνει μια εντυπωσιακή αλληλεπίδραση όπου μια τεχνητή νοημοσύνη ανταποκρίνεται σε προφορικές εντολές και βίντεο σε πραγματικό χρόνο.

Στην περιγραφή του βίντεο, η Google δήλωσε πως όλα δεν ήταν όπως φάνηκαν – είχε επιταχύνει τις ανταποκρίσεις για την επίδειξη.

Ωστόσο, παραδέχτηκε επίσης πως η τεχνητή νοημοσύνη δεν ανταποκρινόταν καθόλου σε φωνητικά ή βίντεο.

Σε ένα blog post που δημοσιεύτηκε την ίδια στιγμή με τη δοκιμή, η Google αποκαλύπτει πώς έγινε στην πραγματικότητα το βίντεο.

Στη συνέχεια, όπως ανέφερε πρώτα το Bloomberg Opinion, η Google επιβεβαίωσε στο BBC ότι η παραγωγή του βίντεο έγινε προκαλώντας την τεχνητή νοημοσύνη με “χρήση στιγμιοτύπων από το υλικό και προτροπή μέσω κειμένου”.

“Το βίντεο μας με τη δοκιμή Gemini δείχνει πραγματικές προτροπές και αποτελέσματα από το Gemini,” δήλωσε εκπρόσωπος της Google.

“Το δημιουργήσαμε για να παρουσιάσουμε τη γκάμα των δυνατοτήτων του Gemini και για να εμπνεύσουμε τους προγραμματιστές.”

Η δοκιμή

Στη δοκιμή, ένα άτομο κάνει μια σειρά ερωτήσεων στην τεχνητή νοημοσύνη της Google ενώ δείχνει αντικείμενα στην οθόνη.

Για παράδειγμα, σε ένα σημείο ο δείχτης κρατάει ένα παπάκι από καουτσούκ και ρωτάει το Gemini αν θα φουσκώσει.

Αρχικά, το Gemini δεν είναι σίγουρο για το υλικό από το οποίο είναι φτιαγμένο, αλλά μετά από το πιέσιμο του αντικειμένου – και τη σημείωση ότι αυτό προκαλεί ένα ήχο – η τεχνητή νοημοσύνη αναγνωρίζει σωστά το αντικείμενο.

Ωστόσο, αυτό που φαίνεται στο βίντεο από μια πρώτη ματιά είναι πολύ διαφορετικό από το τι συνέβη πραγματικά για να παράγουν τις προτροπές.

Η τεχνητή νοημοσύνη στην πραγματικότητα είδε μια στατική εικόνα του παπακιού και της ζητήθηκε από ποιο υλικό είναι φτιαγμένο. Στη συνέχεια, της δόθηκε μια κειμενική προτροπή που εξηγούσε ότι το παπάκι κάνει έναν πιεστικό ήχο όταν πιέζεται, με αποτέλεσμα τη σωστή αναγνώριση.

Σε ένα άλλο εντυπωσιακό σημείο, ο άνθρωπος εκτελεί ένα κόλπο με κύπελλα και μπάλες – ένα μαγικό κόλπο όπου μια μπάλα είναι κρυμμένη κάτω από ένα από τα τρία κινούμενα κύπελλα – και η τεχνητή νοημοσύνη μπορεί να προβλέψει πού μετακινήθηκε.

Αλλά και πάλι, καθώς η τεχνητή νοημοσύνη δεν ανταποκρίνεται σε ένα βίντεο, αυτό επιτεύχθηκε πραγματικά δείχνοντάς της μια σειρά από στατικές εικόνες.

Στην ανάρτησή της στο blog, η Google εξήγησε ότι στην πραγματικότητα ενημέρωσε την τεχνητή νοημοσύνη για τη θέση μιας μπάλας κάτω από τρία κύπελλα και της έδειξε εικόνες που αντιπροσωπεύουν την ανταλλαγή των κυπέλλων.

Η Google διευκρίνισε ότι η δοκιμή δημιουργήθηκε καταγράφοντας υλικό από το βίντεο, με σκοπό να “δοκιμάσει τις δυνατότητες του Gemini σε μια ευρεία γκάμα προκλήσεων”.

Αν και οι ακολουθίες συντετμήθηκαν και χρησιμοποιήθηκαν στιγμιότυπα, ο φωνητικός σχολιασμός από το βίντεο προέρχεται απευθείας από τις γραπτές προτροπές που δόθηκαν στο Gemini.

Ωστόσο, υπάρχει ένα άλλο στοιχείο στο βίντεο που αποκαλύπτει μια ακόμα διαστρέβλωση της αλήθειας.

Σε ένα σημείο, ο χρήστης τοποθετεί ένα χάρτη του κόσμου και ρωτάει την τεχνητή νοημοσύνη: “Με βάση αυτό που βλέπεις, δημιούργησε ένα παιχνίδι ιδέα… και χρησιμοποίησε emojis.”

Η τεχνητή νοημοσύνη απαντά εμφανίζοντας ότι δημιούργησε ένα παιχνίδι με τίτλο “μαντέψτε τη χώρα”, στο οποίο δίνει ενδείξεις (όπως ένα καγκουρό και ένα κοάλα) και απαντά σε μια σωστή εικασία του χρήστη δείχνοντας μια χώρα (σε αυτή την περίπτωση, την Αυστραλία).

Ωστόσο, σύμφωνα με το blog της Google, η τεχνητή νοημοσύνη δεν εφηύρε πραγματικά αυτό το παιχνίδι.

Αντίθετα, η τεχνητή νοημοσύνη δέχθηκε τις ακόλουθες οδηγίες: “Ας παίξουμε ένα παιχνίδι. Σκέψου μια χώρα και δώσε μου ένα στοιχείο. Το στοιχείο πρέπει να είναι αρκετά συγκεκριμένο ώστε να υπάρχει μόνο μια σωστή χώρα. Θα προσπαθήσω να δείξω τη χώρα σε ένα χάρτη,” έλεγε η προτροπή.

Ο χρήστης έδωσε στη συνέχεια στην τεχνητή νοημοσύνη παραδείγματα σωστής και λανθασμένης απάντησης.

Μετά από αυτό το σημείο, το Gemini ήταν σε θέση να δημιουργήσει στοιχεία και να αναγνωρίσει εάν ο χρήστης έδειχνε τη σωστή χώρα ή όχι από στιγμιότυπα ενός χάρτη.

Είναι εντυπωσιακό – αλλά δεν είναι το ίδιο με το να ισχυρίζεται η τεχνητή νοημοσύνη ότι εφηύρε το παιχνίδι.

Το μοντέλο της Google είναι εντυπωσιακό ανεξάρτητα από τη χρήση στατικών εικόνων και προτροπών βασισμένων σε κείμενο – αλλά αυτά τα γεγονότα σημαίνουν ότι οι δυνατότητές της είναι πολύ παρόμοιες με αυτές του GPT-4 της OpenAI.

Και είναι σημαντικό να σημειωθεί ότι το βίντεο δόθηκε στη δημοσιότητα μόλις δύο εβδομάδες μετά από μια περίοδο ασυνήθιστου χάους στον χώρο της τεχνητής νοημοσύνης, μετά τη δραματική απόλυση – και επαναπρόσληψη – του Sam Altman ως CEO της OpenAI.

Δεν είναι σαφές ποιος από τους δύο είναι πιο προηγμένος – αλλά η Google ενδέχεται ήδη να προσπαθεί να προλάβει την OpenAI, μετά τη δήλωση του κ. Altman στη Financial Times ότι η εταιρεία εργάζεται στην επόμενη έκδοση της τεχνητής νοημοσύνης της.