Δεν έχει περάσει πολύς καιρός από τότε που το OpenAI παρουσίασε το Sora, το οποίο εντυπωσίασε και τρόμαξε πολλούς ανθρώπους με την ικανότητά του να δημιουργεί (κάπως) ρεαλιστικά βίντεο κλιπ χωρίς μηνύματα κειμένου. Η δημιουργία εικόνων AI έχει βελτιωθεί πολύ τους τελευταίους μήνες, οπότε όπως θα περίμενε κανείς, το επόμενο φυσικό βήμα είναι το βίντεο. Η Google βγαίνει επίσης με τις δικές της μεθόδους δημιουργίας βίντεο, με νέα μοντέλα AI υπό την ομπρέλα του Imagen 2 να υπόσχονται επίσης μεγάλα πράγματα.
Η Google παρουσίασε το Imagen 2, μια οικογένεια μοντέλων στην πλατφόρμα Vertex AI. Η Google δέχθηκε πυρά επειδή το μοντέλο δημιουργίας εικόνας της στο Gemini ήταν λίγο πυρκαγιά από σκουπίδια. Καταργήθηκε και ενώ το Gemini δεν περιλαμβάνει το Imagen 2 (τουλάχιστον όχι αμέσως), έρχεται με μια σειρά βελτιώσεων που το καθιστούν συνολικά καλύτερο για τη δημιουργία εικόνων ή ακόμα και βίντεο.
Οι βελτιώσεις στο Imagen 2 περιλαμβάνουν λειτουργίες inpainting και outpainting, επιτρέποντας χειρισμό εικόνας, όπως αφαίρεση ανεπιθύμητων στοιχείων ή προσθήκη νέων στοιχείων. Η πιο σημαντική ενημέρωση, ωστόσο, είναι η εισαγωγή των “εικόνων που μετατρέπονται σε ζωντανό κείμενο”, που επιτρέπει τη δημιουργία σύντομων βίντεο από εισαγωγές κειμένου.
Ωστόσο, θα πρέπει να έχετε κατά νου ότι αυτό δεν είναι ο Σόρα. Σε σύγκριση με τα υπάρχοντα εργαλεία δημιουργίας βίντεο, οι δυνατότητες του Imagen 2 ενδέχεται να υπολείπονται όσον αφορά την ανάλυση και τις επιλογές προσαρμογής. Θα πρέπει να δούμε πόσο καλά κάνει στην πραγματική χρήση. Είναι επίσης λίγο τεχνικό, αλλά αυτό δημιουργεί “ζωντανές εικόνες”, οι οποίες είναι σύντομα κλιπ 4 δευτερολέπτων. Ωστόσο, εξακολουθεί να είναι μια αρχή και αυτό θα μπορούσε να χρησιμεύσει ως βάση για ένα πραγματικό μοντέλο κειμένου σε βίντεο μέσα στους επόμενους μήνες ή χρόνια.
To address concerns regarding deepfakes, Google incorporates SynthID technology to apply cryptographic watermarks to live images, aiming for authenticity and safety. Despite Google’s emphasis on safety measures, questions remain about the effectiveness of its approach and transparency regarding training data sources. The absence, for one, of an opt-out mechanism for creators whose work may be included in the training data might raise eyebrows for some. Additionally, Google’s generative AI indemnification policy does not cover text-to-live images, leaving customers vulnerable to potential copyright claims.
We’ll have to wait and see whether Google makes this publicly accessible in any way. We might hear more once Google I/O rolls around.