Οι ερευνητές της Apple κυκλοφόρησαν ένα νέο μοντέλο που επιτρέπει στους χρήστες να περιγράφουν σε απλή γλώσσα τι θέλουν να αλλάξουν σε μια φωτογραφία χωρίς να αγγίξουν ποτέ το λογισμικό επεξεργασίας φωτογραφιών.
Το μοντέλο MGIE, πάνω στο οποίο η Apple εργάστηκε σε συνεργασία με το Πανεπιστήμιο της Καλιφόρνιας στη Σάντα Μπάρμπαρα, μπορεί να περικόψει, να αλλάξει το μέγεθος, να γυρίσει και να προσθέσει φίλτρα σε εικόνες, όλα μέσω κειμενικών οδηγιών.
Το MGIE, που σημαίνει MLLM-Guided Image Editing, μπορεί να εφαρμοστεί σε απλές και πιο σύνθετες εργασίες επεξεργασίας εικόνας, όπως η τροποποίηση συγκεκριμένων αντικειμένων σε μια φωτογραφία για να αποκτήσουν διαφορετικό σχήμα ή να βγουν πιο φωτεινά. Το μοντέλο συνδυάζει δύο διαφορετικές χρήσεις των πολυτροπικών γλωσσικών μοντέλων. Πρώτον, μαθαίνει πώς να ερμηνεύει τις υποδείξεις του χρήστη. Στη συνέχεια, “φαντάζεται” πώς θα έμοιαζε η επεξεργασία (το αίτημα για έναν πιο μπλε ουρανό σε μια φωτογραφία γίνεται αύξηση της φωτεινότητας στο τμήμα του ουρανού μιας εικόνας, για παράδειγμα).
Κατά την επεξεργασία μιας φωτογραφίας με το MGIE, οι χρήστες πρέπει απλώς να πληκτρολογήσουν τι θέλουν να αλλάξουν στην εικόνα. Το έγγραφο χρησιμοποίησε το παράδειγμα της επεξεργασίας μιας εικόνας μιας πίτσας πεπερόνι. Πληκτρολογώντας την προτροπή “κάντε την πιο υγιεινή”, προσθέτει γαρνιτούρες με λαχανικά. Μια φωτογραφία με τίγρεις στη Σαχάρα φαίνεται σκοτεινή, αλλά μετά την εντολή στο μοντέλο να “προσθέσει περισσότερη αντίθεση για να προσομοιώσει περισσότερο φως”, η εικόνα εμφανίζεται πιο φωτεινή.
“Αντί για σύντομη αλλά διφορούμενη καθοδήγηση, η MGIE αντλεί ρητή πρόθεση με οπτική επίγνωση και οδηγεί σε λογική επεξεργασία εικόνας. Διεξάγουμε εκτεταμένες μελέτες από διάφορες πτυχές της επεξεργασίας και αποδεικνύουμε ότι το MGIE μας βελτιώνει αποτελεσματικά την απόδοση, διατηρώντας παράλληλα την ανταγωνιστική αποδοτικότητα. Πιστεύουμε επίσης ότι το πλαίσιο καθοδήγησης MLLM μπορεί να συμβάλει στη μελλοντική έρευνα για την όραση και τη γλώσσα”, αναφέρουν οι ερευνητές στο έγγραφο.
Η Apple διέθεσε το MGIE μέσω του GitHub για λήψη, αλλά κυκλοφόρησε επίσης ένα web demo στο Hugging Face Spaces, αναφέρει το VentureBeat. Η εταιρεία δεν ανέφερε ποια είναι τα σχέδιά της για το μοντέλο πέρα από την έρευνα.
Ορισμένες πλατφόρμες δημιουργίας εικόνων, όπως το DALL-E 3 της OpenAI, μπορούν να εκτελέσουν απλές εργασίες επεξεργασίας φωτογραφιών σε εικόνες που δημιουργούν μέσω εισαγωγής κειμένου. Η Adobe, δημιουργός του Photoshop, στην οποία οι περισσότεροι άνθρωποι απευθύνονται για την επεξεργασία εικόνων, έχει επίσης το δικό της μοντέλο επεξεργασίας με τεχνητή νοημοσύνη. Το μοντέλο τεχνητής νοημοσύνης Firefly της τροφοδοτεί το generative fill, το οποίο προσθέτει δημιουργημένα φόντα στις φωτογραφίες.
Η Apple δεν έχει υπάρξει μεγάλος παίκτης στο χώρο της δημιουργικής τεχνητής νοημοσύνης, σε αντίθεση με τη Microsoft, τη Meta ή τη Google, αλλά ο διευθύνων σύμβουλος της Apple Tim Cook έχει δηλώσει ότι η εταιρεία θέλει να προσθέσει περισσότερες λειτουργίες τεχνητής νοημοσύνης στις συσκευές της φέτος. Τον Δεκέμβριο, οι ερευνητές της Apple κυκλοφόρησαν ένα πλαίσιο μηχανικής μάθησης ανοιχτού κώδικα με την ονομασία MLX για να διευκολύνουν την εκπαίδευση μοντέλων AI σε τσιπ Apple Silicon.