in Innovation

Νέα AI τεχνολογία – Πλέον μπορεί να φτιάξει 3D περιβάλλοντα από αντανακλάσεις ματιών

Ένα επίτευγμα που κάποτε έμοιαζε επιστημονική φαντασία

30 Ιουνίου, 2023, 12:00 μμ

Ερευνητές του Πανεπιστημίου του Μέριλαντ ανέπτυξαν μια καινοτόμο τεχνολογία τεχνητής νοημοσύνης (AI) που μπορεί να ανακατασκευάσει τρισδιάστατα περιβάλλοντα αναλύοντας τις αντανακλάσεις που καταγράφονται στα ανθρώπινα μάτια.

Η τεχνολογία αυτή βασίζεται στα νευρωνικά πεδία ακτινοβολίας (NeRF) και υπόσχεται εφαρμογές στην όραση υπολογιστών, τη βιομετρία και την εγκληματολογία.

Το NeRF είναι μια τεχνική τεχνητής νοημοσύνης που παράγει ρεαλιστικά τρισδιάστατα μοντέλα από 2D φωτογραφίες. Χρησιμοποιώντας νευρωνικά δίκτυα, μαθαίνει την πυκνότητα και τις χρωματικές πληροφορίες των αντικειμένων σε μια σκηνή και τα αναπαριστά από διαφορετικές οπτικές γωνίες.

Ωστόσο, το NeRF απαιτεί συνήθως εικόνες υψηλής ποιότητας και πολλαπλές προοπτικές για να λειτουργήσει αποτελεσματικά.

Οι ερευνητές είχαν όμως ως στόχο να εφαρμόσουν το NeRF σε μια πιο δύσκολη πηγή: τις αντανακλάσεις των ματιών που λαμβάνονται από φωτογραφίες πορτραίτων. Υπέθεσαν ότι τα μάτια λειτουργούν ως καμπύλοι καθρέφτες, αντανακλώντας το περιβάλλον και ενδεχομένως παρέχοντας επαρκείς πληροφορίες για να προκύψει η τρισδιάστατη δομή της σκηνής.

Για να ελέγξουν την υπόθεσή τους, οι ερευνητές τράβηξαν πολυάριθμες εικόνες υψηλής ανάλυσης του προσώπου ενός ατόμου, ενώ κοίταζε διάφορα αντικείμενα μέσα σε ένα χώρο. Στη συνέχεια επικεντρώθηκαν στην απομόνωση και στην ανάλυση των αντανακλάσεων των ματιών, εκτιμώντας την κατεύθυνση του βλέμματος των ματιών σε κάθε εικόνα.

Τα δεδομένα αυτά χρησιμοποιήθηκαν για την εκπαίδευση μιας τροποποιημένης έκδοσης του NeRF, ειδικά προσαρμοσμένης για την ανακατασκευή σκηνών με τη χρήση των αντανακλάσεων των ματιών.

Σύμφωνα με τα αποτελέσματα που δημοσιεύθηκαν, η τεχνολογία μπορεί πράγματι να παράγει λογικές τρισδιάστατες αναπαραστάσεις απλών σκηνών, όπως ένα τραπέζι με μια λάμπα και ένα βιβλίο ή ένα άτομο που κρατάει ένα παιχνίδι. Παρόλο που οι ανακατασκευές εμφανίζονταν θολές και με αρκετό θόρυβο λόγω της χαμηλής ανάλυσης και της παραμόρφωσης των αντανακλάσεων των ματιών, εξακολουθούσαν να είναι αναγνωρίσιμες και να συνάδουν με τις πραγματικές σκηνές.

Οι ερευνητές επιχείρησαν βέβαια να εφαρμόσουν την τεχνολογία τους και σε σενάρια του πραγματικού κόσμου, αναλύοντας βίντεο κλιπ με τη Miley Cyrus και τη Lady Gaga. Ωστόσο, σε αυτές τις περιπτώσεις αντιμετώπισαν μεγάλες προκλήσεις λόγω της χαμηλής ποιότητας και της μεταβλητότητας των αντανακλάσεων των ματιών σε αυτά τα βίντεο. Ήταν σε θέση να διακρίνουν μόνο ασαφή σχήματα, όπως ένα πλέγμα LED ή ένα τρίποδο κάμερας.

Προφανώς οι ερευνητές αναγνώρισαν ότι η τεχνολογία τους έχει αρκετούς περιορισμούς και εμπόδια που πρέπει να ξεπεραστούν, αλλά παράλληλα τόνισαν και τα πιθανά οφέλη και τις εφαρμογές της.