Οι ερευνητές προτείνουν έναν νέο τρόπο που χρησιμοποιεί “deep learning” για τη δημιουργία τρισδιάστατων ολογραμμάτων από δισδιάστατες έγχρωμες εικόνες.
Τα ολόγραμμα παρέχουν μια τρισδιάστατη (3D) απεικόνιση των αντικειμένων, προσφέροντας ένα επίπεδο λεπτομέρειας που οι δισδιάστατες (2D) εικόνες δεν μπορούν να ταιριάξουν. Η ρεαλιστική και αφυπνιστική απεικόνιση των 3D αντικειμένων καθιστά τα ολόγραμμα εξαιρετικά χρήσιμα σε διάφορους τομείς, συμπεριλαμβανομένης της ιατρικής απεικόνισης, της κατασκευής και της εικονικής πραγματικότητας.
Η παραδοσιακή ολογρραφία περιλαμβάνει την καταγραφή των τρισδιάστατων δεδομένων ενός αντικειμένου και των αλληλεπιδράσεών του με το φως, μια διαδικασία που απαιτεί υψηλή υπολογιστική ισχύ και τη χρήση εξειδικευμένων φωτογραφικών μηχανών για την καταγραφή τρισδιάστατων εικόνων. Αυτή η πολυπλοκότητα έχει περιορίσει την ευρεία υιοθέτηση των ολογραμμάτων.
“Deep learning” στη Δημιουργία Ολογραμμάτων
Τον τελευταίο καιρό, έχουν προταθεί πολλές μεθόδους βαθού μάθηματος για τη δημιουργία ολογραμμάτων. Μπορούν να δημιουργήσουν ολόγραμμα απευθείας από τα τρισδιάστατα δεδομένα που καταγράφονται χρησιμοποιώντας κάμερες RGB-D που καταγράφουν και τα χρώματα και τις πληροφορίες βάθους ενός αντικειμένου. Αυτή η προσέγγιση παρακάμπτει πολλές υπολογιστικές προκλήσεις που συνδέονται με την κανονική μέθοδο και αντιπροσωπεύει μια ευκολότερη προσέγγιση για τη δημιουργία ολογραμμάτων.
Επαναστατώντας την Ολογραφία με μια Νέα Προσέγγιση
Τώρα, μια ομάδα ερευνητών υπό την ηγεσία του καθηγητή Tomoyoshi Shimobaba του Πτυχιακού Σχολείου Μηχανικής του Πανεπιστημίου Chiba προτείνει μια νέα προσέγγιση βασισμένη στο βαθύ μάθημα που περαιτέρω απλοποιεί τη δημιουργία ολογραμμάτων παράγοντας τρισδιάστατες εικόνες απευθείας από κανονικές δισδιάστατες έγχρωμες εικόνες που καταγράφονται χρησιμοποιώντας συνηθισμένες κάμερες. Σε αυτή τη μελέτη συμμετείχαν επίσης οι Yoshiyuki Ishii και Tomoyoshi Ito του Πτυχιακού Σχολείου Μηχανικής του Πανεπιστημίου Chiba, η οποία δημοσιεύτηκε πρόσφατα στο περιοδικό Optics and Lasers in Engineering.
Εξηγώντας τη λογική πίσω από αυτήν τη μελέτη, ο καθηγητής Shimobaba λέει: “Υπάρχουν πολλά προβλήματα στην επίτευξη ολογραφικών εμφανίσεων, συμπεριλαμβανομένης της απόκτησης τρισδιάστατων δεδομένων, του υπολογιστικού κόστους των ολογραμμάτων και της μετατροπής των εικόνων ολογραμμάτων ώστε να ανταποκρίνονται στα χαρακτηριστικά της συσκευής εμφάνισης ολογραμμάτων. Διεξαγάγαμε αυτήν τη μελέτη επειδή πιστεύουμε ότι το βαθύ μάθημα έχει εξελιχθεί γρήγορα τα τελευταία χρόνια και έχει το δυναμικό να λύσει αυτά τα προβλήματα.”
Η Τρισδιάστατη Ισορροπία του “Deep learning”
Η προτεινόμενη προσέγγιση χρησιμοποιεί τρία βαθιά νευρωνικά δίκτυα (DNNs) για τη μετατροπή μιας κανονικής 2D έγχρωμης εικόνας σε δεδομένα που μπορούν να χρησιμοποιηθούν για την εμφάνιση μιας τρισδιάστατης σκηνής ή αντικειμένου ως ολόγραμμα. Το πρώτο DNN χρησιμοποιεί μια έγχρωμη εικόνα που καταγράφεται με μια κανονική κάμερα ως είσοδο και προβλέπει σχετικό χάρτη βάθους, παρέχοντας πληροφορίες σχετικά με την τρισδιάστατη δομή της εικόνας.
Και η αρχική RGB εικόνα και ο χάρτης βάθους που δημιουργήθηκε από το πρώτο DNN χρησιμοποιούνται στη συνέχεια από το δεύτερο DNN για τη δημιουργία ενός ολογράμματος. Τέλος, το τρίτο DNN βελτιώνει το ολόγραμμα που δημιουργήθηκε από το δεύτερο DNN, καθιστώντας το κατάλληλο για εμφάνιση σε διάφορες συσκευές.
Οι ερευνητές ανέφεραν ότι ο χρόνος που απαιτεί η προτεινόμενη μέθοδος για την επεξεργασία δεδομένων και τη δημιουργία ενός ολόγραμματος ήταν υπερτοίχως καλύτερος από αυτόν ενός γραφικού επεξεργαστικού μονάδας υψηλής απόδοσης.
“Ένα άλλο σημαντικό πλεονέκτημα της προσέγγισής μας είναι ότι η αναπαραγόμενη εικόνα του τελικού ολόγραμματος μπορεί να αντιπροσωπεύει μια φυσική τρισδιάστατη εικόνα. Επιπλέον, εφόσον δεν χρησιμοποιείται πληροφορία βάθους κατά τη δημιουργία του ολόγραμματος, αυτή η προσέγγιση είναι οικονομική και δεν απαιτεί συσκευές εικόνας 3D όπως οι κάμερες RGB-D μετά την εκπαίδευση”, πρόσθεσε ο καθηγητής Σιμομπάμπα κατά τη συζήτηση περαιτέρω των αποτελεσμάτων.
Προοπτικές Εφαρμογές και Συμπεράσματα Στο μέλλον, αυτή η προσέγγιση μπορεί να βρει πιθανές εφαρμογές σε συσκευές heads-up και head-mounted displays για τη δημιουργία υψηλής πιστότητας τρισδιάστατων εμφανίσεων. Επίσης, μπορεί να επανασχεδιάσει τη δημιουργία ενός ολογραφικού οπτικού πίνακα σε οχήματα, ο οποίος ίσως να είναι σε θέση να παρουσιάσει στους επιβάτες σε τρισδιάστατη μορφή τις απαραίτητες πληροφορίες σχετικά με ανθρώπους, δρόμους και πινακίδες. Η προτεινόμενη προσέγγιση αναμένεται, συνεπώς, να ανοίξει τον δρόμο για την ενίσχυση της ανάπτυξης της ολοκληρωμένης τεχνολογίας ολογραφίας.