in Innovation, Research

Αποκάλυψη – Είμαστε πιο κοντά από ποτέ στην «αθανασία»;

To Voicebox υπόσχεται εντυπωσιακά αποτελέσματα

20 Ιουνίου, 2023, 9:00 πμ

Οι ραγδαίες εξελίξεις στο χώρο της τεχνητής νοημοσύνης συνεχίζονται και τώρα η Meta έκανε ένα σημαντικό βήμα προς την «αθανασία» μέσω AI, με την παρουσίαση του Voicebox, ενός εξελιγμένου μοντέλου παραγωγής φωνής από κείμενο.

Αυτή η νέα τεχνητή νοημοσύνη φιλοδοξεί να κάνει ότι κατάφερε το ChatGPT για το κείμενο και το Dall-E για τη δημιουργία εικόνων, παράγοντας τρομερά ρεαλιστικά ηχητικά αποσπάσματα από κείμενο.

Θεωρητικά, με το Voicebox, η φωνή οποιοδήποτε διάσημου και όχι μόνο θα μπορούσε να συνεχίσει να χρησιμοποιείται ακόμη και μετά το θάνατό του.

Σύμφωνα με τη Meta, το Voicebox λειτουργεί ως ένα “non-autoregressive flow-matching” μοντέλο που έχει εκπαιδευτεί για να συμπληρώνει την ομιλία, δεδομένου του ηχητικού πλαισίου και του κειμένου. Η τεχνητή νοημοσύνη εκπαιδεύτηκε με περισσότερες από 50.000 ώρες δεδομένων ήχου από δημόσια προσβάσιμα audiobooks σε διάφορες γλώσσες, συμπεριλαμβανομένων των αγγλικών, γαλλικών, ισπανικών, γερμανικών, πολωνικών και πορτογαλικών. Αυτό το πλούσιο και ποικιλόμορφο σύνολο δεδομένων επιτρέπει στο Voicebox να δημιουργεί ομιλία που ακούγεται σαν πραγματική, ανεξάρτητα από τη γλώσσα. Μάλιστα, το εντυπωσιακό είναι ότι η συνθετική ομιλία που παράγεται από το Voicebox είχε ποσοστό σφάλματος μόνο 1%, μια σημαντική βελτίωση σε σύγκριση με την κατά 45 έως 70% εξασθένιση που παρατηρείται στα υπάρχοντα μοντέλα μετατροπής κειμένου σε ομιλία (TTS).

Η καινοτόμος διαδικασία εκπαίδευσης περιλάμβανε μεταξύ άλλων τη δυνατότητα του μοντέλου να προβλέπει τμήματα ομιλίας με βάση το περιβάλλον και το σχετικό κείμενο. Όπως περιγράφουν οι ερευνητές της Meta, αυτό επιτρέπει στο μοντέλο να παράγει συγκεκριμένα τμήματα μιας ηχογράφησης, χωρίς να αναδημιουργεί ολόκληρη την είσοδο. Επιπλέον, το Voicebox μπορεί και να επεξεργάζεται κλιπ ήχου, να φιλτράρει το θόρυβο και να διορθώνει ακόμη και λανθασμένες εκφωνήσεις, όπως κάνει δηλαδή η χρήση λογισμικού επεξεργασίας εικόνας για τη βελτίωση φωτογραφιών. Συνολικά, η τεχνητή νοημοσύνη της Meta φέρεται να ξεπερνά κατά πολύ τα Text-to-Speech μοντέλα τελευταίας τεχνολογίας όσον αφορά την ευκρίνεια και την “ηχητική ομοιότητα” και λειτουργεί έως και 20 φορές ταχύτερα.

Ωστόσο, η Meta αποφάσισε να μη διαθέσει προς το παρόν κάποια εφαρμογή ή τον πηγαίο της κώδικα στο κοινό, επικαλούμενη πιθανούς κινδύνους κατάχρησης. Μπορείτε να ακούσετε παραδείγματα και να μάθετε περισσότερα πατώντας εδώ.