Η Microsoft παρουσίασε τη νεότερή της έρευνα πάνω στην τεχνητή νοημοσύνη και την μετατροπή κειμένου σε ομιλία, χάρη στο νέο της μοντέλο εκμάθησης που ονομάζεται VALL-E.
Αυτή η νέα AI έχει μια τρομακτική δυνατότητα, καθώς μπορεί να μιμηθεί τη φωνή κάποιου, μελετώντας απλώς ένα δείγμα ήχου 3 δευτερολέπτων. Σύμφωνα με το Arstechnica, το VALL-E μπορεί να ταιριάξει τόσο το ηχόχρωμα όσο και τον συναισθηματικό τόνο του ομιλητή, ακόμη και να την παραμορφώσει με ακουστική δωματίου.
Θα μπορεί κάποια στιγμή στο μέλλον να χρησιμοποιηθεί σε εξατομικευμένες ή υψηλής ποιότητας text-to-speech apps. Ωστόσο, όπως προείπαμε υπάρχει και ένα ζοφερό σενάριο, το οποίο το βλέπουμε αυτή τη στιγμή με τα deepfakes, τα οποία ενέχουν κακόβουλη χρήση. H Microsoft αποκαλεί το Vall-E ως ένα γλωσσικό μοντέλο νευρωνικού κωδικοποιητή, το οποίο προέρχεται από το νευρωνικό δίκτυο συμπίεσης Encodec της Meta, το οποίο δημιουργεί ήχο από την εισαγωγή κειμένου και μικρά δείγματα για τον ομιλητή-στόχο.
- Οι ερευνητές εκπαίδευσαν το VALL-E σε πάνω από 60.000 ώρες ομιλίας στην αγγλική γλώσσα από 7.000+ διαφορετικούς ομιλητές χάρη στην βιβλιοθήκη “LibriLight” της Meta.
Η ομάδα δείχνει ακριβώς πόσο καλά λειτουργεί αυτό στη σελίδα VALL-E στο Github. Για κάθε φράση που θέλουν να “μιλήσει” η τεχνητή νοημοσύνη, έχουν μια προτροπή τριών δευτερολέπτων από τον ομιλητή προς μίμηση, μια “βασική αλήθεια” του ίδιου ομιλητή να λέει μια άλλη φράση για σύγκριση, μια “βασική γραμμή” συμβατικής σύνθεσης κειμένου σε ομιλία και το δείγμα από το VALL-E στο τέλος.
Η Microsoft σχεδιάζει να αυξήσει τα δεδομένα εκπαίδευσης “για να βελτιώσει την απόδοση του μοντέλου σε όλες τις προοπτικές της προσωδίας, του ύφους ομιλίας και της ομοιότητας του ομιλητή”. Διερευνά επίσης τρόπους για τη μείωση των λέξεων που είναι ασαφείς ή παραλείπονται.
Η Microsoft επέλεξε να μην καταστήσει τον κώδικα ανοιχτού κώδικα, ενδεχομένως λόγω των κινδύνων που ενέχει η τεχνητή νοημοσύνη που μπορεί να βάλει λέξεις στο στόμα κάποιου. Πρόσθεσε ότι θα ακολουθήσει τις “Αρχές Τεχνητής Νοημοσύνης της Microsoft” σε οποιαδήποτε περαιτέρω ανάπτυξη.
“Δεδομένου ότι το VALL-E θα μπορούσε να συνθέσει ομιλία που διατηρεί την ταυτότητα του ομιλητή, μπορεί να ενέχει πιθανούς κινδύνους στην κακή χρήση του μοντέλου, όπως η παραποίηση της αναγνώρισης φωνής ή η πλαστοπροσωπία“, έγραψε η εταιρεία στην ενότητα του paper, με τίτλο “Ευρύτερες επιπτώσεις”.