Microsofts neueste Forschung im Bereich Text-to-Speech-KI überrascht mit einem Stimmenimitator, der VALL-E genannt wird. Zwar gibt es bereits andere Programme, die die Stimmen imitieren können, doch der Weg zur guten Kopie ist dann doch länger als drei Sekunden. Wenn sich diese Technologie verbreitet – was anzunehmen ist – können wir nicht mal mehr jenen Personen trauen, deren Stimme wir zu kennen glauben.
Microsoft berichtet, dass Vall-E die Stimme einer Person anhand eines nur drei Sekunden langen Audiobeispiels simulieren kann. Die Sprache kann sowohl das Timbre als auch den emotionalen Ton des Sprechers wiedergeben - sogar die Akustik des Raums, wo das Original aufgenommen wurde.
In einer Veröffentlichung
beschreiben die Techniker, wie sie VALL-E anhand von 60’000 Stunden englischer
Sprache von über 7’000 Sprechern in der LibriLight-Audiobibliothek von Meta
trainiert haben. Die Stimme, die Vall-E zu imitieren versucht, muss einer
Stimme, die in den Trainingsdaten enthalten ist, ähnlich sein. Wenn das stimmt,
wird daraus abgeleitet, wie die zu imitierende Person klingen würde, wenn sie die
Texteingabe sprechen würde. Die Ergebnisse erstaunen, auch wenn sie nicht
perfekt sind (siehe Video): Einige Samples tönen nach Computerstimme, während
andere sehr realistisch sind.
Microsoft will übrigens den Programm- Code nicht als Open Source zur Verfügung stellen. Das Unternehmen liess verlauten:
«Da VALL-E Sprache synthetisieren könnte, welche die Identität des Sprechers beibehält, birgt es potenzielle Risiken für den Missbrauch des Modells, wie zum Beispiel die Fälschung der Stimmerkennung oder das Nachahmen von Personen…»
Die Sorge ist natürlich berechtigt, und auch wenn Vall-E heute nicht als
Open-Source-Programm zur Verfügung stehen wird, ist es mit Sicherheit nur eine
Frage der Zeit, bis wir die ersten Deep Fakes mit imitierter
Stimme zu sehen und hören bekommen.
No comments:
Post a Comment