Tuesday, January 17, 2023

Microsoft KI: Drei Sekunden reichen aus, um Ihre Stimme zu imitieren

Microsofts neueste Forschung im Bereich Text-to-Speech-KI überrascht mit einem Stimmenimitator, der VALL-E genannt wird. Zwar gibt es bereits andere Programme, die die Stimmen imitieren können, doch der Weg zur guten Kopie ist dann doch länger als drei Sekunden. Wenn sich diese Technologie verbreitet – was anzunehmen ist – können wir nicht mal mehr jenen Personen trauen, deren Stimme wir zu kennen glauben.

 

Microsoft berichtet, dass Vall-E die Stimme einer Person anhand eines nur drei Sekunden langen Audiobeispiels simulieren kann. Die Sprache kann sowohl das Timbre als auch den emotionalen Ton des Sprechers wiedergeben - sogar die Akustik des Raums, wo das Original aufgenommen wurde.

In einer Veröffentlichung beschreiben die Techniker, wie sie VALL-E anhand von 60’000 Stunden englischer Sprache von über 7’000 Sprechern in der LibriLight-Audiobibliothek von Meta trainiert haben. Die Stimme, die Vall-E zu imitieren versucht, muss einer Stimme, die in den Trainingsdaten enthalten ist, ähnlich sein. Wenn das stimmt, wird daraus abgeleitet, wie die zu imitierende Person klingen würde, wenn sie die Texteingabe sprechen würde. Die Ergebnisse erstaunen, auch wenn sie nicht perfekt sind (siehe Video): Einige Samples tönen nach Computerstimme, während andere sehr realistisch sind.

Microsoft will übrigens den Programm- Code nicht als Open Source zur Verfügung stellen. Das Unternehmen liess verlauten:

«Da VALL-E Sprache synthetisieren könnte, welche die Identität des Sprechers beibehält, birgt es potenzielle Risiken für den Missbrauch des Modells, wie zum Beispiel die Fälschung der Stimmerkennung oder das Nachahmen von Personen…»

Die Sorge ist natürlich berechtigt, und auch wenn Vall-E heute nicht als Open-Source-Programm zur Verfügung stehen wird, ist es mit Sicherheit nur eine Frage der Zeit, bis wir die ersten Deep Fakes mit imitierter Stimme zu sehen und hören bekommen.

No comments:

Post a Comment