15 Sekunden reichen: Wie KI Ihre Stimme klont

Juli Rutsch
Juli Rutsch

Am 14.06.2024 - 15:53

OpenAI gab kürzlich bekannt, dass 15 Sekunden Originalstimme ausreichen, um einen perfekten Klon zu produzieren. Und damit kann man vieles machen ...

Artefakt Knotenpunkte Silhouette Gesicht Audiosymbol
In nur 15 Sekunden hat OpenAI Ihre Stimme derart analysiert, dass die KI sie klonen kann. - Depositphotos

Die Fähigkeit künstlicher Intelligenz, menschliche Stimmen zu imitieren, hat in den letzten Jahren erheblichen Fortschritt gemacht. Wo früher Minuten an Hörmaterial benötigt wurden, reichen heute wenige Augenblicke.

OpenAI, das von Microsoft unterstützte Unternehmen hinter dem viralen generativen AI-Chatbot ChatGPT, ist hier ganz vorne mit dabei. Es hat eine Technologie entwickelt, die lediglich 15 Sekunden Audioaufnahme benötigt, um eine Stimme zu klonen.

Mit Voice Engine auf der Überholspur

Auf ihrer Website präsentierte OpenAI kürzlich einen kleinen Vorgeschmack auf ein Modell namens «Voice Engine», das seit Ende 2022 entwickelt wird. Die Funktionsweise dieses Modells ist faszinierend einfach und doch revolutionär.

Roboter Podium Mikrophon Rede
Wer den Redner nicht sieht, sondern nur hört, kann dank möglicher Stimmen-Klone schnell in die Irre geführt werden. - Depositphotos

Nachdem mindestens 15 Sekunden gesprochenes Material eingespeist wurden, kann der Benutzer Text eingeben und erhält daraufhin «emotionale und realistische» Sprache zurück – fast identisch zur Originalstimme des Sprechers.

Verantwortung der ganzen Gesellschaft

Allerdings ist sich OpenAI auch der möglichen Gefahren dieser Technologie bewusst. Das Unternehmen betont daher seinen «vorsichtigen und informierten Ansatz» bei einer breiteren Veröffentlichung.

Es besteht nämlich durchaus das Risiko eines missbräuchlichen Einsatzes synthetischer Stimmen.

Die Firma möchte daher einen Dialog über den verantwortungsvollen Einsatz von synthetischen Stimmen beginnen – einschliesslich der Frage, wie die Gesellschaft sich an diese neuen Möglichkeiten anpassen kann.

Fiktive wie wirklich gewordene Missbrauchszenarien

Eine Art des Missbrauchs, auf die OpenAI hinweist, ist ein Betrugsschema, das einige Kriminelle bereits mit ähnlicher Technik durchführen. Sie klonen eine Stimme und rufen dann einen Freund oder Verwandten dieser Person an, um sie dazu zu bringen, Geld per Banküberweisung zu senden.

Aber auch in politischer Hinsicht gibt es Bedenken. So könnte beispielsweise im Vorfeld von Wahlen mittels solcher Technologien Desinformation verbreitet werden.

Ein Problem, das bereits bei einer Wahl in New Hampshire Anfang 2024 auftrat.

Gefahr für Synchronsprecher?

Ein weiteres Problem stellt sich für Synchronsprecher dar: Mit der zunehmenden Verbesserung dieser Technologie könnten sie gezwungen sein, die Rechte an ihrer Stimme abzutreten, damit eine KI-generierte Version erstellt werden kann.

Die Bezahlung hierfür wäre wahrscheinlich deutlich geringer, als wenn der Synchronsprecher die Aufgabe persönlich übernehmen würde.

Stumme können wieder sprechen ...

Trotz aller Risiken sieht OpenAI auch positive Aspekte bei dem Einsatz ihrer Voice Engine-Technologie. Sie könnte beispielsweise Nichtlesern und Kindern beim Lesenlernen helfen, indem natürliche und emotionale Stimmen verwendet würden.

Roboter Mikrophon Sprecher mathematische Formeln virtuelle Tafel Hintergrund
Der Uni-Dozent eine KI? Vielleicht gar nicht mehr so unwahrscheinlich, das Szenario ... - Depositphotos

Diese repräsentieren eine grössere Bandbreite an Sprechern, als voreingestellte Stimmen liefern könnten. Auch die Sofortübersetzung von Videos und Podcasts könnte ein realistisches Szenario werden.

Eins, das Spotify bereits testet. Und sogar Patienten, die ihre Stimme aufgrund einer Krankheit verlieren, könnten weiterhin in ihrer eigenen, gewohnten Stimmlage kommunizieren.

Die Zukunft der Sprachsynthese ist schon da

OpenAI hat einige Beispiele für AI-generiertes Audio und Referenzaudio auf seiner Website veröffentlicht. Es besteht kein Zweifel: Die Ergebnisse sind aussergewöhnlich beeindruckend.

Mehr zum Thema:

Weiterlesen