Mit dieser KI können Sie Ihre eigene Stimme klonen

Björn Schneider
Björn Schneider

Am 14.02.2024 - 11:46

Die Stimmenklon-Technologie ist weit vorangeschritten und es gibt etliche Anbieter. Mit OpenVoice betritt ein neuer Player das Feld. Was kann das Tool?

Frau mit Megaphon
In Sekundenschnelle KI-Klone von echten menschlichen Stimmen erzeugen? Die KI-Anwendung OpenVoice macht's möglich. - Depositphotos

Bekannte Start-ups wie ElevenLabs investieren Millionen, um ihre eigenen Algorithmen und KI-Programme in Stimmklon-Anwendungen zu verwandeln. Doch nun betritt ein neuer Player das Spielfeld: OpenVoice.

OpenVoice ist ein Open-Source-Gemeinschaftsprojekt von Forschern des Massachusetts Institute of Technology (MIT) und der Tsinghua University Peking. Ausserdem war das KI-Startup MyShell beteiligt.

Sie entwickelten ein aussergewöhnliches Open-Source-KI-Stimmenklonverfahren. Eines, das nur eine kurze Audioaufnahme benötigt, um Stimmen realitätsnah nachzuahmen.

Die Motivation hinter dem Projekt

Zengyi Qin vom MIT und MyShell erklärten gegenüber einschlägigen Online-Medien, dass OpenVoice nur der Anfang gewesen sei. In Zukunft werde man sogar Datenbanken und Rechenleistung bereitstellen, um die Open-Source-Forschungsgemeinschaft weiter zu unterstützen.

Junge schreit ins Mikro
Stimmklon-Anwendungen wie OpenVoice imitieren menschliche Töne und Sprache zum Teil hyperrealisitisch. - Unsplash

Qin sagte dazu, dass es im entsprechenden Forschungsgebiet bereits gute Open-Source-Modelle für Sprache und Sehen gebe. Aber es fehle noch ein gutes Modell für Stimme.

Diese Komponenten sind die drei wichtigsten Modelle der zukünftigen künstlichen Intelligenz. Nämlich die Sprache, das Sehen und die Stimme.

Funktionsweise von OpenVoice

OpenVoice besteht aus zwei verschiedenen KI-Modellen: einem Text-zu-Sprache-Modell (TTS) und einem Tonkonverter. Das erste Modell steuert die Stilparameter und Sprachen.

Der Tonkonverter wurde auf mehr als 300'000 Audio-Proben von über 20'000 verschiedenen Sprechern trainiert. Dadurch, dass das TTS-Modell den Original- beziehungsweise Ursprungssprecher verwendet und mit Ton kombiniert, können beide Modelle zusammen die Stimme des Benutzers reproduzieren.

Mikrofon
Ein Mikrofon zur Stimmverstärkung: KI-Stimmklon-Anwendungen ahmen menschliche Stimmen perfekt nach. - Pixabay

Ausserdem kann die KI die Tonfarbe verändern. Also den emotionalen Ausdruck des gesprochenen Textes.

Wer steht hinter OpenVoice?

Die Chatbot- und KI-Plattform OpenVoice wurde 2023 gegründet und hat bereits in ihrer ersten Finanzierungsrunde über umgerechnet 4,2 Millionen Franken eingesammelt. Mit mehr als 400'000 Nutzern ist MyShell eine anerkannte Grösse im Bereich künstlicher Intelligenz.

Neben OpenVoice bietet das Unternehmen auch verschiedene textbasierte KI-Figuren und Bots mit unterschiedlichen Persönlichkeiten an. Ähnlich wie der bekannte Chatbot-Dienst Character.AI.

Mehr zum Thema:

Weiterlesen