Mit dieser KI können Sie Ihre eigene Stimme klonen
Die Stimmenklon-Technologie ist weit vorangeschritten und es gibt etliche Anbieter. Mit OpenVoice betritt ein neuer Player das Feld. Was kann das Tool?
Bekannte Start-ups wie ElevenLabs investieren Millionen, um ihre eigenen Algorithmen und KI-Programme in Stimmklon-Anwendungen zu verwandeln. Doch nun betritt ein neuer Player das Spielfeld: OpenVoice.
OpenVoice ist ein Open-Source-Gemeinschaftsprojekt von Forschern des Massachusetts Institute of Technology (MIT) und der Tsinghua University Peking. Ausserdem war das KI-Startup MyShell beteiligt.
Sie entwickelten ein aussergewöhnliches Open-Source-KI-Stimmenklonverfahren. Eines, das nur eine kurze Audioaufnahme benötigt, um Stimmen realitätsnah nachzuahmen.
Die Motivation hinter dem Projekt
Zengyi Qin vom MIT und MyShell erklärten gegenüber einschlägigen Online-Medien, dass OpenVoice nur der Anfang gewesen sei. In Zukunft werde man sogar Datenbanken und Rechenleistung bereitstellen, um die Open-Source-Forschungsgemeinschaft weiter zu unterstützen.
Qin sagte dazu, dass es im entsprechenden Forschungsgebiet bereits gute Open-Source-Modelle für Sprache und Sehen gebe. Aber es fehle noch ein gutes Modell für Stimme.
Diese Komponenten sind die drei wichtigsten Modelle der zukünftigen künstlichen Intelligenz. Nämlich die Sprache, das Sehen und die Stimme.
Funktionsweise von OpenVoice
OpenVoice besteht aus zwei verschiedenen KI-Modellen: einem Text-zu-Sprache-Modell (TTS) und einem Tonkonverter. Das erste Modell steuert die Stilparameter und Sprachen.
Der Tonkonverter wurde auf mehr als 300'000 Audio-Proben von über 20'000 verschiedenen Sprechern trainiert. Dadurch, dass das TTS-Modell den Original- beziehungsweise Ursprungssprecher verwendet und mit Ton kombiniert, können beide Modelle zusammen die Stimme des Benutzers reproduzieren.
Ausserdem kann die KI die Tonfarbe verändern. Also den emotionalen Ausdruck des gesprochenen Textes.
Wer steht hinter OpenVoice?
Die Chatbot- und KI-Plattform OpenVoice wurde 2023 gegründet und hat bereits in ihrer ersten Finanzierungsrunde über umgerechnet 4,2 Millionen Franken eingesammelt. Mit mehr als 400'000 Nutzern ist MyShell eine anerkannte Grösse im Bereich künstlicher Intelligenz.
Neben OpenVoice bietet das Unternehmen auch verschiedene textbasierte KI-Figuren und Bots mit unterschiedlichen Persönlichkeiten an. Ähnlich wie der bekannte Chatbot-Dienst Character.AI.