Zukunftsstimmen: So revolutioniert Spracherkennung unser Leben

Christian Stede
Christian Stede

Am 27.11.2023 - 10:59

Die Kommunikation zwischen Mensch und Maschine hat mit den neuesten Spracherkennungssystemen ein ganz neues Level erreicht.

Sprachbefehl Smartphone
Die Bedienung des Smartphones per Sprachbefehl gehört für viele längst zum Alltag. - Depositphotos

Die Fähigkeit, eine Person anhand ihres einzigartigen Stimmabdrucks zu identifizieren – das ist Stimmen- oder Sprechererkennung. Dank künstlicher Intelligenz hat sich dieses Computerwissenschaftsgebiet rasant entwickelt und ermöglicht uns nun die Interaktion mit Maschinen ohne jegliche Berührung.

Aber es gibt einen entscheidenden Unterschied zwischen Stimme- und Spracherkennung. Bei der Stimmerkennung geht es darum, den Besitzer einer bestimmten Stimme zu identifizieren. Die Spracherkennungssoftware hingegen zielt darauf ab, die gesprochenen Worte des Sprechers zu erkennen.

Man unterscheidet grundsätzlich zwei Arten von Stimmerkennungen – textabhängige Systeme lernen vordefinierte Passwörter des Sprechers wiederzuerkennen. Textunabhängige Systeme hingegen analysieren Gespräche und benötigen keine vorher festgelegten Phrasen.

Sprecherzentriert oder Wortgewandt? Typen von Spracherkennern

Auch in Bezug auf automatische Spracherkenner (ASR) gibt es verschiedene Kategorien. Hierbei spielt insbesondere der Sprecher eine entscheidende Rolle.

Es gibt sprecherabhängige Systeme, die auf eine bestimmte Stimme trainiert sind und hohe Genauigkeit in der Spracherkennung bieten. Sprecherunabhängige Systeme hingegen legen den Fokus auf die Erkennung von Wörtern, unabhängig vom Sprecher.

Sprachassistent
Sprachassistenten wie Alexa erhöhen die Bequemlichkeit der Bedienung ungemein. - Pexels

Begonnen hat alles mit IBM's Bell Laboratory. 1952 stellten sie Audrey vor – das erste dokumentierte Spracherkenner-System, welches einzelne Zahlen erkennen konnte. Ein Jahrzehnt später folgte Shoebox, ein Gerät das 16 englische Worte und alle Zahlen von null bis neun erkannte.

Wie funktioniert moderne Spracherkennung?

Moderne ASR-Systeme basieren auf drei Modellen: Akustik-, Aussprache- und Sprachmodellierung. Nachdem die Rede aufgezeichnet wurde, wird sie bereinigt und nützliche Signale werden herausgefiltert.

Jede Stimmerkennungssoftware beginnt mit einer Aufnahme des Benutzers zur Extraktion eines einzigartigen Stimmabdrucks im Rahmen einer Registrierungsphase. Die nächste Phase ist dann die Überprüfung oder Verifikation.

Falls Sie kein eigenes Spracherkenner-System erstellen möchten, gibt es verschiedene Open-Source-Werkzeuge. Dazu gehören unter anderem CMU Sphinx, HTK Toolkit und Kaldi.

Spracherkennungssystem
Spracherkennungssysteme leisten vielfach Unterstützung. - Depositphotos

Stimme gegen Maschine: Anwendungen der Spracherkennung

Dank PCs, Smartphones und dem rasanten Fortschritt in der AI sind Stimm- und Spracherkennungssoftware Teil unseres Alltags geworden. Sie ermöglichen uns die Steuerung unserer Geräte allein durch das Sprechen.

Spracherkennungstechnologie erhöht die Benutzerproduktivität erheblich. Sie kann menschliche Sprache viel schneller erfassen als wir tippen können.

Darüber hinaus ist sie besonders nützlich für Menschen mit Behinderungen, die ihre Hände nicht benutzen können.

Mehr zum Thema:

Weiterlesen