Rote ListePatientenInfo-Service Gebrauchsinformationsverzeichnis Deutschland

PatientenInfoService - Informationen für Patienten



Inhaltsbereich

13.04.2012

Sprachsynthese - TTS - Text To Speech

Unter Sprachsynthese versteht man die künstliche Erzeugung der menschlichen Sprechstimme. Ein Text-to-Speech-System (TTS oder auch Vorleseautomat genannt) wandelt Fließtext in eine akustische Sprachausgabe.

Grundsätzlich lassen sich zwei Ansätze zur Erzeugung von Sprachsignalen unterscheiden. Zum einen kann durch die sogenannte Signalmodellierung auf Sprachaufnahmen (Samples) zurückgegriffen werden. Zum anderen kann das Signal aber auch durch die sogenannte Physiologische (artikulatorische) Modellierung vollständig im Rechner erzeugt werden.

Während die ersten Systeme auf Formantsynthesen beruhten, basieren die seit  2006 industriell eingesetzten Systeme vorwiegend auf Signalmodellierung. Ein besonderes Problem für die Sprachsynthese ist die Erzeugung einer natürlichen Sprachmelodie
(Prosodie).

Während frühe elektronische Sprachsynthesen noch sehr roboterhaft klangen und teilweise schwer verständlich waren, erreichen sie etwa seit der Jahrtausendwende eine Qualität, bei der es mitunter schwierig ist, sie von menschlichen Sprechern zu unterscheiden.

Einsatzmöglichkeiten von Text-to-Speech-Software

Viele Menschen mit Sehbehinderungen - z.B. Grauem Star oder Altersbedingter Makuladegeneration - nutzen TTS-Softwarelösungen, um sich Texte direkt am Bildschirm vorlesen zu lassen, z.B. den PatientenInfo-Service der ROTE LISTE.

Blinde Menschen können einen Computer auch mittels einer Screenreader-Software bedienen und bekommen Bedienelemente und Textinhalte angesagt. Aber auch Dozenten nutzen die Sprachsynthese für die Aufzeichnung von Vorträgen. Ebenso nutzen Autoren TTS-Software, um selbst geschriebene Texte auf Fehler und Verständlichkeit hin zu prüfen.

Besonders interessant ist der Einsatz von Software, die das Erzeugen von MP3-Dateien erlaubt. Dann kann Sprachsynthese-Software auch für die Erzeugung einfacher Podcasts bzw. Audioblogs genutzt werden. Erfahrungsgemäß kann die Produktion von Podcasts bzw. Audioblogs sehr zeitintensiv sein.

Übrigens: Schon lange vor der Erfindung der elektronischen Signalverarbeitung versuchten Wissenschaftler Maschinen zu konstruieren, die menschliche Sprache erzeugen können. Gerbert von Aurillac (1003) wird ein aus Bronze gefertigter „Sprechender Kopf“ zugeschrieben, von dem berichtet wurde, dass er „ja“ und „nein“ sagen konnte. Wohl eher in den Bereich der Legenden gehören die Apparate von Albertus Magnus (1198–1280) und Roger Bacon (1214–1294).

In der etwas näheren Vergangenheit wurde in den Bell Labs in den 1930ern der Vocoder, ein tastaturgesteuerter elektronischer Sprachsynthesizer entwickelt, über den gesagt wurde, dass er klar verständlich war.


© 2018 Rote Liste® Service GmbH