Oesterreichisches Forschungsinstitut fuer Artificial Intelligence (OeFAI)
Schottengasse 3, A-1010 Wien
Tel.: +43-1-53361120, Fax: +43-1-5336112-77, Email: sec@ai.univie.ac.at
-------------------------------------------------------------------------
VORTRAG
*******
Juergen TROUVAIN, M.A.
Universitaet des Saarlandes
Saarbruecken
NICHT-LINEARE MODELLIERUNG VON SPRECHTEMPO -
IMPLIKATIONEN FUER SPRACHSYNTHESE
In den meisten Sprachsynthesesystemen wird - wenn ueberhaupt - eine
Aenderung der Sprechgeschwindigkeit durch eine lineare Anpassung der
temporalen Struktur erreicht.
In natuerlicher Sprache hingegen sind die Unterschiede zwischen ver-
schiedenen Tempi als nicht-linear zu charakterisieren. So zeichnet
sich z.B. schnelleres Sprechen hauptsaechlich durch weniger und auch
kuerzere Pausen aus. Aenderungen in der prosodischen Struktur wie
z.B. Wegfall prosodischer Phrasengrenzen oder De-Akzentuierung von
Silben haben Einfluss auf die Dauer linguistischer Einheiten (wie
z.B. Lautsegmente). Ein weiteres nicht-lineares Merkmal ist die sog.
Elastizitaet der Lautdauern, die bei Vokalen ueblicherweise groesser
ist als bei Konsonanten. Auf der phonemischen Ebene lassen sich
Assimilationen, Reduktionen und Tilgungen von Lauten feststellen.
Vor allem Funktionswoerter sind fuer solche segmentalen Prozesse
anfaellig. Da ein schnelleres Tempo in aller Regel auch ein
oekonomischeres Artikulieren nach sich zieht, hat dies auch Folgen
fuer die spektralen Eigenschaften der Laute. Konkatenative Sprach-
synthese mit Signalstuecken, die aus akzentuierter Position ent-
nommen wurden, hinterlassen oft und vor allem bei schnellem Tempo
einen Eindruck von Ueberartikulation.
Beispiele fuer die o.g. Parameter werden durch Ergebnisse einer
Pilot-Studie illustriert und Implikationen fuer (konkatenative)
Sprachsynthese werden diskutiert.
Zeit: Montag, 4.Oktober 1999, 18:30 Uhr pktl.
Ort: OeFAI, Schottengasse 3, 1010 Wien 1.
OESTERREICHISCHES FORSCHUNGSINSTITUT
FUER ARTIFICIAL INTELLIGENCE
o.Univ.-Prof.Dr.Robert Trappl