Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese Intonation in der Sprachsy...

Author: Johannes Abel

8 downloads 0 Views 384KB Size

Report

Download PDF

Recommend Documents

Intonation

Intonation in British English

Double negatives and intonation in Dutch

Intonation in the grammar of English

Analysis of Intonation Patterns in Urdu

Dresdener Intonation: Treppenkonturen

Intonation und Informationsstruktur

Intonation in Spanish Classroom-style Didactic Speech

Pitch Patterns (Music, Intonation)

INTONATION CENTRE IN ENGLISH AND CZECH SENTENCES

Melodic Intonation Therapy in subacute aphasia

9. Ensemble-Intonation und Orgeltemperatur

Intonation processing for speech technology

Perzeptorische Untersuchungen zur Intonation der Frage im Russischen

The Pragmatics of WH-Question Intonation in English

Intonation across Spanish, in the Tones and Break Indices framework

The intonation of Singapore English

Intonation von Blasinstrumenten im Statistikunterricht

Intonation and Interpretation: Phonetics and Phonology

Guitar Setup and Intonation By: Gary Allen

NONVERBAL COMMUNICATION AND VOCAL INTONATION IN THE ENGINEER S CLASSROOM

Pitching an Argument: Intonation, information, and inference in syllogistic discourse

Chapter 5 Transcription of Dutch Intonation

Characterization of Pitch Intonation of Beijing Opera

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Intonation in der Sprachsynthese Uwe Reichel Institut f¨ ur Phonetik und Sprachverarbeitung Ludwig-Maximilians-Universit¨at M¨ unchen [email protected]

1. Dezember 2010

Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Das MARY TTS-System TTS: Text-to-Speech MARY: Modular Architecture for Research on Speech Synthesis entwickelt am DFKI, Saarbr¨ ucken Download, Dokumentation: http://mary.dfki.de Anwendung u ¨ber Webserver: http://marytts:59125 Stand der Folien: Schr¨ oder, M. & Trouvain, J. (2003). The German Text-to-Speech Synthesis System MARY: A Tool for Research, Development and Teaching. J. Speech Technology, 6, pp. 365–377. mittlerweile Erweiterung hinsichtlich emotionaler Synthese Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

MARY-TTS-Module Tokenisierung Textnormalisierung POS − Tagging , Chunking VVVV fff VVVV fffff VVVV sfffff + Graphem − Phonem Prosodie h XXXXX h hhh XXXXX h h h XXXX+ shhhh Phonem − Phonem AkustischeParameter AkustischeSynthese Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Tokenisierung, Textnormalisierung Tokenisierung Zerlegung des Texts in W¨ orter und Satzzeichen Regelbasierte Disambiguierung des Punkts (Satzende vs. Ordinalzahl, Abk¨ urzung, usw.) Textnormalisierung Expansion von Zahlen (Jahreszahl vs. Telefonnummer usw.) kontextabh¨angige Flektion von Ordinalzahlen Table-Lookup: Expansion von Abk¨ urzungen, Akronymen

Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

POS-Tagging Allgemeine Aufgabenstellung Sch¨atzung der wahrscheinlichsten Wortart-Sequenz ˆ = g1 . . . gn , gegeben die beobachtete Wortfolge G W = w1 . . . wn h i ˆ = arg max P(G |W ) G G

Umformung unter Zuhilfename des Satzes von Bayes und vereinfachender Annahmen: h i ˆ = arg max P(G )P(W |G ) G G P(W ) n hY i = arg max P(gi |gvorg¨anger )P(wi |gi ) G

i=1

Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

POS-Tagging

TNT-Tagger Brants (2000) Wenn wi unbekannt (Out-of-Vocabulary OOV): Verwendung der wi -Suffixe, die im Deutschen Aufschluss u ¨ber die Wortart geben k¨ onnen Umgehung, Blauwal, farbig

Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Chunking

Flache syntaktische Analyse als Grundlage f¨ ur prosodische Phrasierung Parser von Skut&Brants (1998) Grenzen von Nominal- und Pr¨apositionalphrasen [Der Ball]NP blieb [auf der Torlinie]PP liegen.

Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Graphem-Phonem-Konvertierung Lexika G2P-Lexikon f¨ ur Simplex-Formen G2P-Lexikon f¨ ur gebundene Morpheme (Affixe, usw.) Konvertierung morphologische Zerlegung −→ Simplex-Formen + gebundene Morpheme Lexikon-Lookup bei OOVs: regelbasierte G2P-Konvertierung, Silbifizierung, Wortbetonungszuweisung (Kompositumstruktur, betonte Affixe, usw.) Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Prosodische Struktur Prosodische Grenzen 6 Grenzst¨arken an Interpunktion zwischen Vorfeld und linker Verbklammer [die Frau]VF [ruft]LK ihren Hund vor satzverbindenden Konjunktionen wahlweise (in Abh¨angigkeit des gew¨ unschten Sprechstils) an Chunk-Grenzen er half [dem Mann]NP [in den Mantel]PP Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Prosodische Struktur Akzente einige POS stets akzentuiert, z.B. Substantive und Adjektive weitere POS hinsichtlich Akzentuierbarkeit geordnet: Vollverben > Modalverben > Adverben Vorgehen: Akzentuiere in einer prosodischen Phrase alle Substantive und Adjektive falls nicht vorhanden, suche nach akzentuierbarem Material in oben gegebener POS-Reihenfolge

Der Hund liegt auf der gr¨ unen Bank Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Tonakzente, Phrasen-, Grenzt¨one GTOBI-Inventar Tonzuweisung in Abh¨angigkeit des Satztyps (Deklarativsatz, W-Frage, Interrogativsatz, Entscheidungsfrage, Exklamativsatz) M¨ ogliche Erweiterungen (gem¨ aß kompositionalem Modell nach Pierrehumbert&Hirschberg, 1990): Informationsstatus −→ Tonakzent: neue Information, Hervorhebung −→ H ∗ , L + H ∗ gegebene Information, Inferierbarkeit −→ L∗ , H + L∗

Orientierung der aktuellen Intonationsphrase im Diskurs −→ Grenzt¨one final −→ LL%; progredient −→ LH% Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

F0-Konvertierung Regelbasierte F0-Vorhersage: Positionierung der Targets zeitlich relativ zum Silbennukleus in ihrer Frequenz relativ zu Deklinationsgrundlinie und Toplinie

Abbildung: F0-Kontur f¨ ur L + H ∗ : L auf Grundlinie zu Beginn des Nukleus der pr¨aakzentuierten Silbe; H ∗ auf Toplinie in der Mitte des Nukleus der akzentuierten Silbe; Beispiel nach Schr¨ oder&Trouvain (2003). Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Dauer-Modellierung Klatt-Modell (Klatt, 1979)

D = m · Dmin +

Y

fi · (Dinh − m · Dmin ) + d

i

Parameter: D: aktuelle Lautdauer Dinh , Dmin : inh¨arente und minimale Lautdauer m, fi , d: Faktoren, deren Werte u ¨ber Regeln zu bestimmen sind (Default 1) Faktoren: Lautkontext; Wortbetonung, Akzent; Position in Silbe, Wort, Intonationsphrase Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Phonem-Phonem-Konvertierung

Regelbasierte Assimilationsoperationen Lautreduktionen in unbetonten Silben

Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Unit-Selection

Zur Auswahl in MARY Unit Selection HMM-Synthese Im Folgenden Vorstellung des konkatenativen Unit-Selection-Ansatzes (am Beispiel von Diphonen)

Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Konkatenative Synthese

Konkatenative Synthese: Verkettung von akustischen Segmenten Diphon Segment von der Mitte eines Phons bis zur Mitte des folgenden Phons Ber¨ ucksichtigung lokaler koartikulatorischer Effekte minimale Inventargr¨ oße: (Anzahl der Phoneme)2 − (Anzahl phonotaktisch nicht erlaubter Kombinationen)

Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Konkatenative Synthese

Abbildung: Diphone /fa/ und /sa/: unterschiedliche Formanttransitionen. Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Konkatenative Synthese 2 Philosophien Klassische Diphonsynthese Datenbank: geringe Menge gespeicherter Units (z.B. jedes Diphon 2x +/– phrasenfinal) Synthese: Signalmanipulation bei Verkettung

Eigentliche Unit-Selection-Synthese Datenbank: große Menge gespeicherter Units (Diphone in vielen verschiedenen Kontexten, +/–akzentuiert, +/– phrasenfinal, unterschiedliches Sprechtempo, unterschiedliche emotionale Markierung, . . . ) Synthese: kontextabh¨ angige Auswahl der geeigneten Unit statt Signalmanipulation Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Diphon-Synthese: Signalmanipulation

Klassischer Diphonsynthese: Signalmanipulation mit TD-PSOLA ¨ TD: Time-Domain, d.h. keine Uberf¨ uhrung in Spektralbereich n¨otig PS: pitch-synchron, d.h. Verfahren operiert auf Einheiten der Gr¨oße einer glottalen Schwingungsperiode OLA: overlap and add, d.h. Einheiten werden u ¨berlagert und addiert

Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Diphon-Synthese: Signalmanipulation Fensterung der Einheiten: Multiplikation der Signalauschnitte mit einem Gewichtsfenster zur Abschw¨achung der Signalr¨ander Dauer-Manipulation: Wiederholung von Kopien einer Periode F0-Manipulation: Verschiebung der Einheiten gegeneinander (−→ Erh¨ohung) oder auseinander (−→ Absenkung). Auff¨ ullen mit/L¨oschen von Perioden zur Aufrechterhaltung der Dauer Intensit¨ at: Aufaddieren von Kopien einer Periode

Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Diphon-Synthese: Signalmanipulation

aus Hess (2004) Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Unit-Selection Unit-Selection: Kontextabh¨ angige Auswahl der Units Statt Signalmanipulation Suche nach der besten ˆ aus gespeicherten Unit-Varianten Sequenz U basierend auf der Minimierung von Target- (T ) und Join-Kosten (J) ˆ = arg min U U

X J(ui−1 , ui ) + T (ui , si ) i

si : durch die vorgeschalteten Text- und Prosodie-Module vorgegebenen Zielspezifikationen ui : gespeicherte Unit Uwe Reichel

Intonation in der Sprachsynthese

(1)

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Unit-Selection Target-Kosten T (ui , si ) Abstand des Exemplars ui zu den Zielvorgaben si ui , si als Merkmalsvektoren repr¨asentiert mit Angaben zu: Identit¨at der Unit Unit-Kontext prosodische Spezifikationen F0-Kontur Dauer Intensit¨at

Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Unit-Selection

Beispiel: si = [ /u:d/, +akz, –phrasenfinal, 120-110-100, 80 ], d.h. Ziel ist ein /u:d/-Diphon in akzentuierter und nicht-phrasenfinaler Position mit der F0-Kontur 120-110-100 Hz und der Dauer 80 ms

Uwe Reichel

Intonation in der Sprachsynthese

¨ Text-to-Speech (TTS): Uberblick u ¨ber MARY Textverarbeitung Prosodie Spontansprachliche Ph¨ anomene Akustische Synthese

Unit-Selection

Join-Kosten J(ui−1 , ui ) Diskontinuit¨aten zwischen aufeinanderfolgenden Units ui−1 und ui Features: Mel-Cepstral-Distanz an der Konkatenationsstelle absolute F0-Distanz absolute Log-Energiedistanz

Uwe Reichel

Intonation in der Sprachsynthese