Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:
Mensch-Maschine-Kommunikation mit gesprochener Sprache
1
Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:
Hören
Kikala brint tovoluti?
Mensch-Maschine-Kommunikation mit gesprochener Sprache
1
Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:
Hören
Erkennen
Winter kochtest ganz Blatt?
Mensch-Maschine-Kommunikation mit gesprochener Sprache
1
Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:
Hören
Erkennen Verstehen
Wann steigt die Party?
Mensch-Maschine-Kommunikation mit gesprochener Sprache
1
Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:
Hören
Erkennen Verstehen
Wann steigt die Party?
Mensch-Maschine-Kommunikation mit gesprochener Sprache
Sprechen
Sintu högafi notsi!
1
Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:
Hören
Erkennen Verstehen
Wann steigt die Party?
Mensch-Maschine-Kommunikation mit gesprochener Sprache
Formulieren Sprechen
Sonderbar werfen die Wellen hinab!
1
Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:
Hören
Erkennen Verstehen Planen Formulieren Sprechen
Wann steigt die Party?
Mensch-Maschine-Kommunikation mit gesprochener Sprache
Am Freitag, im Hirsch!
1
Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:
Hören
Erkennen Verstehen Planen Formulieren Sprechen
Wann steigt die Party?
Mensch-Maschine-Kommunikation mit gesprochener Sprache
Am Freitag, im Hirsch!
1
Gesprochene Sprache Segmentstruktur Äußerungen
Und
wie
Mensch-Maschine-Kommunikation mit gesprochener Sprache
wäre
es
am
Mittwoch?
2
Gesprochene Sprache Segmentstruktur Äußerungen Phrasen
Und
wie
wäre
es
am
Mittwoch?
wie
wäre
es
am
Mittwoch?
Mensch-Maschine-Kommunikation mit gesprochener Sprache
2
Gesprochene Sprache Segmentstruktur Äußerungen
Und
wie
wäre
es
am
Mittwoch?
Phrasen
wie
wäre
es
am
Mittwoch?
Wörter
wie
wäre
es
Mensch-Maschine-Kommunikation mit gesprochener Sprache
2
Gesprochene Sprache Segmentstruktur Äußerungen
wie
wäre
es
am
Mittwoch?
Phrasen
wie
wäre
es
am
Mittwoch?
Wörter
wie
wäre
es
Silben
Und
wä re
Mensch-Maschine-Kommunikation mit gesprochener Sprache
2
Gesprochene Sprache Segmentstruktur Äußerungen
Und
wie
wäre
es
am
Mittwoch?
Phrasen
wie
wäre
es
am
Mittwoch?
Wörter
wie
wäre
es
Silben
wä re
Laute
w ä r e
Mensch-Maschine-Kommunikation mit gesprochener Sprache
2
Gesprochene Sprache Segmentübergreifende Information (Prosodie)
Mensch-Maschine-Kommunikation mit gesprochener Sprache
3
Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz
Mensch-Maschine-Kommunikation mit gesprochener Sprache
3
Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus
Mensch-Maschine-Kommunikation mit gesprochener Sprache
3
Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus • Lautstärke
Mensch-Maschine-Kommunikation mit gesprochener Sprache
3
Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus • Lautstärke
wird verwendet ...
Mensch-Maschine-Kommunikation mit gesprochener Sprache
3
Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus • Lautstärke
wird verwendet ... • ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...)
Mensch-Maschine-Kommunikation mit gesprochener Sprache
3
Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus • Lautstärke
wird verwendet ... • ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...) • ... zur Gliederung (Phrasen, Sätze)
Mensch-Maschine-Kommunikation mit gesprochener Sprache
3
Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus • Lautstärke
wird verwendet ... • ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...) • ... zur Gliederung (Phrasen, Sätze) • ... zur Moduskennzeichnung (Aussage, Frage, ...)
Mensch-Maschine-Kommunikation mit gesprochener Sprache
3
Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus • Lautstärke
wird verwendet ... • ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...) • ... zur Gliederung (Phrasen, Sätze) • ... zur Moduskennzeichnung (Aussage, Frage, ...) • ... zur Dialogsteuerung (Vergabe der Initiative)
Mensch-Maschine-Kommunikation mit gesprochener Sprache
3
Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus • Lautstärke
wird verwendet ... • ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...) • ... zur Gliederung (Phrasen, Sätze) • ... zur Moduskennzeichnung (Aussage, Frage, ...) • ... zur Dialogsteuerung (Vergabe der Initiative) • ... zum Ausdruck von Emotionen (Freude, Angst, Überraschung,
Verlegenheit, ...)
Mensch-Maschine-Kommunikation mit gesprochener Sprache
3
Sprachsynthese
Zwei Herangehensweisen:
Mensch-Maschine-Kommunikation mit gesprochener Sprache
4
Sprachsynthese
Zwei Herangehensweisen:
Vollsynthese • Erzeugen des Sprach-
signals durch Ton- und Rauschgeneratoren • akzeptable Verständlich-
keit • geringe Natürlichkeit
Mensch-Maschine-Kommunikation mit gesprochener Sprache
4
Sprachsynthese
Zwei Herangehensweisen:
Vollsynthese • Erzeugen des Sprach-
reproduktive Synthese • Aufnehmen und Wieder-
signals durch Ton- und Rauschgeneratoren
geben menschlicher Sprachsignale
• akzeptable Verständlich-
• hohe Verständlichkeit
keit • geringe Natürlichkeit
Mensch-Maschine-Kommunikation mit gesprochener Sprache
• gute bis hohe Natürlich-
keit
4
Sprachsynthese reproduktive Synthese Was sind geeignete Basiseinheiten? • ganze Phrasen: nur für Spezialanwendungen • Laute: schlechte Qualität • Kompromiss: flexible Ermittlung der Basiselemente aus
Korpusdaten
Mensch-Maschine-Kommunikation mit gesprochener Sprache
5
Sprachsynthese reproduktive Synthese Was sind geeignete Basiseinheiten? • ganze Phrasen: nur für Spezialanwendungen • Laute: schlechte Qualität • Kompromiss: flexible Ermittlung der Basiselemente aus
Korpusdaten Wie werden die Basiselemente verkettet? • harter Schnitt erzeugt Knackgeräusche • ”weiche” Übergänge erforderlich • prosodische Variation durch spezielle Transformationsverfahren
Mensch-Maschine-Kommunikation mit gesprochener Sprache
5
Spracherkennung
• nur Berücksichtigung von Lautcharakteristika • ”Training” von Modellen auf großen Sprachdatensammlungen • Vernachlässigung der Prosodie • nur Erkennung, kein Sprachverstehen!
Mensch-Maschine-Kommunikation mit gesprochener Sprache
6
Spracherkennung
Spracherkenner
und wie wäre es am Montag
Mensch-Maschine-Kommunikation mit gesprochener Sprache
7
Spracherkennung
Spracherkenner
Merkmalsextraktion
Mensch-Maschine-Kommunikation mit gesprochener Sprache
und wie wäre es am Montag
7
Spracherkennung
Spracherkenner
Merkmalsextraktion
Mensch-Maschine-Kommunikation mit gesprochener Sprache
Worterkenner
und wie wäre es am Montag
7
Spracherkennung
Spracherkenner
Merkmalsextraktion
Mensch-Maschine-Kommunikation mit gesprochener Sprache
Lautmodelle
Worterkenner
und wie wäre es am Montag
7
Spracherkennung
Spracherkenner
Lautmodelle
• Modelle für jeden Laut im Kontext seiner Nachbarlaute Merkmals-
Worterkenner
•
• • •
m-a+m, m-a+n,extraktion d-a+n, ... Berechnung der Wahrscheinlichkeit, dass das Sprachsignal durch das Modell erzeugt wurde Zustände, Zustandsübergänge Transitionswahrscheinlichkeiten Emissionswahrscheinlichkeiten
Mensch-Maschine-Kommunikation mit gesprochener Sprache
und wie wäre es am Montag
7
Spracherkennung trainiert auf Signaldaten
Spracherkenner
Merkmalsextraktion
Mensch-Maschine-Kommunikation mit gesprochener Sprache
Lautmodelle
Worterkenner
und wie wäre es am Montag
7
Spracherkennung trainiert auf Signaldaten
Spracherkenner
Merkmalsextraktion
Mensch-Maschine-Kommunikation mit gesprochener Sprache
Lautmodelle
AusspracheWörterbuch
Worterkenner
und wie wäre es am Montag
7
Spracherkennung trainiert auf Signaldaten Laut-
Spracherkenner • eine oder mehrere Lautfolgen fürmodelle jede Wortform Mittwo h m i t v o x sp wäre v eh r 2 sp Merkmals• Verkettung von Lautmodellen zu extraktion
AusspracheWörterbuch
Worterkenner
und wie wäre es am Montag
Wortmodellen
Mittwo h: sp-m+i m-i+t i-t+v t-v+o ...
Mensch-Maschine-Kommunikation mit gesprochener Sprache
7
Spracherkennung trainiert auf Signaldaten
Spracherkenner
Merkmalsextraktion
Mensch-Maschine-Kommunikation mit gesprochener Sprache
Lautmodelle
manuell erstellt AusspracheWörterbuch
Worterkenner
und wie wäre es am Montag
7
Spracherkennung trainiert auf Signaldaten
Spracherkenner
Merkmalsextraktion
Lautmodelle
manuell erstellt AusspracheWörterbuch
Worterkenner
und wie wäre es am Montag
Sprachmodell
Mensch-Maschine-Kommunikation mit gesprochener Sprache
7
Spracherkennung trainiert auf Signaldaten • Berechnung der Wahrscheinlichkeit
für komplette Äußerungen Spracherkenner
Lautmodelle
manuell erstellt AusspracheWörterbuch
• Wahrscheinlichkeiten für Wortpaare,
-tripel oder -quadrupel p(wir|dann wollen) Merkmalsp(Mittwoch|dann wollen)
Worterkenner extraktion • wenig geeignet für Dialogsysteme
und wie wäre es am Montag
Sprachmodell
Mensch-Maschine-Kommunikation mit gesprochener Sprache
7
Spracherkennung trainiert auf Signaldaten
Spracherkenner
Merkmalsextraktion
Lautmodelle
manuell erstellt AusspracheWörterbuch
Worterkenner
und wie wäre es am Montag
Sprachmodell
trainiert auf Texten Mensch-Maschine-Kommunikation mit gesprochener Sprache
7
Spracherkennung trainiert auf Signaldaten
Spracherkenner
Merkmalsextraktion
Lautmodelle
manuell erstellt AusspracheWörterbuch
Worterkenner
und wie wäre es am Montag
Sprachmodell
trainiert auf Texten Mensch-Maschine-Kommunikation mit gesprochener Sprache
7
Spracherkennung trainiert auf Signaldaten
Spracherkenner
Merkmalsextraktion
Lautmodelle
manuell erstellt AusspracheWörterbuch
Worterkenner
Sprach-
Dialog-
modell
modell
und wie wäre es am Montag
trainiert auf Texten Mensch-Maschine-Kommunikation mit gesprochener Sprache
7
Spracherkennung trainiert auf Signaldaten
Spracherkenner
Merkmalsextraktion
Lautmodelle
manuell erstellt AusspracheWörterbuch
Worterkenner
Sprach-
Dialog-
modell
modell
und wie wäre es am Montag
trainiert auf Texten manuell erstellt Mensch-Maschine-Kommunikation mit gesprochener Sprache
7
Spracherkennung trainiert auf Signaldaten
Spracherkenner
Merkmalsextraktion
Lautmodelle
manuell erstellt AusspracheWörterbuch
Worterkenner
Sprach-
Dialog-
modell
modell
und wie wäre es am Montag
trainiert auf Texten manuell erstellt Mensch-Maschine-Kommunikation mit gesprochener Sprache
7
Dialogmodellierung • dynamische Einschränkung des Erkennerwortschatzes in
Abhängigkeit vom Dialogzustand
Mensch-Maschine-Kommunikation mit gesprochener Sprache
8
Dialogmodellierung • dynamische Einschränkung des Erkennerwortschatzes in
Abhängigkeit vom Dialogzustand • Wozu braucht man das?
Mensch-Maschine-Kommunikation mit gesprochener Sprache
8
Dialogmodellierung • dynamische Einschränkung des Erkennerwortschatzes in
Abhängigkeit vom Dialogzustand • Wozu braucht man das? •
Erkennungssicherheit erhöhen → Was wurde gesagt?
Mensch-Maschine-Kommunikation mit gesprochener Sprache
8
Dialogmodellierung • dynamische Einschränkung des Erkennerwortschatzes in
Abhängigkeit vom Dialogzustand • Wozu braucht man das? •
Erkennungssicherheit erhöhen → Was wurde gesagt? ähnliche Aussprache: Mai oder drei? verschiedene Sprecher • schlechte Übertragungsqualität • •
Mensch-Maschine-Kommunikation mit gesprochener Sprache
8
Dialogmodellierung • dynamische Einschränkung des Erkennerwortschatzes in
Abhängigkeit vom Dialogzustand • Wozu braucht man das? •
Erkennungssicherheit erhöhen → Was wurde gesagt? ähnliche Aussprache: Mai oder drei? verschiedene Sprecher • schlechte Übertragungsqualität • •
•
semantische Interpretation erleichtern → Was wird von der Maschine erwartet?
Mensch-Maschine-Kommunikation mit gesprochener Sprache
8
Dialogmodellierung • dynamische Einschränkung des Erkennerwortschatzes in
Abhängigkeit vom Dialogzustand • Wozu braucht man das? •
Erkennungssicherheit erhöhen → Was wurde gesagt? ähnliche Aussprache: Mai oder drei? verschiedene Sprecher • schlechte Übertragungsqualität • •
•
semantische Interpretation erleichtern → Was wird von der Maschine erwartet? • Zahl → Geldbetrag, Uhrzeit, Datum, Kontonummer, ... • Mehrdeutigkeit: Wann werden S/sie kommen? • Referenzauflösung: Was wird durch sie bezeichnet?
Mensch-Maschine-Kommunikation mit gesprochener Sprache
8
Dialogmodellierung • dynamische Einschränkung des Erkennerwortschatzes in
Abhängigkeit vom Dialogzustand • Wozu braucht man das? •
Erkennungssicherheit erhöhen → Was wurde gesagt? ähnliche Aussprache: Mai oder drei? verschiedene Sprecher • schlechte Übertragungsqualität • •
semantische Interpretation erleichtern → Was wird von der Maschine erwartet? • Zahl → Geldbetrag, Uhrzeit, Datum, Kontonummer, ... • Mehrdeutigkeit: Wann werden S/sie kommen? • Referenzauflösung: Was wird durch sie bezeichnet? • eine Maschine hat keinen gesunden Menschenverstand! •
Mensch-Maschine-Kommunikation mit gesprochener Sprache
8
Dialogmodellierung • Dialogzustände: Aufforderung zur Eingabe (Prompt) • Übergänge zwischen Dialogzuständen: Erkennung von
Nutzeräußerungen
Mensch-Maschine-Kommunikation mit gesprochener Sprache
9
Dialogmodellierung • Dialogzustände: Aufforderung zur Eingabe (Prompt) • Übergänge zwischen Dialogzuständen: Erkennung von
Nutzeräußerungen
Bitte geben Sie Ihren Abfahrtsort ein!
Mensch-Maschine-Kommunikation mit gesprochener Sprache
9
Dialogmodellierung • Dialogzustände: Aufforderung zur Eingabe (Prompt) • Übergänge zwischen Dialogzuständen: Erkennung von
Nutzeräußerungen Berlin Dresden Düsseldorf Bitte geben Sie Ihren Abfahrtsort ein!
Hamburg Köln München
Bitte geben Sie Ihren Zielort ein!
... Stuttgart
Mensch-Maschine-Kommunikation mit gesprochener Sprache
9
Dialogmodellierung • Dialogzustände: Aufforderung zur Eingabe (Prompt) • Übergänge zwischen Dialogzuständen: Erkennung von
Nutzeräußerungen
Bitte geben Sie Ihren Abfahrtsort ein!
Berlin
Berlin
Dresden
Dresden
Düsseldorf
Düsseldorf
Hamburg Köln München
Bitte geben Sie Ihren Zielort ein!
Hamburg Köln München
...
...
Stuttgart
Stuttgart
Mensch-Maschine-Kommunikation mit gesprochener Sprache
Bitte geben Sie die Abfahrtszeit ein!
9
Dialogmodellierung
• Mehrfachverwendung von Teilnetzen
Bitte geben Sie Ihren Abfahrtsort ein!
Mensch-Maschine-Kommunikation mit gesprochener Sprache
10
Dialogmodellierung
• Mehrfachverwendung von Teilnetzen
Bitte geben Sie Ihren Abfahrtsort ein!
Ortsangabe
Bitte geben Sie Ihren Zielort ein!
Mensch-Maschine-Kommunikation mit gesprochener Sprache
10
Dialogmodellierung
• Mehrfachverwendung von Teilnetzen
Bitte geben Sie Ihren Abfahrtsort ein!
Ortsangabe
Bitte geben Sie Ihren Zielort ein!
Mensch-Maschine-Kommunikation mit gesprochener Sprache
Ortsangabe
Bitte geben Sie die Abfahrtszeit ein!
10
Dialogmodellierung • sprecherunabhängige Spracherkennung ist unsicher • insbesondere bei Telefoneingabe • Erhöhen der Zuverlässigkeit durch Rückfragen
Bitte geben Sie Ihren Abfahrtsort ein!
Mensch-Maschine-Kommunikation mit gesprochener Sprache
11
Dialogmodellierung • sprecherunabhängige Spracherkennung ist unsicher • insbesondere bei Telefoneingabe • Erhöhen der Zuverlässigkeit durch Rückfragen
Sie wollen in A abfahren?
Ortsangabe
Bitte geben Sie Ihren Abfahrtsort ein!
Mensch-Maschine-Kommunikation mit gesprochener Sprache
11
Dialogmodellierung • sprecherunabhängige Spracherkennung ist unsicher • insbesondere bei Telefoneingabe • Erhöhen der Zuverlässigkeit durch Rückfragen
Sie wollen in A abfahren?
Ortsangabe nein Bitte geben Sie Ihren Abfahrtsort ein!
Mensch-Maschine-Kommunikation mit gesprochener Sprache
11
Dialogmodellierung • sprecherunabhängige Spracherkennung ist unsicher • insbesondere bei Telefoneingabe • Erhöhen der Zuverlässigkeit durch Rückfragen
Sie wollen in A abfahren?
Ortsangabe nein Bitte geben Sie Ihren Abfahrtsort ein!
ja Bitte geben Sie Ihren Zielort ein!
Mensch-Maschine-Kommunikation mit gesprochener Sprache
11
Dialogmodellierung • sprecherunabhängige Spracherkennung ist unsicher • insbesondere bei Telefoneingabe • Erhöhen der Zuverlässigkeit durch Rückfragen
Sie wollen in A abfahren?
Ortsangabe
Ortsangabe nein
Bitte geben Sie Ihren Abfahrtsort ein!
Sie wollen nach Z fahren?
ja Bitte geben Sie Ihren Zielort ein!
Mensch-Maschine-Kommunikation mit gesprochener Sprache
11
Dialogmodellierung • sprecherunabhängige Spracherkennung ist unsicher • insbesondere bei Telefoneingabe • Erhöhen der Zuverlässigkeit durch Rückfragen
Sie wollen in A abfahren?
Ortsangabe
Ortsangabe nein
Bitte geben Sie Ihren Abfahrtsort ein!
Sie wollen nach Z fahren?
ja
nein Bitte geben Sie Ihren Zielort ein!
Mensch-Maschine-Kommunikation mit gesprochener Sprache
11
Dialogmodellierung • sprecherunabhängige Spracherkennung ist unsicher • insbesondere bei Telefoneingabe • Erhöhen der Zuverlässigkeit durch Rückfragen
Sie wollen in A abfahren?
Ortsangabe
Ortsangabe nein
Bitte geben Sie Ihren Abfahrtsort ein!
Sie wollen nach Z fahren?
ja
nein Bitte geben Sie Ihren Zielort ein!
Mensch-Maschine-Kommunikation mit gesprochener Sprache
ja Bitte geben Sie die Abfahrtszeit ein!
11
Dialogmodellierung
• theoretische Grundlage: deterministischer endlicher Automat
Mensch-Maschine-Kommunikation mit gesprochener Sprache
12
Dialogmodellierung
• theoretische Grundlage: deterministischer endlicher Automat • • •
einfachstes Automatenmodell der Informatik effiziente Implementierung gute Vorhersagefähigkeit → starke Einschränkung des aktiven Wortschatzes
Mensch-Maschine-Kommunikation mit gesprochener Sprache
12
Dialogmodellierung
• theoretische Grundlage: deterministischer endlicher Automat • • •
einfachstes Automatenmodell der Informatik effiziente Implementierung gute Vorhersagefähigkeit → starke Einschränkung des aktiven Wortschatzes
• für natürliche Dialogführung zu rigide → Erweiterungen nötig
Mensch-Maschine-Kommunikation mit gesprochener Sprache
12
Dialogmodellierung
• theoretische Grundlage: deterministischer endlicher Automat • • •
einfachstes Automatenmodell der Informatik effiziente Implementierung gute Vorhersagefähigkeit → starke Einschränkung des aktiven Wortschatzes
• für natürliche Dialogführung zu rigide → Erweiterungen nötig
wechselnde Prompts ”Hineinreden” in den Prompt (barge in) • ... • •
Mensch-Maschine-Kommunikation mit gesprochener Sprache
12
Dialogmodellierung
• Dialogmodellierung erfordert Vorhersehen möglicher
Nutzerreaktionen • Hineinversetzen in den Nutzer • Wizard-of-Oz-Experimente
Mensch-Maschine-Kommunikation mit gesprochener Sprache
13
Dialogmodellierung
• Dialogmodellierung erfordert Vorhersehen möglicher
Nutzerreaktionen • Hineinversetzen in den Nutzer • Wizard-of-Oz-Experimente • Dialogmodellierung schränkt die sprachliche Möglichkeiten eines
Nutzers stark ein • Lenkung des Nutzers durch Vorgabe zulässiger Äußerungen (akustisches Menü)
Mensch-Maschine-Kommunikation mit gesprochener Sprache
13