Kommunikation mit gesprochener Sprache

Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen: Mensch-Maschine-Kommunikation mit gesprochener Sprache 1 Kommunika...
Author: Marie Amsel
2 downloads 6 Views 576KB Size
Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:

Mensch-Maschine-Kommunikation mit gesprochener Sprache

1

Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:

Hören

Kikala brint tovoluti?

Mensch-Maschine-Kommunikation mit gesprochener Sprache

1

Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:

Hören

Erkennen

Winter kochtest ganz Blatt?

Mensch-Maschine-Kommunikation mit gesprochener Sprache

1

Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:

Hören

Erkennen Verstehen

Wann steigt die Party?

Mensch-Maschine-Kommunikation mit gesprochener Sprache

1

Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:

Hören

Erkennen Verstehen

Wann steigt die Party?

Mensch-Maschine-Kommunikation mit gesprochener Sprache

Sprechen

Sintu högafi notsi!

1

Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:

Hören

Erkennen Verstehen

Wann steigt die Party?

Mensch-Maschine-Kommunikation mit gesprochener Sprache

Formulieren Sprechen

Sonderbar werfen die Wellen hinab!

1

Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:

Hören

Erkennen Verstehen Planen Formulieren Sprechen

Wann steigt die Party?

Mensch-Maschine-Kommunikation mit gesprochener Sprache

Am Freitag, im Hirsch!

1

Kommunikation mit gesprochener Sprache ... ... ist mehr als Hören und Sprechen:

Hören

Erkennen Verstehen Planen Formulieren Sprechen

Wann steigt die Party?

Mensch-Maschine-Kommunikation mit gesprochener Sprache

Am Freitag, im Hirsch!

1

Gesprochene Sprache Segmentstruktur Äußerungen

Und

wie

Mensch-Maschine-Kommunikation mit gesprochener Sprache

wäre

es

am

Mittwoch?

2

Gesprochene Sprache Segmentstruktur Äußerungen Phrasen

Und

wie

wäre

es

am

Mittwoch?

wie

wäre

es

am

Mittwoch?

Mensch-Maschine-Kommunikation mit gesprochener Sprache

2

Gesprochene Sprache Segmentstruktur Äußerungen

Und

wie

wäre

es

am

Mittwoch?

Phrasen

wie

wäre

es

am

Mittwoch?

Wörter

wie

wäre

es

Mensch-Maschine-Kommunikation mit gesprochener Sprache

2

Gesprochene Sprache Segmentstruktur Äußerungen

wie

wäre

es

am

Mittwoch?

Phrasen

wie

wäre

es

am

Mittwoch?

Wörter

wie

wäre

es

Silben

Und

wä re

Mensch-Maschine-Kommunikation mit gesprochener Sprache

2

Gesprochene Sprache Segmentstruktur Äußerungen

Und

wie

wäre

es

am

Mittwoch?

Phrasen

wie

wäre

es

am

Mittwoch?

Wörter

wie

wäre

es

Silben

wä re

Laute

w ä r e

Mensch-Maschine-Kommunikation mit gesprochener Sprache

2

Gesprochene Sprache Segmentübergreifende Information (Prosodie)

Mensch-Maschine-Kommunikation mit gesprochener Sprache

3

Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz

Mensch-Maschine-Kommunikation mit gesprochener Sprache

3

Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus

Mensch-Maschine-Kommunikation mit gesprochener Sprache

3

Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus • Lautstärke

Mensch-Maschine-Kommunikation mit gesprochener Sprache

3

Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus • Lautstärke

wird verwendet ...

Mensch-Maschine-Kommunikation mit gesprochener Sprache

3

Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus • Lautstärke

wird verwendet ... • ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...)

Mensch-Maschine-Kommunikation mit gesprochener Sprache

3

Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus • Lautstärke

wird verwendet ... • ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...) • ... zur Gliederung (Phrasen, Sätze)

Mensch-Maschine-Kommunikation mit gesprochener Sprache

3

Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus • Lautstärke

wird verwendet ... • ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...) • ... zur Gliederung (Phrasen, Sätze) • ... zur Moduskennzeichnung (Aussage, Frage, ...)

Mensch-Maschine-Kommunikation mit gesprochener Sprache

3

Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus • Lautstärke

wird verwendet ... • ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...) • ... zur Gliederung (Phrasen, Sätze) • ... zur Moduskennzeichnung (Aussage, Frage, ...) • ... zur Dialogsteuerung (Vergabe der Initiative)

Mensch-Maschine-Kommunikation mit gesprochener Sprache

3

Gesprochene Sprache Segmentübergreifende Information (Prosodie) • Grundfrequenz • Rhythmus • Lautstärke

wird verwendet ... • ... für Hervorhebungen (Neues, Wichtiges, Unerwartetes, ...) • ... zur Gliederung (Phrasen, Sätze) • ... zur Moduskennzeichnung (Aussage, Frage, ...) • ... zur Dialogsteuerung (Vergabe der Initiative) • ... zum Ausdruck von Emotionen (Freude, Angst, Überraschung,

Verlegenheit, ...)

Mensch-Maschine-Kommunikation mit gesprochener Sprache

3

Sprachsynthese

Zwei Herangehensweisen:

Mensch-Maschine-Kommunikation mit gesprochener Sprache

4

Sprachsynthese

Zwei Herangehensweisen:

Vollsynthese • Erzeugen des Sprach-

signals durch Ton- und Rauschgeneratoren • akzeptable Verständlich-

keit • geringe Natürlichkeit

Mensch-Maschine-Kommunikation mit gesprochener Sprache

4

Sprachsynthese

Zwei Herangehensweisen:

Vollsynthese • Erzeugen des Sprach-

reproduktive Synthese • Aufnehmen und Wieder-

signals durch Ton- und Rauschgeneratoren

geben menschlicher Sprachsignale

• akzeptable Verständlich-

• hohe Verständlichkeit

keit • geringe Natürlichkeit

Mensch-Maschine-Kommunikation mit gesprochener Sprache

• gute bis hohe Natürlich-

keit

4

Sprachsynthese reproduktive Synthese Was sind geeignete Basiseinheiten? • ganze Phrasen: nur für Spezialanwendungen • Laute: schlechte Qualität • Kompromiss: flexible Ermittlung der Basiselemente aus

Korpusdaten

Mensch-Maschine-Kommunikation mit gesprochener Sprache

5

Sprachsynthese reproduktive Synthese Was sind geeignete Basiseinheiten? • ganze Phrasen: nur für Spezialanwendungen • Laute: schlechte Qualität • Kompromiss: flexible Ermittlung der Basiselemente aus

Korpusdaten Wie werden die Basiselemente verkettet? • harter Schnitt erzeugt Knackgeräusche • ”weiche” Übergänge erforderlich • prosodische Variation durch spezielle Transformationsverfahren

Mensch-Maschine-Kommunikation mit gesprochener Sprache

5

Spracherkennung

• nur Berücksichtigung von Lautcharakteristika • ”Training” von Modellen auf großen Sprachdatensammlungen • Vernachlässigung der Prosodie • nur Erkennung, kein Sprachverstehen!

Mensch-Maschine-Kommunikation mit gesprochener Sprache

6

Spracherkennung

Spracherkenner

und wie wäre es am Montag

Mensch-Maschine-Kommunikation mit gesprochener Sprache

7

Spracherkennung

Spracherkenner

Merkmalsextraktion

Mensch-Maschine-Kommunikation mit gesprochener Sprache

und wie wäre es am Montag

7

Spracherkennung

Spracherkenner

Merkmalsextraktion

Mensch-Maschine-Kommunikation mit gesprochener Sprache

Worterkenner

und wie wäre es am Montag

7

Spracherkennung

Spracherkenner

Merkmalsextraktion

Mensch-Maschine-Kommunikation mit gesprochener Sprache

Lautmodelle

Worterkenner

und wie wäre es am Montag

7

Spracherkennung

Spracherkenner

Lautmodelle

• Modelle für jeden Laut im Kontext seiner Nachbarlaute Merkmals-

Worterkenner



• • •

m-a+m, m-a+n,extraktion d-a+n, ... Berechnung der Wahrscheinlichkeit, dass das Sprachsignal durch das Modell erzeugt wurde Zustände, Zustandsübergänge Transitionswahrscheinlichkeiten Emissionswahrscheinlichkeiten

Mensch-Maschine-Kommunikation mit gesprochener Sprache

und wie wäre es am Montag

7

Spracherkennung trainiert auf Signaldaten

Spracherkenner

Merkmalsextraktion

Mensch-Maschine-Kommunikation mit gesprochener Sprache

Lautmodelle

Worterkenner

und wie wäre es am Montag

7

Spracherkennung trainiert auf Signaldaten

Spracherkenner

Merkmalsextraktion

Mensch-Maschine-Kommunikation mit gesprochener Sprache

Lautmodelle

AusspracheWörterbuch

Worterkenner

und wie wäre es am Montag

7

Spracherkennung trainiert auf Signaldaten Laut-

Spracherkenner • eine oder mehrere Lautfolgen fürmodelle jede Wortform Mittwo h m i t v o x sp wäre v eh r 2 sp Merkmals• Verkettung von Lautmodellen zu extraktion

AusspracheWörterbuch

Worterkenner

und wie wäre es am Montag

Wortmodellen

Mittwo h: sp-m+i m-i+t i-t+v t-v+o ...

Mensch-Maschine-Kommunikation mit gesprochener Sprache

7

Spracherkennung trainiert auf Signaldaten

Spracherkenner

Merkmalsextraktion

Mensch-Maschine-Kommunikation mit gesprochener Sprache

Lautmodelle

manuell erstellt AusspracheWörterbuch

Worterkenner

und wie wäre es am Montag

7

Spracherkennung trainiert auf Signaldaten

Spracherkenner

Merkmalsextraktion

Lautmodelle

manuell erstellt AusspracheWörterbuch

Worterkenner

und wie wäre es am Montag

Sprachmodell

Mensch-Maschine-Kommunikation mit gesprochener Sprache

7

Spracherkennung trainiert auf Signaldaten • Berechnung der Wahrscheinlichkeit

für komplette Äußerungen Spracherkenner

Lautmodelle

manuell erstellt AusspracheWörterbuch

• Wahrscheinlichkeiten für Wortpaare,

-tripel oder -quadrupel p(wir|dann wollen) Merkmalsp(Mittwoch|dann wollen)

Worterkenner extraktion • wenig geeignet für Dialogsysteme

und wie wäre es am Montag

Sprachmodell

Mensch-Maschine-Kommunikation mit gesprochener Sprache

7

Spracherkennung trainiert auf Signaldaten

Spracherkenner

Merkmalsextraktion

Lautmodelle

manuell erstellt AusspracheWörterbuch

Worterkenner

und wie wäre es am Montag

Sprachmodell

trainiert auf Texten Mensch-Maschine-Kommunikation mit gesprochener Sprache

7

Spracherkennung trainiert auf Signaldaten

Spracherkenner

Merkmalsextraktion

Lautmodelle

manuell erstellt AusspracheWörterbuch

Worterkenner

und wie wäre es am Montag

Sprachmodell

trainiert auf Texten Mensch-Maschine-Kommunikation mit gesprochener Sprache

7

Spracherkennung trainiert auf Signaldaten

Spracherkenner

Merkmalsextraktion

Lautmodelle

manuell erstellt AusspracheWörterbuch

Worterkenner

Sprach-

Dialog-

modell

modell

und wie wäre es am Montag

trainiert auf Texten Mensch-Maschine-Kommunikation mit gesprochener Sprache

7

Spracherkennung trainiert auf Signaldaten

Spracherkenner

Merkmalsextraktion

Lautmodelle

manuell erstellt AusspracheWörterbuch

Worterkenner

Sprach-

Dialog-

modell

modell

und wie wäre es am Montag

trainiert auf Texten manuell erstellt Mensch-Maschine-Kommunikation mit gesprochener Sprache

7

Spracherkennung trainiert auf Signaldaten

Spracherkenner

Merkmalsextraktion

Lautmodelle

manuell erstellt AusspracheWörterbuch

Worterkenner

Sprach-

Dialog-

modell

modell

und wie wäre es am Montag

trainiert auf Texten manuell erstellt Mensch-Maschine-Kommunikation mit gesprochener Sprache

7

Dialogmodellierung • dynamische Einschränkung des Erkennerwortschatzes in

Abhängigkeit vom Dialogzustand

Mensch-Maschine-Kommunikation mit gesprochener Sprache

8

Dialogmodellierung • dynamische Einschränkung des Erkennerwortschatzes in

Abhängigkeit vom Dialogzustand • Wozu braucht man das?

Mensch-Maschine-Kommunikation mit gesprochener Sprache

8

Dialogmodellierung • dynamische Einschränkung des Erkennerwortschatzes in

Abhängigkeit vom Dialogzustand • Wozu braucht man das? •

Erkennungssicherheit erhöhen → Was wurde gesagt?

Mensch-Maschine-Kommunikation mit gesprochener Sprache

8

Dialogmodellierung • dynamische Einschränkung des Erkennerwortschatzes in

Abhängigkeit vom Dialogzustand • Wozu braucht man das? •

Erkennungssicherheit erhöhen → Was wurde gesagt? ähnliche Aussprache: Mai oder drei? verschiedene Sprecher • schlechte Übertragungsqualität • •

Mensch-Maschine-Kommunikation mit gesprochener Sprache

8

Dialogmodellierung • dynamische Einschränkung des Erkennerwortschatzes in

Abhängigkeit vom Dialogzustand • Wozu braucht man das? •

Erkennungssicherheit erhöhen → Was wurde gesagt? ähnliche Aussprache: Mai oder drei? verschiedene Sprecher • schlechte Übertragungsqualität • •



semantische Interpretation erleichtern → Was wird von der Maschine erwartet?

Mensch-Maschine-Kommunikation mit gesprochener Sprache

8

Dialogmodellierung • dynamische Einschränkung des Erkennerwortschatzes in

Abhängigkeit vom Dialogzustand • Wozu braucht man das? •

Erkennungssicherheit erhöhen → Was wurde gesagt? ähnliche Aussprache: Mai oder drei? verschiedene Sprecher • schlechte Übertragungsqualität • •



semantische Interpretation erleichtern → Was wird von der Maschine erwartet? • Zahl → Geldbetrag, Uhrzeit, Datum, Kontonummer, ... • Mehrdeutigkeit: Wann werden S/sie kommen? • Referenzauflösung: Was wird durch sie bezeichnet?

Mensch-Maschine-Kommunikation mit gesprochener Sprache

8

Dialogmodellierung • dynamische Einschränkung des Erkennerwortschatzes in

Abhängigkeit vom Dialogzustand • Wozu braucht man das? •

Erkennungssicherheit erhöhen → Was wurde gesagt? ähnliche Aussprache: Mai oder drei? verschiedene Sprecher • schlechte Übertragungsqualität • •

semantische Interpretation erleichtern → Was wird von der Maschine erwartet? • Zahl → Geldbetrag, Uhrzeit, Datum, Kontonummer, ... • Mehrdeutigkeit: Wann werden S/sie kommen? • Referenzauflösung: Was wird durch sie bezeichnet? • eine Maschine hat keinen gesunden Menschenverstand! •

Mensch-Maschine-Kommunikation mit gesprochener Sprache

8

Dialogmodellierung • Dialogzustände: Aufforderung zur Eingabe (Prompt) • Übergänge zwischen Dialogzuständen: Erkennung von

Nutzeräußerungen

Mensch-Maschine-Kommunikation mit gesprochener Sprache

9

Dialogmodellierung • Dialogzustände: Aufforderung zur Eingabe (Prompt) • Übergänge zwischen Dialogzuständen: Erkennung von

Nutzeräußerungen

Bitte geben Sie Ihren Abfahrtsort ein!

Mensch-Maschine-Kommunikation mit gesprochener Sprache

9

Dialogmodellierung • Dialogzustände: Aufforderung zur Eingabe (Prompt) • Übergänge zwischen Dialogzuständen: Erkennung von

Nutzeräußerungen Berlin Dresden Düsseldorf Bitte geben Sie Ihren Abfahrtsort ein!

Hamburg Köln München

Bitte geben Sie Ihren Zielort ein!

... Stuttgart

Mensch-Maschine-Kommunikation mit gesprochener Sprache

9

Dialogmodellierung • Dialogzustände: Aufforderung zur Eingabe (Prompt) • Übergänge zwischen Dialogzuständen: Erkennung von

Nutzeräußerungen

Bitte geben Sie Ihren Abfahrtsort ein!

Berlin

Berlin

Dresden

Dresden

Düsseldorf

Düsseldorf

Hamburg Köln München

Bitte geben Sie Ihren Zielort ein!

Hamburg Köln München

...

...

Stuttgart

Stuttgart

Mensch-Maschine-Kommunikation mit gesprochener Sprache

Bitte geben Sie die Abfahrtszeit ein!

9

Dialogmodellierung

• Mehrfachverwendung von Teilnetzen

Bitte geben Sie Ihren Abfahrtsort ein!

Mensch-Maschine-Kommunikation mit gesprochener Sprache

10

Dialogmodellierung

• Mehrfachverwendung von Teilnetzen

Bitte geben Sie Ihren Abfahrtsort ein!

Ortsangabe

Bitte geben Sie Ihren Zielort ein!

Mensch-Maschine-Kommunikation mit gesprochener Sprache

10

Dialogmodellierung

• Mehrfachverwendung von Teilnetzen

Bitte geben Sie Ihren Abfahrtsort ein!

Ortsangabe

Bitte geben Sie Ihren Zielort ein!

Mensch-Maschine-Kommunikation mit gesprochener Sprache

Ortsangabe

Bitte geben Sie die Abfahrtszeit ein!

10

Dialogmodellierung • sprecherunabhängige Spracherkennung ist unsicher • insbesondere bei Telefoneingabe • Erhöhen der Zuverlässigkeit durch Rückfragen

Bitte geben Sie Ihren Abfahrtsort ein!

Mensch-Maschine-Kommunikation mit gesprochener Sprache

11

Dialogmodellierung • sprecherunabhängige Spracherkennung ist unsicher • insbesondere bei Telefoneingabe • Erhöhen der Zuverlässigkeit durch Rückfragen

Sie wollen in A abfahren?

Ortsangabe

Bitte geben Sie Ihren Abfahrtsort ein!

Mensch-Maschine-Kommunikation mit gesprochener Sprache

11

Dialogmodellierung • sprecherunabhängige Spracherkennung ist unsicher • insbesondere bei Telefoneingabe • Erhöhen der Zuverlässigkeit durch Rückfragen

Sie wollen in A abfahren?

Ortsangabe nein Bitte geben Sie Ihren Abfahrtsort ein!

Mensch-Maschine-Kommunikation mit gesprochener Sprache

11

Dialogmodellierung • sprecherunabhängige Spracherkennung ist unsicher • insbesondere bei Telefoneingabe • Erhöhen der Zuverlässigkeit durch Rückfragen

Sie wollen in A abfahren?

Ortsangabe nein Bitte geben Sie Ihren Abfahrtsort ein!

ja Bitte geben Sie Ihren Zielort ein!

Mensch-Maschine-Kommunikation mit gesprochener Sprache

11

Dialogmodellierung • sprecherunabhängige Spracherkennung ist unsicher • insbesondere bei Telefoneingabe • Erhöhen der Zuverlässigkeit durch Rückfragen

Sie wollen in A abfahren?

Ortsangabe

Ortsangabe nein

Bitte geben Sie Ihren Abfahrtsort ein!

Sie wollen nach Z fahren?

ja Bitte geben Sie Ihren Zielort ein!

Mensch-Maschine-Kommunikation mit gesprochener Sprache

11

Dialogmodellierung • sprecherunabhängige Spracherkennung ist unsicher • insbesondere bei Telefoneingabe • Erhöhen der Zuverlässigkeit durch Rückfragen

Sie wollen in A abfahren?

Ortsangabe

Ortsangabe nein

Bitte geben Sie Ihren Abfahrtsort ein!

Sie wollen nach Z fahren?

ja

nein Bitte geben Sie Ihren Zielort ein!

Mensch-Maschine-Kommunikation mit gesprochener Sprache

11

Dialogmodellierung • sprecherunabhängige Spracherkennung ist unsicher • insbesondere bei Telefoneingabe • Erhöhen der Zuverlässigkeit durch Rückfragen

Sie wollen in A abfahren?

Ortsangabe

Ortsangabe nein

Bitte geben Sie Ihren Abfahrtsort ein!

Sie wollen nach Z fahren?

ja

nein Bitte geben Sie Ihren Zielort ein!

Mensch-Maschine-Kommunikation mit gesprochener Sprache

ja Bitte geben Sie die Abfahrtszeit ein!

11

Dialogmodellierung

• theoretische Grundlage: deterministischer endlicher Automat

Mensch-Maschine-Kommunikation mit gesprochener Sprache

12

Dialogmodellierung

• theoretische Grundlage: deterministischer endlicher Automat • • •

einfachstes Automatenmodell der Informatik effiziente Implementierung gute Vorhersagefähigkeit → starke Einschränkung des aktiven Wortschatzes

Mensch-Maschine-Kommunikation mit gesprochener Sprache

12

Dialogmodellierung

• theoretische Grundlage: deterministischer endlicher Automat • • •

einfachstes Automatenmodell der Informatik effiziente Implementierung gute Vorhersagefähigkeit → starke Einschränkung des aktiven Wortschatzes

• für natürliche Dialogführung zu rigide → Erweiterungen nötig

Mensch-Maschine-Kommunikation mit gesprochener Sprache

12

Dialogmodellierung

• theoretische Grundlage: deterministischer endlicher Automat • • •

einfachstes Automatenmodell der Informatik effiziente Implementierung gute Vorhersagefähigkeit → starke Einschränkung des aktiven Wortschatzes

• für natürliche Dialogführung zu rigide → Erweiterungen nötig

wechselnde Prompts ”Hineinreden” in den Prompt (barge in) • ... • •

Mensch-Maschine-Kommunikation mit gesprochener Sprache

12

Dialogmodellierung

• Dialogmodellierung erfordert Vorhersehen möglicher

Nutzerreaktionen • Hineinversetzen in den Nutzer • Wizard-of-Oz-Experimente

Mensch-Maschine-Kommunikation mit gesprochener Sprache

13

Dialogmodellierung

• Dialogmodellierung erfordert Vorhersehen möglicher

Nutzerreaktionen • Hineinversetzen in den Nutzer • Wizard-of-Oz-Experimente • Dialogmodellierung schränkt die sprachliche Möglichkeiten eines

Nutzers stark ein • Lenkung des Nutzers durch Vorgabe zulässiger Äußerungen (akustisches Menü)

Mensch-Maschine-Kommunikation mit gesprochener Sprache

13

Suggest Documents