XML Clearinghouse Report 4

XML Clearinghouse Report 4 VoiceXML – Markt und Möglichkeiten Herausgeber: Prof. Dr.-Ing. Robert Tolksdorf Freie Universität Berlin Institut für Info...
Author: Fritzi Müller
1 downloads 0 Views 131KB Size
XML Clearinghouse Report 4 VoiceXML – Markt und Möglichkeiten

Herausgeber: Prof. Dr.-Ing. Robert Tolksdorf Freie Universität Berlin Institut für Informatik Netzbasierte Informationssysteme Dr. Rainer Eckstein Humboldt-Universität zu Berlin Institut für Informatik Datenbanken und Informationssysteme

[email protected] www.xml-clearinghouse.de © XML Clearinghouse

-1-

VoiceXML – Markt und Möglichkeiten Silvan Heintze, Universität Potsdam Oktober 2003

-2-

Inhaltsverzeichnis 1.

Einleitung............................................................................................................. 4

2.

Eigenschaften von VoiceXML aus Entwicklersicht .............................................. 4

3.

4.

2.1.

Gründe für den Einsatz von VoiceXML.................................................................................. 4

2.2.

Defizite ................................................................................................................................... 5

Sprachanwendungen in der Theorie: Anforderungen und Möglichkeiten ............ 6 3.1.

Einsatzgebiete........................................................................................................................ 6

3.2.

Dialogführung......................................................................................................................... 7

3.3.

Sprachausgabe ...................................................................................................................... 7

3.4.

Spracherkennung, Grammatiken ........................................................................................... 8

3.5.

Hilfe- und Fallback-Systeme .................................................................................................. 8

3.6.

Abrechnung der Dienstleistung .............................................................................................. 9

Sprachanwendungen in der Praxis: die Realität.................................................. 9 4.1.

Sparda-Bank Hamburg .......................................................................................................... 9

4.2.

Schwab-Versand.................................................................................................................. 10

4.3.

L.U.C.Y. – Partnervermittlung .............................................................................................. 11

4.4.

clevertanken.de – Tankstellenfinder .................................................................................... 11

4.5.

glonz.com – Internetoffice .................................................................................................... 11

4.6.

hitchhikers.de – Mitfahrzentrale ........................................................................................... 12

4.7.

Kelloggs Frosties für Schulsport – Marketing-Aktion ........................................................... 12

4.8.

ENAiKOON tele-pos – Fahrzeugortung ............................................................................... 13

4.9.

Bezirksamt Hellersdorf – Bearbeitungsstatus von Personaldokumenten............................ 13

DirektExpress – Paketverfolgung...................................................................................................... 14 4.10.

5.

weitere Anwendungen.......................................................................................................... 14

Sprachanwendungen außerhalb des VoiceXML-Standards ...............................14 5.1.

„Fränki“ – Kinoauskunft für Bayern ...................................................................................... 14

5.2.

Deutsche Bahn Fahrplanauskunft........................................................................................ 15

6.

Übersicht ............................................................................................................16

7.

Perspektiven in der Entwicklung.........................................................................17

8.

7.1.

Telefonie-Dienste ................................................................................................................. 17

7.2.

Software-Steuerung ............................................................................................................. 17

7.3.

Multimodalität ....................................................................................................................... 17

Fazit....................................................................................................................17

-3-

1. Einleitung Computergesteuerte Sprachanwendungen gewinnen in den letzten Jahren mehr und mehr an Bedeutung. Mit steigender Qualität der Spracherkennung und der synthetisierten Computerstimmen wird ihre Benutzung für den Anwender zunehmend attraktiv und aus Sicht der betreibenden Firmen können zahlreiche Kommunikations- und Geschäftsabläufe automatisiert werden. Insbesondere der vom W3C veröffentlichte Standard VoiceXML, der seit kurzem in der Version 2.0 [W1] vorliegt, hat wesentlich zur Entwicklung solcher Sprachsysteme beigetragen. Die vorliegende Arbeit untersucht, wie dieser Standard im deutschsprachigen Raum angenommen wurde, d.h. welche Art von kommerziellen Applikationen erstellt wurden, wie gut diese am Markt „sichtbar“ sind und welche Firmen die Entwicklung vorantreiben. Sie beschreibt dafür zunächst die Eigenschaften von VoiceXML mit ihren Vorzügen und Defiziten aus Sicht der Entwickler. Im zweiten Schritt werden die aktuellen technischen Möglichkeiten in Bezug auf Einzelkomponenten von Voice-Applikationen beleuchtet sowie Kriterien gesammelt, anhand derer eine Betrachtung existierender Anwendungen vorgenommen werden kann. Im dritten Teil werden Sprachanwendungen im Detail erläutert, die sich in Deutschland derzeit erfolgreich im Betrieb befinden und folglich im Rahmen der Studie per Testanruf betrachtet werden konnten. Der Untersuchung gingen ausführliche Interviews mit führenden Unternehmen der Branche voraus, die einerseits Projektentwicklungen im Auftrag von Betreibern vornehmen (SemanticEdge GmbH [F1], 8hertz technologies GmbH [F2], Mundwerk AG [F3], Clarity AG [F4]) und andererseits Werkzeuge und Unterstützung zur selbsttätigen Erstellung solcher Anwendungen anbieten (SemanticEdge GmbH [F1], VoiceObjects AG [F5]). Die Interviews verdeutlichten insbesondere erhebliche Herausforderungen in Bezug auf die Akzeptanz von Voice-Anwendungen. Diese bestehen nicht so sehr auf Seite der Endnutzer, als vielmehr bei potenziellen Betreiberfirmen, die befürchten, ihren Kundenstamm durch die Einführung automatisierter Sprachportale abzuschrecken. Zum Teil sahen befragte Firmen daher davon ab, ihre im Live-Betrieb befindlichen Anwendungen als Referenzsysteme anzugeben. Hinzu kommt das wirtschaftsethische Problem der Kostenreduzierung durch eine möglicherweise erhebliche Call-CenterEntlastung, welche in den Befürchtungen nicht selten auch mit Arbeitsplatzabbau in Verbindung gebracht wird. Die in der Arbeit vorgestellte Sammlung von Voice-Applikationen ermöglicht einen Überblick über das Marktgeschehen, kann aber keinen Anspruch auf Vollständigkeit erheben. Der Fokus liegt auf Telefon-Dienstleistungen, die einem möglichst breiten Nutzerkreis zugänglich sind, und die auch ein wirtschaftliches Erfolgsmodell darstellen. Die Existenz weiterer VoiceXML-Anwendungen z.B. im Bereich der Mobilfunk-Dienstleistungen wie Anrufbeantworter-Bedienung sowie jeglicher sonstigen Software-Steuerung ist nicht ausgeschlossen. Im vierten Teil finden zwei Sprachdialog-Systeme Erwähnung, deren Entwicklung sich aus historischen Gründen nicht auf VoiceXML stützt. Auch diese tragen zur Sichtbarkeit der Voice-Technologien in der Bevölkerung bei und können helfen, die Akzeptanz der Kunden gegenüber computergestützten Sprachsystemen zu erhöhen. Schließlich sollen mögliche Perspektiven beleuchtet und Aussagen zur Richtung der voraussichtlichen Entwicklung vorgenommen werden. Ein abschließendes Fazit fasst den Stand der Umsetzung bestehender technischer Möglichkeiten sowie die weiteren Erkenntnisse der Untersuchung zusammen.

2. Eigenschaften von VoiceXML aus Entwicklersicht 2.1.

Gründe für den Einsatz von VoiceXML

VoiceXML ist eine vom W3C erarbeitete Auszeichnungssprache auf Basis des XMLStandards, der eine jahrelange Entwicklung von Unternehmen wie IBM, AT&T, Motorola -4-

und Lucent vorausgegangen war. [W2] Sie ermöglicht die Erstellung von Audiodialogen, die künstliche Sprache, digitale Audiosignale, Spracherkennung und Tastenton-Eingaben, normale Telefonie und gemischte Konversation verarbeiten können. [W3] Aus Sicht der Entwickler von Sprachanwendungen bietet es zahlreiche Vorteile, die es nahe legen, VoiceXML proprietären Lösungen vorzuziehen. Die Tatsache, dass mit VoiceXML erstmals ein allgemein anerkannter Standard für den Bereich der Dialogentwicklung zur Verfügung steht, bedeutet zunächst eine große Flexibilität im Einsatz unterschiedlicher Komponenten, aus denen die Anwendung besteht. Führende globale Unternehmen aus der Sprach-, Telekommunikations- und Internet-Technologie unterstützen VoiceXML, so wird beispielsweise die Integration unterschiedlicher Spracherkennungs- und Sprachsynthese-Systeme ermöglicht. Das garantiert zum einen die Herstellerunabhängigkeit bei der Anwendungserstellung und fördert zum anderen die Entwicklung der Einzelkomponenten. Gleiches gilt prinzipiell für die Unabhängigkeit von Plattformen verschiedenster Anbieter, die letztlich den Zugang zur Anwendung per Telefon realisieren. Ein zweiter Vorteil besteht in der Analogie zum WWW-Standard HTML. VoiceXML definiert einen Dialog zwischen Anrufer und Anwendung, wo HTML ein visuelles Interface für den Datenzugang gewährt, so dass auf diese Weise Sprachanwendungen nahtlos in ein Multi-Access-Portal eingebunden werden können. Da im Gegensatz zum Internet mit 30%, das Telefon von etwa 95% der Bevölkerung genutzt wird, erhöht sich die Kundenreichweite massiv. [W4] Im Zusammenhang damit bieten sich im Betrieb von VoiceXML-Anwendungen alle im Bereich der Webseiten-Entwicklung bereits etablierten Technologien wie Java Server Pages und Servlets, Active Server Pages, Perl, PHP u.ä. zur Generierung dynamischer Inhalte an, so dass Datenbank-Anbindung und -Logik sowie die grundlegende Infrastruktur für Webseiten weiter verwendet werden können. [W2] Die Voice-Anwendung greift dabei auf die selbe Datenbank zu wie der Internetauftritt. VoiceXML ist eine XML-Anwendung, also eine domänenspezifische Auszeichnungssprache auf Basis des XML-Standards [L1], und öffnet sich somit einer breiten Familie anderer Sprachen im XML-Format. Es existieren verwandte XML-Anwendungen, mit denen die Beschreibung von Sprachapplikationen dort ergänzt werden kann, wo VoiceXML nicht mehr genügt, so zum Beispiel • SSML (Speech Synthesis Markup Language) zur Bestimmung, auf welche Weise Text in natürliche Sprache umgesetzt wird [W5] • SGRS (Speech Recognition Grammar Specification) zur Grammatikbeschreibung [W6] • CcXML (Call Control XML) zur Kontrolle von Telefonie-Szenarien wie Weiterleitung, Konferenzschaltung oder Rückruf [W7] Verbunden mit dem hinter der Technologie stehenden jahrelang aufgebauten Know-how der Entwickler-Gemeinde bietet VoiceXML den Betreibern von Sprachportalen somit eine zukunftsgerichtete Investitionssicherheit, wo der Einsatz proprietärer Lösungen zum betriebswirtschaftlichen Risiko wird.

2.2.

Defizite

Einige der häufig genannten Defizite des reinen VoiceXML-Standards wie sein statischer Charakter oder mangelhafte Telefonie-Kontrolle können durch die beschriebenen Eigenschaften umgangen werden, andere bereiten in der Praxis noch Schwierigkeiten. Wesentlichster Nachteil zum jetzigen Zeitpunkt der Entwicklung ist die Diversifizierung von VoiceXML-Dialekten. Zum einen werden diese durch die unterschiedlichen Entwicklungswerkzeuge erstellt, zum anderen sorgen aber auch Einschränkungen der zugrunde liegende Plattform dafür, dass ein universeller Einsatz von VoiceXML-Projekten -5-

nicht immer gewährleistet ist, vergleichbar mit der Beschränkung einzelner Webseiten auf bestimmte Browser.

3. Sprachanwendungen in der Theorie: Anforderungen und Möglichkeiten 3.1. Einsatzgebiete Heutzutage erleichtern Computer dem Menschen an unzähligen Stellen das Leben. Wo der Umgang mit dem Internet an Tastatur, Maus und Bildschirm den Zugang zu Informationen und die Kommunikation erheblich verändert hat, besitzt „die sprechende Maschine“ nun das Potenzial, die Erreichbarkeit solcher Systeme weiter zu vereinfachen. Die Sprache als natürliches Medium ermöglicht dem Nutzer einen ungezwungenen Umgang mit dem Computer und kann Barrieren beseitigen, die den Zugang heute noch erschweren. Sprachanwendungen müssen dazu erheblich höhere Anforderungen erfüllen, um einerseits Effizienz und andererseits Natürlichkeit in der Interaktion von Mensch und Maschine zu gewährleisten. Der sequenzielle Charakter des Mediums Sprache schränkt mögliche Anwendungsgebiete im Vergleich zum textbasierten Internet-Browser stark ein und macht es notwendig, die Sinnhaftigkeit seines Einsatzes gründlich zu untersuchen. Mögliche Anwendungsbereiche lassen sich hierbei in fünf Kategorien einteilen: • Ausgabe von Information – dem Nutzer werden nach Abfrage seines Wunsches Daten unterschiedlichster Art zur Verfügung gestellt. Eine Identifikation des Anrufers oder Speicherung seiner Angaben ist nicht notwendig. Beispiel: Kino-, Wetter-, Bahnauskunft • Erfassung von Information und self service – der Nutzer hat die Möglichkeit, seinerseits Daten unterschiedlichster Art an das System zu übermitteln, oder allein ihn betreffende Auskünfte einzuholen. Hierzu muss der Anrufer identifiziert werden, um eine zuverlässige Betreuung des Kunden zu ermöglichen. Beispiel: Zählerstandserfassung, e-mail-Zugang per Telefon • Transaktionen – der Nutzer veranlasst über das System selbstständig Geschäftsvorgänge. Hierzu ist über die Identifikation des Nutzers hinaus auch eine strenge Autorisierung notwendig, damit der Anruf einen Vertragscharakter erhalten kann. Beispiel: Überweisungen beim Telefon-Banking oder Bestellaufnahmen im e-commerce-Bereich • Entertainment und Marketing – ähnlich Online-Spielen und Chaträumen oder in der Durchführung von Marketingaktionen kann der Anrufer mithilfe eines Dialogsystems unterhalten werden. Beispiel: Partnervermittlung, Gewinnspiele • Anruferqualifizierung – das System dient dazu, Identität des Nutzers und Hintergrund seines Anrufes zu ermitteln, um ihn schnell und direkt an einen zuständigen Mitarbeiter weiterzuleiten. Beispiel: automatisierte Telefonzentrale Obwohl der Einsatz von Sprachcomputern in diesen isolierten Bereichen auch einzeln denkbar ist, können größere Portale eine Kombination verschiedener Module zur Verfügung stellen. Grundsätzlich läuft ihr Einsatz meist auf die Ersetzung oder Entlastung von CallCentern hinaus, in der späteren Betrachtung existierender Systeme wird hierauf noch näher eingegangen werden.

-6-

3.2. Dialogführung In der Theorie sind zwei Ansätze der Dialoggestaltung einer Sprachanwendung zu unterscheiden: • systemgesteuerte Dialogführung – hier leitet die Anwendung den Nutzer mithilfe gezielter Fragen Schritt für Schritt durch eine Menüstruktur. Beispiel: „Bitte nennen Sie ihren Abfahrtsbahnhof.“ • nutzergesteuerte Dialogführung – die Initiative der Gesprächsführung verbleibt beim Anrufer und das System fragt nur an den Stellen gezielt nach, wo Angaben fehlen oder Äußerungen nicht verstanden wurden. Beispiel: „Wie kann ich ihnen helfen?“ Im Sinne einer möglichst natürlichen Dialoggestaltung ist diesem zweiten Ansatz stets der Vorzug zu geben, doch nicht nur technische Herausforderungen stehen der einwandfreien Funktion solcher Systeme noch im Weg. Insbesondere auch die Tatsache, dass viele Anrufer den Umgang mit Sprachcomputern nicht gewohnt sind, führt zu Unsicherheiten und Hemmungen bei den Nutzern. In ihrem subjektiven Empfinden muss sich also eine Menüsteuerung nicht notwendigerweise negativ auf die Attraktivität der Anwendung auswirken. Andererseits kommt es dem bereits geübten Anrufer sehr entgegen, wenn er alternativ zu vielen Einzelfragen seinen Wunsch auch mit einer einzigen Äußerung übermitteln kann. Das System muss also auch hier nicht auf einen der beiden Ansätze festgelegt sein. Es kann den z.B. durch Authentifizierung oder Rufnummernerkennung als häufigen Nutzer erkannten Anrufer mit „Wie kann ich ihnen helfen?“ begrüßen, während der Erstnutzer durch eine Menüstruktur geführt wird. Für kleine, in ihrer Funktion sehr beschränkte Systeme wie z.B. einen Weckdienst, der ausschließlich Telefonnummer und Weckzeit aufnehmen muss, ist eine offene Dialoggestaltug sehr viel weniger sinnvoll, als z.B. für ein großes Telefon-Banking-Portal. Beide Ansätze finden sich in den bereits implementierten Systemen. Wichtig für den Anrufer ist eine möglichst angenehme Dialogführung, was vor allem bedeutet, dass das Empfinden von Eintönigkeit und Langeweile verhindert werden muss. Eine hierfür zentrale Funktion ist die sog. barge-in-Fähigkeit, die es dem Anrufer erlaubt, Ansagen des Systems zu jedem beliebigen Zeitpunkt zu unterbrechen. Alle gängigen VoiceXMLAnwendungen unterstützen diese Funktion, an bestimmten Stellen kann es sich jedoch als sinnvoll erweisen, sie punktuell abzuschalten. Um sicherzustellen, dass der Anrufer die gesamte Information zur Kenntnis genommen hat, können beispielsweise der Begrüßungstext oder bestimmte Hilfe-Funktionen häufig nicht unterbrochen werden.

3.3. Sprachausgabe Die Fähigkeit des Systems, mit dem Menschen zu kommunizieren, setzt zunächst voraus, dass es sich selbst dem Anrufer verständlich machen kann. Bei der Sprachausgabe sind zu unterscheiden: • vorab mithilfe eines Sprechers aufgenommene Ansagen, die passend ausgewählt und per Audio-Datei wiedergegeben werden, • automatische Text-to-Speech-Systeme, (TTS) mit deren Hilfe beliebige Texte von einer synthetischen Computerstimme vorgelesen werden. In der Positionierung zu einem der beiden Ansätze gehen die Ansichten der Entwickler von Sprachanwendungen auseinander. Während aus Gründen der Sprachqualität Audio-Dateien noch sehr häufig zur Anwendung kommen, wird auch die inzwischen sehr gute Qualität und hohe Akzeptanz von TTS-Systemen beim Anwender betont. Entsprechend finden sich sowohl Anwendungen, die vollständig auf Audio-Dateien basieren als auch solche, die zu 100% auf TTS setzen. Auch hier muss die Entscheidung immer in Abhängigkeit von der betreffenden Anwendung -7-

fallen, da für kleine Projekte die Aufnahme einiger weniger Ansagen unter Umständen unkompliziert ist, große Portale oder Anwendungen mit sehr dynamischen Inhalten haben jedoch oft keine Alternative zur Verwendung von TTS. Auch hier ist eine Mischung beider Systeme innerhalb einer Anwendung nicht ausgeschlossen, allerdings wird ein Wechsel vom menschlichen Sprecher zur Maschinenstimme innerhalb eines Satzes nach Möglichkeit vermieden.

3.4. Spracherkennung, Grammatiken Die Spracherkennung der Nutzeräußerungen ist ein Kernpunkt aller Voice-Anwendungen. Grundsätzlich funktionieren alle Telefon-Systeme sprecherunabhängig, da sie einem breiten, unbekannten Nutzerkreis zur Verfügung stehen müssen. Die erfolgreiche Erkennung ist dabei immer abhängig von der Größe der zugrunde liegenden Grammatik: je mehr potenzielle Äußerungen abgedeckt werden, desto geringer die Erfolgsquote. Dies begründet die technischen Schwierigkeiten bei der Erstellung eines nutzergesteuerten Dialogs, doch sind die bereits erzielten Erfolge viel versprechend. Kleine Grammatiken, die z.B. Ziffern bzw. Zahlenblöcke oder „ja/nein“ - Äußerungen abdecken, funktionieren sehr zuverlässig, aber auch sehr große Grammatiken, welche z.B. eine deutschlandweite Adressen- und Namenserkennung ermöglichen, sind erfolgreich implementiert. Abhängig von der Art der Dialogführung sind Grammatiken entweder in der Lage, einzelne Informationen gezielt zu erkennen, oder mehrere Angaben innerhalb einer Aussage gleichzeitig zu erfassen. Dieses sog. multi-slot-filling beschleunigt den Umgang mit dem System z.B. für geübte Anwender zwar erheblich, ist in der Erkennungsqualität aber naturgemäß mit einer höheren Fehlerquote verbunden. Neuere Technologien ermöglichen im Zusammenhang mit stochastischen MaschinenLernverfahren eine Schlagworterkennung, so dass nicht mehr jedes einzelne Wort einer Äußerung durch die Grammatik abgedeckt sein muss, sondern die Teile ohne Informationsgehalt ignoriert werden können. Diese Systeme müssen anhand umfangreicher Daten aufwändig trainiert werden und werden daher noch nicht häufig eingesetzt.

3.5. Hilfe- und Fallback-Systeme So erfolgreich Spracherkennungs-Systeme auch sein mögen, keines kann eine vollständige Erkennung jeder Nutzer-Äußerung garantieren. Sprachanwendungen verfügen daher stets über umfangreiche Hilfe-Systeme, die es dem Nutzer erleichtern sollen, im Falle eines auftretenden Fehlers dennoch den gewünschten Erfolg zu erzielen. Neben der gängigen Funktion, zu jedem beliebigen Zeitpunkt des Gespräches „Hilfe“ zu sagen und somit nützliche Informationen zum aktuellen Dialog zu erhalten, gibt es diverse mehrstufige Strategien, wie mit Erkennungsfehlern umgegangen werden kann. Eine erste Ebene stellt der Wechsel vom nutzergesteuerten Dialog zum systemgesteuerten Dialog dar. Dieses als sehr natürlich empfundene Vorgehen entspricht auch der menschlichen Kommunikation, bei der unverständliche Teile der Äußerungen Schritt für Schritt gezielt nachgefragt werden. Eine zweite Ebene besteht in der Möglichkeit für den Nutzer, schwer verständliche Worte oder Namen zu buchstabieren, bzw. bei langen Zahlenfolgen statt einer blockweisen Äußerung eine Ziffernweise Nennung zu erbitten. Sollte auch diese nicht erfolgreich sein, oder sollte die sprachliche Navigation innerhalb einer Menüstruktur zu Schwierigkeiten führen, kann dem Nutzer die Verwendung der TelefonTastatur entsprechend der gängigen touchtone-Anwendungen empfohlen werden. Die ultimative Fehlerbehebung besteht oft in der Weiterleitung des Anrufers an ein CallCenter. Dabei ermöglichen es die Anwendungen, dem Mitarbeiter den aktuellen Status des Dialogs, also sämtliche bereits aufgenommen Daten zu übermitteln, so dass der Anrufer sein Anliegen nicht noch einmal von vorn vortragen muss. -8-

3.6. Abrechnung der Dienstleistung Sprachanwendungen sind vor allem in der Anschaffung hochwertiger Spracherkennungs- und Text-to-Speech-Produkte sowie in der Entwicklung noch sehr teuer. Nicht selten werden Auskunftssysteme daher im Rahmen von Mehrwertdienst-Telefonnummern mit einem erhöhten Minutenpreis des Telefongesprächs finanziert. Wo der Einsatz solcher Systeme einen zusätzlichen Kundenservice darstellt, werden sie aber auch im Rahmen üblicher Service-Nummern betrieben, ohne dass die Kosten auf die anrufenden Kunden übertragen werden. Andererseits können große Firmen so auch eine erhebliche Entlastung ihrer Call-Center erreichen, so dass sich auch das preiswerte Angebot über lokale Rufnummern schnell bezahlt macht. Um die Attraktivität von Sprachcomputern für den Kunden zu erhöhen, werden einige Dienste sogar über kostenlose Service-Nummern angeboten, während das Gespräch mit einem Mitarbeiter im Call-Center in Rechung gestellt wird.

4. Sprachanwendungen in der Praxis: die Realität Im folgenden sollen auf dem deutschen Markt existierende Sprachanwendungen vorgestellt werden. Diese wurden mit Ausnahme der Systeme unter 4.2. und 4.3. im Rahmen der Untersuchung erprobt und anhand der erläuterten Kriterien betrachtet. Sie stehen jedem interessierten Nutzer zur Verfügung.

4.1.

Sparda-Bank Hamburg

Das Telefon-Banking-System [W9] der Sparda-Bank Hamburg [W8] wurde von der Berliner Firma SemanticEdge GmbH [F1] erstellt. Es handelt sich dabei um ein Portalsystem, das dem Nutzer über 50 verschiedene Serviceleistungen anbietet. In diesem Sinne fasst es Dienste in den vier beschriebenen Kategorien Information, self service, Transaktion und Anruferqualifizierung zusammen. Ein Großteil aller Leistungen ist voll automatisiert, einige werden über ein angebundenes Call-Center realisiert. In keinem Fall ist eine manuelle Nachbearbeitung der während des Dialogs mit dem Sprachcomputer aufgenommen Daten notwendig. Die Sparda-Bank Hamburg bietet das System einem Kreis von etwa 140.000 Kunden in Norddeutschland an und automatisiert auf diese Weise derzeit mehr als 50.000 Service-Anrufe pro Monat. [W10] Anders als die meisten Telefon-Banking-Verfahren, kann es durch den Kunden zu 100% per Sprache gesteuert werden, eine touchtone-Navigation ist nur für Nutzer des Vorläufersystems zusätzlich noch implementiert. Die Menüsteuerung per Telefontastatur ist bei Bedarf also ebenfalls möglich, aktiv erklärt das System diese aber nicht, um die Bedienung per Sprache zu motivieren. Diese weist gegenüber der touchtone-Steuerung zahlreiche der eingangs erläuterten Vorteile auf. Das Portal begrüßt den Anrufer mit der offenen Fragestellung „Was kann ich für sie tun?“ und ist auch in der weiteren Bedienung vornehmlich nutzergesteuert. Der Anrufer kann zu jedem beliebigen Zeitpunkt jeden gewünschten Service auswählen, ohne einzelne MenüEbenen abarbeiten zu müssen. Er kann Ansagen in der Regel per barge-in unterbrechen, so dass der Eindruck eines sehr freien, ungezwungenen Gesprächs entsteht. Die Sprachausgabe ist vollständig per Text-to-Speech-Verfahren gelöst, und entgegen Befürchtungen anderer Betreiber machen Bank und Kunden hiermit keine schlechten Erfahrungen. Aus Endnutzer-Sicht erscheint die synthetisierte Computerstimme akzeptabel, und da eine Vielzahl dynamischer Informationen ausgegeben werden muss, können PromptBrüche (Wechsel zwischen Sprecher und Text-to-Speech) so vermieden werden. Die zugrunde liegende Grammatik realisiert grundsätzlich eine Filterung von Aussagen ohne Informationsgehalt zur Ansteuerung der unterschiedlichen Services. Nur bei detaillierten Nachfragen sind die potenziellen Nutzeräußerungen eingeschränkt, um die Erkennungsqualität zu erhöhen. Der Nutzer kann aber auch hier jederzeit über vereinbarte -9-

Befehle wie „zurück“ oder „Hilfe“ eingreifen. Detailliertere Grammatiken werden z.B. bei der Filialsuche zur Erkennung von Straßennamen und Stadtteilen eingesetzt oder bei Überweisungen für die Namenserkennung und Aufnahme von Verwendungszwecken.

Im Falle von Fehlfunktionen liegt dem System ein umfangreiches Hilfe- und Fallback-System zugrunde, das die bereits beschriebenen vier Ebenen realisiert: • systemgesteuerte Nachfragen statt Nutzerinitiative, • buchstaben- oder ziffernweise Eingabe statt Wort- und Zahlerkennung, • touchtone-Steuerung und -Zahleneingabe sowie • Verbindung mit dem Call-Center bei endgültigem Misserfolg. Der aktuelle Dialogstatus wird dabei zum Mitarbeiter übertragen. Die Sparda-Bank stellt ihren Kunden diesen Dienst über eine lokale Hamburger Rufnummer kostenlos zur Verfügung. Der Kunde hat so zeit- und ortsunabhängig Zugriff auf alle Serviceleistungen der Bank. Er kann in einer freien Dialoggestaltung mit dem System in ganzen Sätzen sprechen und die Dienste sind über eine direkte Anbindung an die Kundendatenbank voll automatisiert. Dadurch erfolgt einerseits eine schnelle Bearbeitung, andererseits wird der Kunde auf bestimmte Problemfälle, wie z.B. eine nicht gedeckte Überweisung, noch vor der Abfrage weiterer Überweisungsdaten hingewiesen. Die GeldAutomaten- und Filialsuche wird mittels Geodaten über ein angeschlossenes NavigationsSystem gelöst, so dass z.B. stets die vom Standpunkt des Kunden aus kürzeste Distanz ermittelt werden kann. Dabei wird der Anrufer während des Dialogs über eine umfangreiche feedback-Funktionalität darauf hingewiesen, falls die Suche z.B. nicht in der direkten Umgebung, sondern erst in einem benachbarten Stadtteil erfolgreich war. Mit der Gesprächspartner-Vermittlung übernimmt das System automatisch die Funktion einer Telefonzentrale und ermöglicht die Weiterleitung zu jedem Mitarbeiter der Bank.

4.2. Schwab-Versand Ebenfalls von der SemanticEdge GmbH ist ein single service-Dienst erstellt worden, der für den Schwab-Versand [W11] die Paketrücknahme organisiert. Wie bei jedem Versandhaus, haben Schwab-Kunden die Möglichkeit, bestellte Waren bei Nichtgefallen kostenfrei zurückzugeben. Die Organisation dieses Rücknahme-Prozesses kann vollständig über einen Sprachcomputer vorgenommen werden, deren Telefon-Nummern den Kunden bei der Zustellung mitgeteilt wird. Nachdem der Nutzer sich hier über seine Kundennummer identifiziert hat, kann er zum einen den Auftrag erteilen, die Ware abholen zu lassen. Das System kann dabei eine deutschlandweite Adressen- und Namenserkennung realisieren, falls der Kunde eine andere als seine registrierte Heimatadresse zur Abholung angeben möchte. Andererseits bietet das System an, eine Paketabgabestelle in der näheren Umgebung ausfindig zu machen. Auch dieser Dienst ist als sog. location based service an ein Navigationssystem angebunden, welches metergenau den nächsten Paketshop identifiziert. In diesem Sinne erfüllt also auch dieses System einerseits die Funktion der Informationsausgabe und andererseits die des autorisierten self service mit Auftragsannahme. Die weiteren Eigenschaften wie Sprachausgabe über TTS, und Hilfesysteme inklusive CallCenter-Anbindung entsprechen im wesentlichen dem des Sparda-Bank-Systems. Da es sich um einen Einzeldienst und nicht um ein Portalsystem handelt, ist eine freie Dialogführung mit offenem „Was kann ich für sie tun?“ - Einstieg jedoch nicht notwendig.

-10-

4.3. L.U.C.Y. – Partnervermittlung Die Berliner Mundwerk AG hat in Zusammenarbeit mit Com Vision aus Wismar ein sprachbasiertes Partnervermittlungs-System [W12] am Telefon realisiert. Diese Anwendung aus dem Bereich Entertainment/Kommunikation ermöglicht es Anrufern, sich mit ihrem Persönlichkeitsprofil zu registrieren, andere Teilnehmer zu suchen und zu kontaktieren oder selbst von anderen angerufen zu werden. Das System agiert bezüglich Name, Adresse und Telefonnummer der Gesprächspartner vollständig anonym und wird über den Service innovativer Telefondienste unter 012-Rufnummern [T1] organisiert. Jeder registrierte Anrufer erhält dabei einen virtuellen Namen, eine dazugehörige PIN und eine individuelle Telefonnummer, die auf den eigenen Telefonanschluss geschaltet wird. Die Dialogführung ist menügesteuert, Ansagen erfolgen über voraufgenommene AudioPrompts. Das System ist vollständig automatisiert, so dass eine Call-Center-Anbindung nicht vorgesehen ist. Die Abrechnung wird auf transparente Art und Weise über Festpreise für die Registrierung und Datenänderung sowie minutenbasierte Gesprächskosten für Telefonate mit anderen L.U.C.Y-Teilnehmern vorgenommen.

4.4. clevertanken.de – Tankstellenfinder Das Web-Portal clevertanken.de [W13] findet nach Angabe eines gewünschten Kraftstoffes und Ortes die zum aktuellen Zeitpunkt günstigste Tankstelle. Dieser Service wurde mithilfe der Mundwerk AG auf eine sprachbasiertes Telefon-System ausgeweitet. Der Anrufer nennt nach der Aufforderung durch den Sprecher nacheinander Kraftstoff und Ort bzw. Postleitzahl und erhält wie im Internet die günstigste Tankstelle angesagt. Zwar werden durch die Grammatik deutschlandweite Ortsnamen abgedeckt, die Ziffernerkennung des Postleitzahlenbereiches funktioniert jedoch zuverlässiger. Die Ansage der dynamischen Tankstellen-Adressen erfolgt per TTS. Nach erfolgter Mitteilung der Information, die in der Regel innerhalb von insgesamt zwei Minuten vorliegt, hat der Anrufer die Möglichkeit, den Dialog von vorn zu starten. Ein Unterbrechen der Sprecherin per barge-in ist möglich, es verkürzt die Anrufzeit aber nur minimal und wird vom ungeübten Nutzer sicher nicht vorgenommen. Der Dienst wird über eine 0190-1-Rufnummer [T2] mit 0,62€ je Minute in Rechung gestellt.

4.5. glonz.com – Internetoffice Das Internetoffice von glonz.com [W14] ist ein primär web-basiertes Büro-Portal. Auf die Anwendung kann jedoch mithilfe der von 8hertz erstellten Voice-Funktionalität auch nahezu vollständig mobil per Telefon zugegriffen werden. Dies beinhaltet das Vorlesen und den Versand von e-mails, das Nennen von Terminen und Kontakten sowie die Speicherung von Sprachnotizen. Es handelt sich dabei um einen self service mit autorisiertem Zugang, mithilfe dessen gespeicherte Daten am Telefon zugänglich gemacht werden, der z.B. aber auch zum Versenden von e-mails befähigt. Das System greift dabei auf die Möglichkeit zurück, Nutzeräußerungen als Audio-Datei aufzunehmen und versendet diese per e-mail. Der Nutzer wird in einer überschaubaren Menüsteuerung durch die verschiedenen Angebote geleitet und kann in vollständigen Sätzen, aber ohne Schlagworterkennung mit dem System sprechen. In diesem Sinne ist auch ein offener Einstieg in den Dialog mit der Frage „Was kann ich für Sie tun?“ realisiert und ein direkter Wechsel zwischen den Menüpunkten ist ohne Navigation über das Hauptmenü möglich, eine Rückkehr dorthin kann aber zu jedem beliebigen Zeitpunkt mit festen Befehlen wie „Stopp“ erfolgen. Das System ist dabei vollständig barge-in-fähig. Die Spracherkennung umfasst zum Teil dynamisch erzeugte Grammatiken, die z.B. Vor- und Nachname bzw. Firmenname der eigenen Kontakte abdecken. Kurze Hilfefunktionen sind über ein 3-Sekunden-timeout sowie über den expliziten „Hilfe“ Befehl implementiert. Eine touchtone-Navigation ist nicht vorgesehen, und da es sich um eine vollautomatisierte Anwendung handelt, besteht auch keine Call-Center-Anbindung. -11-

Die Sprachausgabe erfolgt zu 100% per TTS, da es sich vornehmlich um stark variierende und dynamische Inhalte handelt. Der Zugang besteht über eine kostenpflichtige 0180-5-Service-Nummer [T3] zu einem deutschlandweit einheitlichen Tarif und wird minutenbasiert abgerechnet.

4.6. hitchhikers.de – Mitfahrzentrale Das Mitfahrerportal www.hitchhikers.de [W15] bietet in Zusammenarbeit mit 8hertz die Informationen zu Mitfahrern und Mitfahrgelegenheiten auch in einem telefonischen Ansagedienst an. Es handelt sich hierbei also um eine Sprachdialogsystem zur Ausgabe von Informationen, welches den Nutzern die Unabhängigkeit von einem Internetzugang ermöglicht. Die Eingabe eigener Fahrten ist telefonisch nicht vorgesehen. Dem Anrufer wird über eine strenge Menüsteuerung und gezielte Fragen die von ihm gewünschte Information zugänglich gemacht. Das Menü umfasst die beiden Alternativen, Fahrer oder Mitfahrer zu suchen, danach wird der Anrufer nach Abfahrtsort, Zielort und Datum seiner gewünschten Fahrt gefragt. Die Abfahrtsortbestimmung ist an eine Rufnummernerkennung gekoppelt, die zunächst die Stadt der identifizierten Vorwahl vorschlägt. Die Grammatik der Spracherkennung umfasst darüber hinaus knapp 500 deutsche Städte, aus denen der Nutzer mittels Spracheingabe wählen kann. Bei erfolgreicher Suche, wird die Telefonnummer des betreffenden Fahrers bzw. Mitfahrers angesagt, konnte eine Eingabe nicht erkannt werden, erfolgt nach mehrmaligen Versuchen ein Hinweis auf das Internet-Portal. Die Sprachausgabe ist über aufgenommene Sprecheransagen, bei Telefonnummern über die Zusammensetzung einzelner Ziffern gelöst. Die Abrechnung erfolgt über eine kostenpflichtige 0180-5-Service-Rufnummer [T4].

4.7. Kelloggs Frosties für Schulsport – Marketing-Aktion Eine Anwendung aus dem Bereich des Marketings wurde ebenfalls von 8hertz erstellt. In Zusammenarbeit mit Kelloggs [W16] realisierte die Firma eine automatische Telefon-Hotline, unter der Schüler aus Deutschland und Österreich Sammelpunkte eines Gewinnspiels für ihre Schule registrieren können. Dieser single service benötigt keinerlei Menüsteuerung, da es sich um die einmalige, lineare Abarbeitung einer Einzelaufgabe handelt. Hierzu wird zunächst nach der Postleitzahl der betreffenden Schule gefragt, um einerseits die Grammatik zur Erkennung des Schulnamens zu reduzieren, andererseits aber auch um Mehrdeutigkeiten wie „Martin-Luther-Schule“ aufzulösen. Diese Postleitzahlenerkennung erfolgt ziffern- oder blockweise. Daraufhin nennt das System der Reihe nach alle gefundenen Schulen des ausgewählten Bereiches und bittet um die Angabe der Ordnungszahl. Hierbei kann die Ansage per barge-in unterbrochen werden. Die Spracherkennung erfolgt mit diesen kleinen Zahl- und Zifferngrammatiken sehr zuverlässig, ist die Postleitzahl jedoch nicht bekannt, muss auf eine Orts- und Schulnamenerkennung ausgewichen werden. In diesem Fall wird zunächst nach der Stadt gefragt, woraufhin eine Grammatik der gefundenen Schulen dynamisch erzeugt wird. Indem der Name der Schule genannt wird, können Gewinnpunkte schließlich zugeteilt werden. Wenngleich die deutschland- und österreichweiten Ortsnamen ebenfalls sehr gut erkannt werden, ist der Erfolg dieses Vorgehens stark abhängig von der Anzahl gefundener Schulen. Bei großen Städten ist die Kompilierung der Schulen-Grammatik während des Gespräches mit hohem Zeitaufwand verbunden. Die Anwendung realisiert eine Mischung aus voraufgenommenen Ansagen für Begrüßung, Aufforderungen sowie Verabschiedung und einem TTS-System zur Nennung der Orts- und Schulnamen. Sie wurde mit Blick auf den unverhältnismäßig hohen Aufwand gewählt, mehrere hundert Namen von Städten und Schulen mit einem Sprecher aufzunehmen. Umfangreiche Hilfe-Funktionen sind abgesehen von der zweistufigen Erkennungs-Strategie nicht implementiert, im Falle einer erfolglosen Spracherkennung wird lediglich eine lokale -12-

Service-Rufnummer genannt, an die sich die Gewinnspiel-Teilnehmer wenden können, eine direkte Call-Center-Anbindung existiert nicht. Eine Identifizierung des Gewinnspielteilnehmers ist nicht erforderlich, da jeder Anruf über eine 0137-Rufnummer [T5] mit 0,49€ berechnet wird, womit gehäufte Anrufe eines einzelnen Teilnehmers unterbunden werden.

4.8. ENAiKOON tele-pos – Fahrzeugortung Die Fahrzeugortung der ENAiKOON GmbH [W17] basiert auf einem eingebauten GPSModul, mit dessen Hilfe die metergenaue Ortung des Fahrzeuges möglich ist. 8hertz hat hierfür ein Sprachdialogsystem entwickelt, das dem Nutzer die genaue Position eines Fahrzeuges, seine Geschwindigkeit und Fahrtrichtung telefonisch mitteilt. Anwendung findet ein solches System z.B. bei Logistik- oder Taxiunternehmen, die auf diese Weise einen Überblick über ihre Flotte behalten können, aber auch zur Diebstahlsicherung wertvoller Fahrzeuge und Baumaschinen. Der Anrufer wird dabei zunächst nach der Seriennummer des Moduls sowie seiner PIN gefragt und erhält innerhalb kürzester Zeit die Information zu seinem Fahrzeug. Angeschlossen ist hierzu eine Datenbank mit sämtlichen Straßennamen in Deutschland und den dazugehörigen Geo-Koordinaten. Die Spracherkennung beschränkt sich erneut auf eine einfache Zahlen-Grammatik, die Sprachausgabe erfolgt vollständig über TTS. Hilfe- und Fallback-Systeme sind über die Bitte um Wiederholung der Eingabe hinaus nicht realisiert. Wird die Auskunft über mehrere Fahrzeuge innerhalb eines Anrufes gewünscht, startet man den Vorgang per TouchtoneBedienung (*-Taste) von vorn. Die Abrechnung erfolgt über eine kostenpflichtige 0180-5Service-Rufnummer [T6].

4.9. Bezirksamt Hellersdorf – Bearbeitungsstatus von Personaldokumenten Ein weiteres Auskunftssystem der Firma 8hertz wurde im Auftrag des Berliner Bezirksamtes Marzahn-Hellersdorf erstellt. Es dient zur automatisierten Beantwortung von Bürgeranfragen nach dem Bearbeitungsstatus beantragter Personaldokumente wie Reisepass oder Personalausweis. Der Anrufer nennt der Anwendung hierzu eine Referenznummer, die ihm vom Amt zugeteilt wurde und erfährt daraufhin, ob oder wann sein Dokument abholbereit im Bürgeramt vorliegt. Auch hier ist daher keine Menüsteuerung notwendig, es handelt sich wiederum um eine isolierte Einzelaufgabe, die Schritt für Schritt abgearbeitet wird. Die Ansagen erfolgen über Sprecher-Aufnahmen, Telefonnummern und Öffnungszeiten werden dabei durch die Aneinanderreihung kurzer Sprach-Abschnitte realisiert. Die Spracherkennung beschränkt sich erneut auf eine vergleichsweise kleine Grammatik, die einzelne Buchstaben und eine sechsstellige Nummer erkennt, welche ziffern- oder blockweise angegeben werden kann. Das System ist direkt an eine Datenbank der Bundesdruckerei angebunden, aus welcher der exakte Bearbeitungsstatus entnommen wird. Unmittelbar nachdem der Anrufer seine Referenznummer genannt hat, wird diese vom System auf ihre formale Richtigkeit überprüft. Bei einer falschen oder nicht erkannten Ansage, wird um Wiederholung gebeten. Mehrmaliger Misserfolg in der Erkennung führt zur Weiterleitung des Anrufes an eine Mitarbeiterin des Bürgeramtes bzw. zur Ansage der Telefon-Nummer, falls der Anruf außerhalb der Öffnungszeiten erfolgt. Darüber hinausgehende Hilfe- oder Fallback-Systeme sind nicht vorgesehen und mit Blick auf die sehr beschränkte Aufgabe auch nicht notwendig. Trotz des vergleichsweise kleinen Anwendungsbereiches, macht dieses System deutlich, über welches Potenzial auch einfache Voice-Applikationen verfügen. Bei etwa 1500 Anrufern pro Woche werden einerseits die Sachbearbeiterinnen der Verwaltung entscheidend entlastet, andererseits erhält der Bürger zuverlässig und rund um die Uhr die von ihm gewünschte -13-

kurze, aber wichtige Information. Der Service steht kostenfrei über eine lokale Berliner Telefonnummer [T7] zur Verfügung.

DirektExpress – Paketverfolgung Nach einem sehr ähnlichen Prinzip wie das Ortungssystem und die Dokumentenauskunft funktioniert eine weitere 8hertz-Anwendung – ein Paketverfolgungs-System von DirektExpress [W18]. Auch hier erhält der Anrufer nach Angabe der Sendungsnummer per Zugang zur Datenbank der Firma innerhalb kürzester Zeit den aktuellen Status seines Paketes und ggf. den Ort, an dem es sich gerade befindet. Dieser Zusatzservice ergänzt die Paketverfolgung im Internet und ist rund um die Uhr telefonisch erreichbar. Wie bei den anderen Anwendungen arbeitet 8hertz hier mit voraufgenommenen Ansagen, die bei Bedarf zusammengeschnitten werden, Ortsnamen werden per TTS vorgelesen. Ebenso besteht nach erfolgter Ansage allein die Möglichkeit, zum Anfang des Dialogs zurückzukehren, weitere Navigations-Funktionen sind nicht notwendig. Die Steuerung erfolgt vollständig über Sprache mit kleinen „ja/nein“- und Zahlen/Buchstaben-Grammatiken. Der Sprecher kann mit bargein unterbrochen werden, eine Notwendigkeit hierfür besteht jedoch meist nicht. Eine CallCenter-Anbindung ist nicht realisiert, der Dienst wird über eine 0180-5-Service-Rufnummer [T8] zum Minutenpreis abgerechnet.

4.10. weitere Anwendungen Die Berliner Mundwerk AG hat über die beschriebenen Projekte hinaus noch weitere Sprachanwendungen realisiert, die im Rahmen dieser Studie nur erwähnt und nicht ausführlicher vorgestellt werden können. Einen single service aus dem Bereich Datenerfassung stellt die Zählerstandserfassung der Viterra Energieversorgung dar, bei der Stromkunden ihren Zählerstand einem Sprachcomputer diktieren können, so dass die Daten direkt in das Abrechnungs-System übernommen werden können. Dies erspart den Kunden das Versenden einer Postkarte und bedeutet für den Energieversorger eine Kostenreduzierung und Effizienzsteigerung. Zwei weitere Transaktionssysteme sind die Klingeltonbestellung für Mobiltelefone bei Jamba! [W19] und der Internet-Geldtransfer bei www.moneybookers.com [W20], die durch die Mundwerk AG ebenfalls eine Anbindung an das Telefon und somit eine Verbreiterung des potenziellen Nutzerkreises erfahren haben. Schließlich wurde für die Firma ColgatePalmolive eine umfangreiche Telefonzentrale zur automatischen Anruferqualifizierung der Kunden implementiert.

5. Sprachanwendungen außerhalb des VoiceXML-Standards 5.1. „Fränki“ – Kinoauskunft für Bayern Eine Sprachanwendung aus Zeiten vor der Standardisierung von VoiceXML ist „Fränki“, eine Kinoauskunft für Mittelfranken. Das Referenzsystem der Firma Sympalog [F6] ist seit drei Jahren erfolgreich in Betrieb und informiert seine Anrufer über das aktuelle Kinoprogramm in zahlreichen Städten und Kinos. Die Steuerung ist vollständig über Sprache realisiert und weitestgehend nutzergesteuert. Das heißt, eine Menünavigation ist nicht notwendig, sondern man kann zu jedem beliebigen Zeitpunkt entweder Zeit, Ort oder den gewünschten Kinofilm nennen. Alle fehlenden Informationen werden vom System gezielt erfragt, wobei im Falle von Unklarheiten die möglichen Auswahloptionen wie Kinoname oder Filmtitel der Reihe nach genannt werden. Die Sprachausgabe erfolgt über zusammengeschnittene, voraufgenommene Prompts. Sowohl Ansagen als auch die zugrunde liegende Grammatiken zur Erkennung der Filmtitel werden also im Wochenrhythmus aktualisiert. Das System agiert vollautomatisch ohne Call-Center-Anbindung und steht über eine lokale Rufnummer [T9] kostenfrei zur Verfügung.

-14-

5.2. Deutsche Bahn Fahrplanauskunft Ebenfalls seit mehreren Jahren in Entwicklung befindet sich das Zugauskunftssystem der Deutschen Bahn. Es ist daher mit einer proprietären Technologie und nicht mithilfe von VoiceXML realisiert. Die Dialogführung erfolgt streng menügesteuert und auch ein Unterbrechen der wiedergegebenen Ansagen durch den Nutzer ist nicht möglich. Die durch den Nutzer einzugebenden Informationen wie Abfahrts- und Zielbahnhof oder „Wiederholung“ werden schlagwortartig erwartet, ein Dialog in ganzen Sätzen bleibt erfolglos. Die zugrunde liegende Grammatik erkennt jedoch sehr zuverlässig jeden deutschen Bahnhof und das System bietet bei Erkennungsfehlern eine kleine Auswahl der wahrscheinlichsten Resultate an. Dieses n-best-Verfahren reduziert die Größe der Grammatik erheblich und führt zu einer deutlich höheren Erkennungsrate. Zeitangaben können darüber hinaus sehr natürlichsprachlich z.B. als „viertel vor neun“ erfolgen. Das Auskunftssystem dient der Entlastung des DB-Call-Centers, auf welches nach dem Scheitern eines Dialoges verwiesen wird, eine direkte Weitervermittlung findet nicht statt. Als einzige der beschriebenen Voice-Anwendungen wird diese auf einer für den Anrufer gänzlich kostenfreien 0800-Rufnummer [T10] angeboten, was einerseits die Attraktivität des Sprachcomputers gegenüber dem Kunden fördern soll und andererseits die wirtschaftliche Bedeutung solcher Systeme für Unternehmen mit außergewöhnlich vielen Kundenkontakten unterstreicht.

-15-

6. Übersicht

Call-Center-Anbindung

Text-to-Speech

Sprachausgabe

Audio-Prompts

nutzergesteuert

Entertainment

Anruferqualifizierung

Transaktion

self service

systemgesteuert

Dialogführung

Funktion

Informationsdienst

Anwendung

Sparda-Bank Hamburg

;

;

;

;

†

†

;

†

;

;

Schwab-Versand

†

;

†

†

†

†

;

†

;

;

L.U.C.Y.

†

†

†

†

;

;

†

;

†

†

clevertanken.de

;

†

†

†

†

;

†

;

†

†

glonz.com

†

;

†

†

†

;

†

†

;

†

hitchhikers.de

;

†

†

†

†

;

†

;

†

†

Kelloggs Gewinnspiel

†

†

†

†

;

;

†

;

;

†

ENAiKOON

†

;

†

†

†

;

†

†

;

†

Bezirksamt Hellersdorf

†

;

†

†

†

;

†

;

†

†

DirektExpress

†

;

†

†

†

;

†

;

;

†

Fränki Kinoauskunft

;

†

†

†

†

†

;

;

†

†

DB-Zugauskunft

;

†

†

†

†

;

†

;

†

†

-16-

7. Perspektiven in der Entwicklung 7.1. Telefonie-Dienste Trotz der geschilderten erfolgreichen Umsetzung von Sprachanwendungen, verfügt die Technologie in der Zukunftsperspektive noch über erhebliches Ausbaupotenzial. Telefonportale werden in der Kundenkommunikation und Automatisierung von Geschäftsvorgängen zunehmend zur Unterstützung von Call-Centern und Ergänzung bereits existierender Internet-Plattformen eingesetzt werden. Auch ist in ein Ausbau im Entertainment- und Marketingbereich anzunehmen, der bei bisherigen Anwendungen nur wenig repräsentiert ist. Wenngleich ein Direktmarketing analog zu Post-, SMS- und e-mailWerbung per Sprachcomputer derzeit noch kaum denkbar ist, sind die technischen Möglichkeiten bereits gegeben und Anwendungen dieser Art daher nicht ausgeschlossen. Der Trend geht dabei klar zur Verwendung von Text-to-Speech-Systemen, die z.B. mit sog. customized voices die Möglichkeit bieten, Stimmen von Prominenten zur synthetischen Sprachausgabe einzusetzen. Auf diese Weise können die derzeit noch erheblichen Akzeptanzprobleme bei den deutschen Kunden überwunden werden, in deren Wahrnehmung der Schritt zum Sprachcomputer eine Verminderung der Servicequalität gegenüber den sehr stark verbreiteten Call-Centern darstellt. Anders verhält es sich beispielsweise in den USA, wo automatisierte TouchtoneSysteme bereits seit Jahren stark im Einsatz sind. Die Möglichkeit, diese nun mit natürlicher Sprache zu bedienen wird dort somit als eine deutliche Service-Verbesserung empfunden. In dem Maße wie die Spracherkennungs- und Sprachausgabequalität steigt, werden Sprachcomputer sicher auch im deutschsprachigen Raum auf mehr und mehr Akzeptanz stoßen.

7.2. Software-Steuerung Ein zweites großes Einsatzgebiet findet sich in Situationen, in denen man seine Aufmerksamkeit nicht auf ein Display richten kann oder möchte. Hier wird insbesondere die Steuerungssoftware in Autos zum Motor der Entwicklung werden. Schon lange haben die Hersteller hier klare Visionen in Bezug auf die Bedienung der immer umfangreicher werdenden Ausstattung wie CD-Player, Navigations-Systeme u.ä.

7.3. Multimodalität Der dritte Bereich mit sehr Erfolg versprechenden Zukunftsaussichten sind sog. multimodale Anwendungen, die eine Integration von text-, sprach- und movement-basierten Diensten realisieren. Mobile Endgeräte der nächsten Generation wie PDAs oder UMTS-Telefone bieten so die Möglichkeit, Informationen schnell und zielgerichtet per Sprachsteuerung oder Handbewegung zu finden und am Display darzustellen bzw. auf eine Texteingabe hin z.B. emails synchron zur Anzeige vorzulesen. Dies wird die oft noch komplizierte Navigation auf Webportalen oder im Software-Bereich erheblich vereinfachen können. Für die Erstellung multimodaler Anwendungen steht neben VoiceXML auch der SALT (Speech Application Language Tags)-Standard [W22] zur Verfügung, der im Rahmen dieser Arbeit nicht näher betrachtet werden kann.

8. Fazit Die technologischen Möglichkeiten zur Umsetzung von computergestützten Sprachportalen sind zum jetzigen Zeitpunkt bereits sehr ausgereift. Die bestehenden Systeme ermöglichen eine freie Dialoggestaltung im Gespräch mit der Maschine, welche der menschlichen Kommunikation sehr nahe kommt. Spracherkennungs-Software gewährleistet die Verarbeitung von Grammatiken mit einem Vokabular von mehreren zehntausend Worten und ermöglicht so sprecherunabhängig eine zuverlässige Erkennung der Äußerungen. Die Qualität der durch Computer synthetisierten Sprachausgabe lässt in der höchsten Entwicklungsstufe einen Unterschied zum menschlichen Sprecher kaum mehr hörbar werden, wodurch große -17-

Mengen dynamischer Inhalte am Telefon zugänglich gemacht werden können. Der Entwicklergemeinde steht hier mit VoiceXML ein Standard zur Verfügung, der eine flexible Kombination diverser Softwarekomponenten ermöglicht und grundsätzlich für eine plattformunabhängige Entwicklung von Voice-Applikationen sorgen kann. Seine Ähnlichkeit zu im Internet schon etablierten Standards ermöglicht die Übertragung bereits erfolgreich genutzter Entwicklungsmethoden, was insbesondere im Bereich von Multi-Access-Portalen, also in der Gewährleistung verschiedener Zugriffsmöglichkeiten auf einheitliche Daten, nutzbringend eingesetzt werden kann. In der Umsetzung bleiben derzeit jedoch viele Systeme hinter den sich bietenden Möglichkeiten zurück. Teils aus wirtschaftlich motivierter Zurückhaltung, teils aus Angst vor mangelnder Akzeptanz beim Kunden, wagen potenzielle Betreiber den Schritt zum voll automatisierten Telefon-System zum jetzigen Zeitpunkt noch nicht. Erfolgreich implementierte Systeme repräsentieren die technischen Möglichkeiten daher oft nur unzureichend, so dass es wiederum an beispielhaften Anwendungen fehlt, die die Umsetzung vorantreiben könnten. Welche Entwicklungen diesen Kreis durchbrechen können, ist derzeit noch nicht absehbar, dass dies aber geschehen wird, ist voraussichtlich nur eine Frage der Zeit. Zukunftsperspektiven bieten einerseits multifunktionale mobile Endgeräte, die den Umgang mit Computersystemen noch alltäglicher werden lassen, und die mit der Einführung des UMTS-Mobilfunkstandards möglicherweise umfangreichen Absatz finden werden. Deren multimodale Bedienung ist eines der Hauptentwicklungsfelder im Bereich der Sprachanwendungen. Zum anderen formuliert die Automobilindustrie schon seit geraumer Zeit den Willen, innovative Sprachsteuerungs-Systeme zur Bedienung der zahlreichen Zusatzfunktionen im Auto einzusetzen. Hier werden entsprechende Anwendungen nicht nur angenehmer Zusatz-Service sein, sondern stellen vielmehr die einzige Alternative in der Steuerung komplexer Software während der Fahrt dar. Zusammenfassend hat der Markt auf die Möglichkeiten von VoiceXML-basierten Systemen bisher nur wenig reagiert, die Zukunftsaussichten sind aber viel versprechend.

Mein ausdrücklicher Dank für die Hilfe bei der Erstellung der Arbeit gilt den genannten Firmen, sowie Prof. Manfred Stede, Dr. Maria Aretoulaki und Jamal Abu-Hasan.

-18-

Quellenverzeichnis [W1] [W2] [W3] [W4] [W5] [W6] [W7] [W8] [W9] [W10] [W11] [W12] [W13] [W14] [W15] [W16] [W17] [W18] [W19] [W20] [W21] [W22]

http://www.w3.org/TR/voicexml20/ http://www.8hertz.de/vt_vxml.html http://www.w3.org/Consortium/Offices/Germany/Press/voicexml2-pressrelease.html.de.html http://www.8hertz.de/vt_vorteile.html http://www.w3.org/TR/speech-synthesis/ http://www.w3.org/TR/speech-grammar/ http://www.w3.org/TR/ccxml/ http://www.sparda-hh.de http://www.sparda-hh.de/telefonbanking.html http://investor.nuance.com/ireye/ir_site.zhtml?ticker=nuan&script=410&layout=6&item_id=438609 http://www.schwab.de http://www.lucy.tv http://www.clevertanken.de http://www.glonz.com http://www.hitchhikers.de http://www.kellogg.de/ http://www.enaikoon.de http://www.direktexpress.de/ http://www.jamba.de http://www.moneybookers.com http://www.voicexml.org http://www.saltforum.org

[L1] [L2] [L3]

Harold, E.R.: „Die XML-Bibel“; MITP-Verlag, Bonn, 2000 Edgar, B.: „The VoiceXML Handbook“; CMP Books, New York, 2001 Sharma, C. & Kunins, J.: „VoiceXML“; John Wiley & Sons, Inc., New York; 2002

[T1] [T2] [T3] [T4] [T5] [T6] [T7] [T8] [T9] [T10]

L.U.C.Y. Partnervermittlung: 012345678910 clever-tanken.de – Telefonservice: 0190-1-52535 Voice-Office-Suite glonz.com: 0180-5-404917 Voice-Mitfahrzentrale hitchhikers.de: 0180-5-448244 Kelloggs Frosties für Schulsport: 0137-9791060 ENAiKOON tele-pos: 0180-5-353017 Bezirksamt Hellersdorf: 030-44010847 Voice-Paketverfolgung DirektExpress: 0180-5-776804 „Fränki“ Kinoauskunft: 09131-610016 DB-Zugauskunft: 0800-1507090

[F1]

Firma SemanticEdge GmbH, Kaiserin-Augusta-Allee 10-11, 10553 Berlin http://www.semanticedge.com Firma 8hertz technologies GmbH, Warschauer Str. 58a, 10243 Berlin http://www.8hertz.de Firma Mundwerk AG, Glinkastraße 30, 10117 Berlin http://www.mundwerk.de Firma Clarity AG, Ober-Eschbacher Str. 109, 61352 Bad Homburg http://www.clarity-ag.net Firma VoiceObjects AG, Friedrich-Ebert-Str., 51429 Bergisch Gladbach http://www.voiceobjects.com Sympalog Voice Solutions GmbH, Karl-Zucker-Str. 10, 91052 Erlangen http://www.sympalog.de T-Nova Deutsche Telekom Innovationsgesellschaft mbH, Goslarer Ufer 35, 10589 Berlin http://www.t-systems.de Dr. Maria Aretoulaki, Speech & Language Technologist, Kadiner Str. 21, 10243 Berlin mailto:[email protected]

[F2] [F3] [F4] [F5] [F6] [F7] [F8]

-19-

[email protected] www.xml-clearinghouse.de

Was ist das XML Clearinghouse? Das XML Clearinghouse für Berlin und Brandenburg ermöglicht Wissenstransfer zu XMLTechnologien durch öffentlich zugängliche Dienstleistungen. Es beobachtet, bereitet auf und vermittelt die Entwicklung von XML-Technologien und deren Anwendungen. Als Teilprojekt des regionalen Wachstumskerns sorgt es für einen Wissenstransfer von der Forschung zur Anwendung in der Region Berlin und Brandenburg.

Ein Forum zum Wissenstransfer Das XML Clearinghouse bietet Foren für Akteure aus Forschung, Wirtschaft und Intermediären zu gemeinsamen Aktivitäten. Ein Webportal ist Anlaufpunkt für XML-Informationen und regionalen Angeboten dazu. Fokussierte wissenschaftliche Workshops beleuchten aktuelle Themen, einzelne Entwicklungen werden in Schulungen didaktisch aufbereitet dargestellt. Die Vorträge im regelmäßigen XML-Kolloquium berichten von neuen Entwicklungen und Anwendungen.

Workshops In wissenschaftlichen Workshops werden in begutachteten Beiträgen neue Arbeiten mit XMLBezug dargestellt. Diese Veranstaltungen finden mit Unterstützung unterschiedlicher Informatikgesellschaften, wie zum Beispiel der Fachgruppe Multimedia der Gesellschaft für Informatik, statt und haben dadurch einen hohen Stellenwert.

Schulungen Eine Schulungsreihe dient dem Wissenstransfer zu XML-Technologien. Das XML Clearinghouse vermittelt ausgewählte XML-Themen in Tiefe und entwickelt dafür Schulungsmaterial.

Kolloquium Das XML Clearinghouse bietet eine frei zugängliche Kolloquiumsreihe an, die abwechselnd an der FU Berlin und HU zu Berlin durchgeführt wird. Im Rahmen dieses Kolloquiums finden Vorträge und Diskussionen statt.

Web-Portal Ergänzend zu den Veranstaltungen bietet das XML Clearinghouse eine öffentlich zugängliche Informationssammlung an. Gegenstand der Sammlung ist XML-Technologie und deren Standardisierung und Anwendung. Das Webportal enthält insbesondere Informationen zu XML mit Bezug zu Berlin und Brandenburg an.

-20-

Suggest Documents