DIE WELT.de

Endlich versteht der Computer den Menschen

"Wie hat'n Lautern gespielt?": Alltagssprache, Versprecher, St–rger”usche und Dazwischenreden bereiten guter Spracherkennung kaum noch Probleme

von Hans-Arthur Marsiske

Saarbr¸cken - Der Griff zum Telefon geschah ohne groþe Hoffnung. In dem kleinen Ostseeort gab es keinen Bahnhof, wo man Reiseverbindungen h”tte erfragen k–nnen. Da blieb nur die telefonische Zugauskunft. Darauf gefaþt, vom Sprachcomputer in eine Endlosschleife gelotst zu werden, war die Ðberraschung groþ: Das System verstand die Ortsnamen auf Anhieb und ¸bermittelte klar alle Abfahrts- und Umsteigezeiten - sogar f¸r den Bus zum Bahnhof.

Automatische Sprachanwendungen haben ihre Kinderkrankheiten offensichtlich ¸berwunden. Zu diesem Schluþ kam nicht nur der verbl¸ffte Ostseeurlauber, sondern auch eine Jury, die vergangenen Oktober die "Voice Awards" f¸r die besten deutschsprachigen Sprachapplikationen vergab. "Sprachtechnologie ist praxisreif f¸r Standardanwendungen", lautete das Fazit. Als Sieger wurden ausgew”hlt: das Wertpapierportal der Citibank AG, der Fuþball-Bundesliga-Infodienst Berti, die Kontaktanbahnungsplattform Lucy der Firma Mundwerk, das Telefon-Banking-System der Spardabank Hamburg sowie das Sprachportal Infotalk von T-Mobile.

"Insbesondere bei der Dialoggestaltung hat es ganz groþe Fortschritte gegeben", sagt Professor Wolfgang Wahlster, Direktor des Deutschen Forschungszentrums f¸r K¸nstliche Intelligenz (DFKI) in Saarbr¸cken und Vorsitzender der Jury. Dabei hebt er vor allem zwei Neuerungen hervor: Zum einen k–nnen die Nutzer dem System ins Wort fallen. "Das erm–glicht den Anrufern beispielsweise, ausf¸hrliche Erl”uterungen am Beginn zu ¸berspringen, indem sie einfach dazwischenreden."

F¸r den Anwender ”hnelt das dem Abbruch einer aufwendigen Flash-Animation beim Aufruf einer Web-Adresse durch einen Mausklick. "Technisch", so Wahlster, "ist es aber erheblich komplizierter. Wenn das System und der Anrufer gleichzeitig sprechen, gibt es zwei Signale, die unterschieden werden m¸ssen. Ÿltere Spracherkennungssysteme konnten das nicht. Sie haben entweder gar nicht zugeh–rt, w”hrend sie selbst sprachen, oder wurden durch das Dazwischenreden des Anrufers zum Absturz gebracht."

Zum anderen sind auch "Ðberbeantwortungen" kein Problem mehr. Wenn ein Nutzer auf die Frage nach dem Abfahrtsort das Ziel gleich dazu nennt ("Ich m–chte von Frankfurt nach Hannover"), k–nnen heutige Systeme damit umgehen und die entsprechende Frage ¸berspringen. Sie m¸ssen nicht mehr grunds”tzlich die Gespr”chsf¸hrung ¸bernehmen und den Nutzer durch ein starres Abfrageschema leiten, sondern lassen auch Dialoge mit gemischter Initiative zu. Der Anrufer darf reden, auch wenn er (noch) nicht gefragt wurde - was die Gespr”chszeit erheblich verk¸rzen kann.

Seit der Erkennung einzelner W–rter und Wortfolgen hat sich die Forschung damit kontinuierlich in Richtung der nat¸rlichen Sprache bewegt. "Die besten Systeme verstehen heute schon mehrere hintereinander gesprochene S”tze", sagt Wahlster. Dabei bringen sie weder Versprecher noch St–rger”usche oder mundartliche F”rbungen aus dem Konzept. Bei wirklichen Dialekten oder fremdsprachlichen Eigennamen (Brzezinski) stoþen sie dagegen noch an ihre Grenzen. Ebenso bei fehlerhafter Aussprache (Belle-Alliance-Straþe): In solchen F”llen muþ der Computer nachfragen und in den Buchstabiermodus gehen, was etwa bei sprachgesteuerten Navigationssystemen f¸rs Auto ziemlich l”stig sein kann. W”hrend Spracherkennungssysteme in der Anfangszeit noch auf die Stimmen ihrer Anwender trainiert werden muþten, arbeiten sie heute nicht nur unabh”ngig vom jeweiligen Sprecher, sondern k–nnen sich auf unterschiedliche Sprechweisen "einschwingen".

Als technologischer Standard hat sich f¸r die reine Spracherkennung das "Hidden Markov Modeling" durchgesetzt, ein statistisches Verfahren, bei dem verschiedene Abfolgen von Phonemen (Lauteinheiten) wahrscheinlichkeitstheoretisch modelliert und gelernt werden. Es hat sich auch gegen¸ber neuronalen Netzen, der mathematischen Nachbildung von Gehirnstrukturen, als ¸berlegen erwiesen.

Das Gegenst¸ck zur Spracherkennung ist die Sprachsynthese. Heutige Computer sind in der Lage, kleinste Lauteinheiten rasch zu verarbeiten. Dialogsysteme k–nnen daher mittlerweile die Sprachmelodie variieren, je nachdem ob eine Frage gestellt oder etwa bei einem Sprachlehrprogramm ein strengerer Ton angeschlagen werden soll. Innerhalb der n”chsten f¸nf Jahre rechnet Wahlster mit deutlichen Verbesserungen bei der Erkennung von Emotionen und deren Integration in die Sprachmelodie. Das k–nnte etwa Robotern die n–tige Sensibilit”t verleihen, um pflegebed¸rftigen Menschen wirkliche Hilfestellung zu geben.

Vorreiter d¸rften aber erst einmal Spiel- und Unterhaltungsanwendungen sein, bei denen die Anforderungen an die Zuverl”ssigkeit der Systeme geringer sind, Emotionen gleichwohl eine groþe Rolle spielen. Heutige Systeme k–nnen immerhin schon aggressive Anrufer erkennen und dann an einen menschlichen Gespr”chspartner durchstellen.

Die gr–þte Schwierigkeit stellt aber immer noch die inhaltliche Mehrdeutigkeit von Sprache dar. Das Wort "Bank" kann eben v–llig unterschiedliche Bedeutungen haben, je nachdem ob es um eine Geld¸berweisung, einen M–belkauf oder um ein Fuþballspiel geht. Ein Problem, dem sich das vom DFKI geleitete Smart-Web-Projekt annimmt. Hier sollen die Technologien entwickelt werden, die es dem Computer erm–glichen, auf klar formulierte Fragen klare Antworten zu geben. Die Frage nach dem h–chsten Berg Deutschlands f¸hrt dann nicht mehr zu einer endlosen Liste aller Web-Seiten, in denen die Worte "Berg", "h–chste" oder "Deutschland" vorkommen, sondern zu dem einen richtigen Ergebnis: Zugspitze. Den Kern dieses "Semantic Web" bilden neue Markierungssprachen wie OWL (Web Ontology Language), die eine standardisierte Begrifflichkeit zur Beschreibung digitaler Inhalte bereitstellen.

Eine erste Demonstrationsanwendung soll zur Fuþball-WM 2006 fertig sein. Nutzer k–nnten dann etwa ¸ber Mobiltelefon rasch erfahren, wie oft Frankreich an Weltmeisterschaften teilgenommen hat. Denkbar ist auch der gezielte Zugriff auf Aufzeichnungen einzelner Spiele oder Spielsequenzen. Berti, das Infoportal der ersten Fuþball-Bundesliga, kann heute immerhin schon die Frage beantworten: "Wie hat'n Lautern gespielt?" Eine angenehme Computerstimme berichtet dann akkurat: "Der 1.ÝFC N¸rnberg hat gegen den 1.ÝFC Kaiserslautern zu Hause 1:3 gespielt." Wenn der Anrufer dann trotzdem unzufrieden ist, liegt es ausnahmsweise mal nicht am Computer.

Beispiele: Zugauskunft der Deutschen Bahn Tel.:Ý0800Ý/Ý150Ý70Ý90 Infoportal Berti der ersten Fuþball-Bundesliga: Tel.:Ý091Ý31Ý/Ý61Ý00Ý43

Artikel erschienen am Mo, 24. Januar 2005

Artikel drucken
© WELT.de 1995 - 2005