Siri vs. Android

Sprachsteuerung für Smartphones und Tablets im Vergleich

Donnerstag, 17.01.2013 | 12:01 von Michael Rupp
Fotostrecke Sprachgesteuerter Weckdienst
Sprachassistenten auf dem Smartphone und Tablet erkennen natürliche Sprache. Damit diktieren Sie bequem und schnell, statt Eingaben auf der virtuellen Tastatur einzutippen, und steuern Aktionen nach dem Frage-und-Antwort-Prinzip.
Gemessen am Aufsehen, das Apples intelligente Sprachsteuerung Siri bei der Veröffentlichung des iPhone 4S erregte, ist die Sprachbedienung von Smartphones und Tablets derzeit weniger in aller Munde. Dabei ist der Sprachassistent auf Apples aktueller Generation mobiler Begleitern inzwischen Standard, angefangen vom iPhone 4S und 5, über das iPad der 3. & 4. Generation sowie dem iPad mini bis hin zum iPod touch der 5. Generation. Mit S-Voice hat Samsung ein mit Siri vergleichbares System in die Smartphones S3 und S3 Mini eingebaut. Und auch in Android 4.1 („Jelly Bean“) gibt es mit Google Now einen Suchassistenten mit Sprachein- und -ausgabe.

Sprachgrundfunktionen im Überblick

In puncto Sprachsteuerung blicken Android und iOS auf eine holprige Vergangenheit zurück. Bei beiden Systemen gehörte eine Spracherkennung seit Längerem zur Grundausstattung, doch aufgrund ihrer schlechten Erkennungsleistung und des unzureichenden Befehlsumfangs war damit kaum etwas anzufangen. Selbst die an sich praktische Sprachwahl, um etwa via Headset beim Autofahren Anrufe einzuleiten, war in früheren Versionen von Android und iOS kaum vernünftig nutzbar.

Mit Einführung des Sprachassistenten Siri für iOS 5.0 und das iPhone 4S führen Smartphones gesprochene Befehle aus und beantworten Fragen. Für die Funktion ist eine Onlineverbindung notwendig. Die Spracheingabe wird über Internet an den Sprachserver gesendet, dort analysiert und die entsprechende Antwort zum Smartphone zurückgeschickt. Die Ausgabe erfolgt via Sprachsynthese und auf dem Display.

Siri selbst ist noch nicht einmal eine Eigenentwicklung des kalifornischen Technologiekonzerns Apple, sondern ein zugekauftes Produkt. Allerdings hat Apple es fertig gebracht, eine zwar neuartige, aber nicht wirklich innovative Idee umzusetzen und daraus eine alltagstaugliche Anwendung zu formen, die sich in der Praxis leicht verwenden lässt. An der Entwicklung der Spracherkennungssysteme bei Apple und Samsung ist übrigens der Hersteller Nuance beteiligt. Das Unternehmen bietet mit Dragon Dictation (iOS) und Dragon Mobile Assistant (Android) in den App Stores von Google und Apple eine mit Siri und S-Voice der Basis nach funktionsähnliche Spracherkennungs-App kostenlos an.

Spracherkennung vs. Sprachsteuerung

In der Praxis wird man die Spracherkennung am ehesten als Teilersatz für die virtuelle Tastatur nutzen. Eine entsprechende Diktatfunktion hat Apple konsequent in iOS eingebaut: Immer dann, wenn die Bildschirmtastatur eingeblendet wird, kann man die Spracherkennung über den Mikrofonknopf starten oder das iPhone ans Ohr führen und nach dem Ertönen des Signals sprechen. Wer sich ein wenig mit der Diktatfunktion befasst, erzielt damit vom Start weg gute Ergebnisse.

Über das reine Diktieren von Text geht die Sprachsteuerung hinaus, deren Grundfunktionen sich bei Siri und S-Voice kaum unterscheiden: Halten Sie die Home-Taste oder den Taster am Headset so lange gedrückt, bis Sie ein akustisches Signal hören. Jetzt nimmt das Smartphone oder Tablet natürlich gesprochene Sprachkommandos entgegen, zum Beispiel: „Wie wird das Wetter in“ oder „Schreibe eine Nachricht an“, gefolgt vom gewünschten Text oder Stichwort.

Google Now in Android 4.1 wird über das Google-Suchfeld aufgerufen, beschränkt sich jedoch nicht auf klassische Suchabfragen bei Google. Wie bei Siri und S-Voice kann man Wetter- und Verkehrsinformationen abrufen, Sportereignisse abfragen oder Statusmeldungen in sozialen Netzwerken veröffentlichen. Die Sprachsteuerung lässt sich in der Praxis sinnvoll einsetzen, um den Text einer Kurzmitteilung, Notizen oder eine Mail inklusive Adressat aufzusprechen.

Seit iOS 6 gibt es bei Apple nun auch ortsbezogene Suchdienste. Damit lassen sich auch hierzulande bestimmte Lokalitäten suchen. So funktioniert jetzt etwa die Anweisung „Zeige Cafés in Berlin“ oder die Frage „Gibt es Restaurants in der Nähe“. Die Ergebnisse werden nach Entfernung angezeigt.

Die Genauigkeit verbessern

Die Sprachbefehle funktionieren bei allen drei Systemen im Normalfall gut; Sie müssen weder besonders laut noch besonders langsam sprechen. Achten Sie auf eine deutliche Aussprache, jedoch ohne zu übertreiben, und sprechen Sie den Text mit Interpunktion – dann wird er mit kurzer Verzögerung in getippter Form umgesetzt. Gebräuchliche Sonderzeichen, etwa Paragraf (Paragraphenzeichen), Anweisungen wie „Neue Zeile“, Wortzusammensetzungen („Rheinland Bindestrich Pfalz“) sowie Datums- und Uhrzeitangaben sind im Sprachwortschatz enthalten.

Als problematisch beim Diktieren und der Sprachsteuerung erweisen sich starker Dialekt und Nuscheln. Auch Störgeräusche, beispielsweise im Hintergrund laufendes Radio oder Fernsehen sowie Verkehrslärm bringen die Spracherkennung aus dem Tritt. Falsch verstandene Anweisungen sollte man nicht einfach übergehen: Werden Begriffe wiederholt nicht richtig erkannt, kann es zweckdienlich sein, den jeweiligen Sprachbefehl künftig anders zu formulieren, indem Sie etwa Synonyme verwenden oder die Aussprache ein wenig variieren.

Beim Diktieren ist es ratsam, längere Textabschnitte in Form mehrerer kurzer Sätze zu sprechen und sie nacheinander erkennen zu lassen. Anderenfalls kann es vor allem bei einer langsamen Internetverbindung zu Verzögerungen durch das Übertragen der Sprachanfrage zum Server kommen. Unter Umständen wird Ihre Eingabe dann gar nicht verwertet und Sie müssen das Ge­sprochene neu diktieren.

F allstricke bei der Stimmerkennung

Damit Siri & Co. im Alltag mit dem gewohnten Tastenfeld in Sachen Eingabe gleichziehen oder es unter Komfort- und Geschwindigkeitsaspekten sogar überholen, muss die Trefferquote überragend hoch sein. Anderenfalls lassen sich Texteingaben oder der Aufruf von Apps schneller und zuverlässiger auf herkömmlichem Wege erledigen. Wie gut Siri, S-Voice und Google Now den Nutzer verstehen und dessen Anweisungen umsetzen, hängt von zahlreichen Faktoren ab.

Einige davon, etwa das Sprechtempo und die Aussprache, kann der Anwender selbst beeinflussen. Sie wirken sich allerdings nur auf die reine Spracherkennungsleistung aus. Andere, wie die hinter der Spracherkennung stehenden Datenbanken, anhand derer Siri auf Fragen passende Antworten liefert, sind vom Nutzer unabhängig. Vieles von dem, was Siri & Co. fehlerfrei verstehen, kann vom jeweiligen System aufgrund fehlender Datenbanken nicht umgesetzt werden.

Sind die Datenbanken lückenhaft oder nicht lokalisiert – für den englischen Sprachraum gibt es bei Apple weit mehr mit Siri konforme Datenbestände als hierzulande – kann der Sprachassistent auch korrekt erkannte Anweisungen mangels Aktionszuordnung nicht ausführen.

 

Donnerstag, 17.01.2013 | 12:01 von Michael Rupp
Kommentieren Kommentare zu diesem Artikel (1)
  • 123neu 23:27 | 20.01.2013

    Sprachsteuerung für Smartphones und Tablets im Vergleich

    >>Satzzeichen<< Hat denn schon jemand es geschafft auf seinem Android Sattzeichen zu diktieren? Mein Galaxy Note2 schreibt immer fleißig "Bindestrich" und "Punkt" als Wort aus. Zitat: " und sprechen Sie den Text mit Interpunktion – dann wird er mit kurzer Verzögerung in getippter Form umgesetzt. Gebräuchliche Sonderzeichen, etwa Paragraf (Paragraphenzeichen), Anweisungen wie „Neue Zeile“, Wortzusammensetzungen („Rheinland Bindestrich Pfalz“) sowie Datums- und Uhrzeitangaben sind im Sprachwortschatz enthalten."

    Antwort schreiben
1665936