2232176

Cortana, Alexa und Co.: Windows und PC per Sprache steuern und Text diktieren

21.11.2018 | 08:02 Uhr | Roland Freist

Eine Spracherkennung ist fester Bestandteil von Windows, und in den letzten Jahren wurde sie kontinuierlich verbessert. Doch mit den Sprachassistenten von Amazon & Co. ist Windows eine starke Konkurrenz erwachsen. Wir zeigen die Vorteile jeder Lösung.

Als die Crew des Raumschiffs Enterprise im Film „Star Trek IV: Zurück in die Gegenwart“ in das Jahr 1986 reiste und Chefingenieur Montgomery Scott, genannt Scotty, dort einen PC mit „Hallo Computer“ zu aktivieren versuchte, war das noch ein Scherz der Drehbuchautoren. Der Film stammt ja auch aus dem Jahr 1986. Heute, 32 Jahre später, ist die direkte Ansprache von PCs und anderen Geräten für viele Benutzer hingegen beinahe schon Alltag. Seit in den 90er-Jahren die ersten Spracherkennungspakete für den Desktop-PC auf den Markt kamen, wurden sie kontinuierlich verbessert, wobei die Hersteller zunächst von der ständig steigenden Rechenleistung der CPUs und später dann von den Möglichkeiten des Internets profitiert haben.

Eine größere Aufmerksamkeit gewann die Spracherkennung nach dem Boom in den 90er-Jahren aber erst wieder mit Siri , dem in Apples Mobilbetriebssystem integrierten Sprachassistenten. Entwickelt wurde diese Software von dem gleichnamigen US-amerikanischen Start-up, das 2010 von Apple übernommen wurde. Mit dem iPhone 4s erschien 2011 das erste Smartphone, bei dem Siri fest integriert war. Durch Siri änderte sich die Rolle der Spracherkennung: Anstatt Sprache in Text zu übertragen, beantwortete das Programm Fragen und half, Termine und Notizen zu organisieren.

Siri, Alexa & Co: Jeder Vierte nutzt bereits Sprachsteuerung

Spracherkennung ist nicht gleich Spracherkennung

Siri war die erste populäre Sprachassistentin ihrer Art, der in den Jahren darauf eine Reihe weiterer Programme folgten, darunter Microsoft Cortana , Google Assistant und Amazon Alexa . Damit lassen sich aktuell drei große Anwendungen für die Spracherkennung unterscheiden. Wir stellen sie Ihnen an dieser Stelle kurz vor, weiter unten in diesem Artikel finden Sie darüber hinaus ausführlichere Beschreibungen der Sprachassistenten und ihrer Möglichkeiten:

Diktate: Die Umwandlung von gesprochener Sprache in Text ist die klassische Disziplin der Spracherkennung am PC. Hierbei spricht der Benutzer seinen Text in ein Mikrofon, und die Spracherkennungssoftware wandelt diesen in Text um und zeigt ihn in einer Textverarbeitung wie etwa Word an. Damit das funktioniert, waren in früheren Jahren lange Trainingseinheiten notwendig, in denen sich das Programm auf die Sprechweise des Nutzers einstellte. Moderne Software liefert dagegen schon nach einer kurzen Einstellung des Mikrofons und der Eingabe einiger Beispielsätze gute Erkennungsraten und passt sich während der Benutzung immer besser an den Sprecher an.

PC-Steuerung: Mit einer Sprachsteuerung für den PC können Sie Programme starten und beenden sowie Funktionen aufrufen, den Cursor in der Textverarbeitung an der gewünschten Stelle postieren, scrollen oder auch die Maus bewegen und klicken. Microsoft hat Windows mit einer entsprechenden Funktion ausgestattet, aber auch die kostenpflichtige Software Dragon Home Version 15 (vormals Dragon Naturally Speaking) verfügt über eine Sprachsteuerung. Beide Programme sind in erster Linie für Menschen gedacht, die Probleme mit der Bedienung von Tastatur und Maus haben.

Sprachassistenten: Diese Variation der Spracherkennung setzt nicht nur Sprache in Text um, sondern versteht auch den Sinn der Wörter. Man kann damit mittels Sprache Informationen abrufen, wie beispielsweise den Wetterbericht für den nächsten Tag oder die Ergebnisse des letzten Bundesliga-Spieltages. Allerdings bieten die Sprachassistenten in der Regel kein eigenes Wissen, sondern greifen auf Suchmaschinen und spezialisierte Websites zu.

Sprachassistenten gibt es in Form von Hardware und Software, beide benötigen zwingend eine Netzwerkverbindung ins Internet. Die Grenzen zwischen diesen drei Anwendungsgebieten sind heutzutage fließend. Microsoft Cortana lässt sich beispielsweise sowohl als Sprachassistent als auch für die Steuerung von Windows einsetzen, mithilfe von Apples Siri hingegen können Sie auch kurze E-Mails diktieren.

Spracherkennung am PC: Zum Diktat, bitte!

Die Spracherkennung konfigurieren Sie in der klassischen Systemsteuerung von Windows unter „Erleichterte Bedienung“.
Vergrößern Die Spracherkennung konfigurieren Sie in der klassischen Systemsteuerung von Windows unter „Erleichterte Bedienung“.

Vorreiter für die Spracherkennung am PC waren das mittlerweile eingestellte IBM Viavoice und Dragon Naturally Speaking , das heute unter dem Namen Dragon in verschiedenen Versionen von der Firma Nuance vertrieben wird. Weil Spracherkennungsprogramme umfangreiche Datenbanken erfordern, auf die sie dann während der Texteingabe in rascher Folge zugreifen, waren die ersten Versionen durch die damals verfügbare Rechenleistung stark in ihrer Funktionalität beschränkt. Durch die Verfügbarkeit immer schnellerer CPUs, Festplatten und Bussysteme sowie mit der Entwicklung des Internets wurden diese Beschränkungen allerdings aufgehoben – die Spracherkennung von Amazon Alexa beispielsweise bearbeitet die gesprochenen Anfragen in einem Rechenzentrum des Onlinehändlers.

Dragon ist nach wie vor die Software der Wahl für das Transkribieren von gesprochenen Texten aller Art, wie zum Beispiel von Interviews, Ideen, diktierten Geschäftsbriefen und dergleichen mehr. Mit Dragon Legal Individual ist des Weiteren eine spezielle Ausgabe für Juristen verfügbar. Gleichzeitig bietet das Programm auch eine große Hilfe für alle Personen, die auf der Tastatur lediglich eine langsame Schreibgeschwindigkeit erreichen.

Die Dragon-Engine bildet auch die Basis für die Software Speech Exec , die Philips seinen hochwertigen Handdiktiergeräten beilegt. Denn auch das gibt es heute: Diktiergeräte, die in einem digitalen Format wie MP3 aufnehmen und nach dem Einsetzen in eine Docking Station die Aufnahme automatisch auf den PC laden und sie dort mit einem Spracherkennungsprogramm bearbeiten. Neben Philips stellen unter anderem auch Olympus und Sony entsprechende Geräte her.

So geht’s mit Windows: Die wichtigste Alternative zu Dragon ist die seit Vista in Windows integrierte Text-to-Speech-Engine von Microsoft. Sie ist nicht zu verwechseln mit Cortana – der Assistent kann beispielsweise Word lediglich öffnen, allerdings keinen Text eingeben. Die Windows-Spracherkennung arbeitet offline und hatte in Windows Vista im „Center für erleichterte Bedienung“ ihren Platz. Ab Windows 7 starten Sie die Windows-eigene Spracherkennung über „Windows-Symbol –› Systemsteuerung –› Erleichterte Bedienung –› Spracherkennung –› Spracherkennung starten“. Dort lässt sich die Funktion starten und konfigurieren. Anschließend setzen Sie den Cursor einfach in eine beliebige Anwendung, die Texteingaben unterstützt, klicken auf den Mikrofon-Button und beginnen zu diktieren.

OK Google - so aktivieren und nutzen Sie die Sprachsuche

Cortana mit einer Diktierfunktion aufrüsten

Dictate ist ein kostenloses Add-in für Word, Outlook und Powerpoint.
Vergrößern Dictate ist ein kostenloses Add-in für Word, Outlook und Powerpoint.

Weiter oben in diesem Artikel hieß es, dass sich Cortana nicht für die Umsetzung von Sprache in Text eigne. Das ist so nicht ganz richtig. Das kostenlose Add-in Dictate wurde von einem Team im Rahmen des Garage-Programms von Microsoft entwickelt und greift auf die Funktionen von Cortana und Microsoft Translate zu, um eine Spracherkennung in Word, Outlook und Powerpoint zu integrieren. Verglichen mit der Standardspracherkennung von Windows, die in jedem Programm mit Texteingabe funktioniert, ist sie also einerseits etwas eingeschränkt. Andererseits unterstützt die normale Windows-Spracherkennung lediglich Englisch, Deutsch, Französisch, Japanisch, Mandarin und Spanisch, während Dictate insgesamt 29 Sprachen versteht und mithilfe von Microsoft Translate in Echtzeit in 60 Sprachen übersetzen kann. Die entsprechenden Befehle finden Sie nach der Installation von Dictate in den genannten Office-Programmen im neuen Ribbon „Dictation“. Da das Programm auf Cortana basiert, werden die Diktate online in der Cloud auf Microsoft-Servern verarbeitet und dort auch ausgewertet. Wer das nicht will, sollte bei der in Windows integrierten Spracherkennung bleiben.

Alternativen: Weiterhin existieren mit Paketen wie Dicta Plus oder Voice Pro spezielle Programme für professionell geführte Büros. Gegenüber der Windows-Engine haben diese den Vorteil, dass sie sich um Fachwörterbücher erweitern lassen, im Fall von Dicta Plus beispielsweise um spezielle Wortverzeichnisse für Juristen und Mediziner. Des Weiteren ist mit Speak-a-Message auch ein Freewaretool zur Spracherkennung erhältlich. Diese Software hat sich auf das Verfassen von E-Mails sowie auf das Verschicken von Nachrichten und Fotos spezialisiert.

Sprachsteuerung: Der PC gehorcht aufs Wort

Microsoft Cortana ist zwar in erster Linie ein intelligenter Assistent, lässt sich jedoch auch für die Bedienung von Windows verwenden. Sie können damit beispielsweise die Systemsteuerung oder die Microsoft- Office-Programme öffnen, im Test ließ sich aber zum Beispiel auch Paint Shop Pro mithilfe von Cortana starten. Bei anderen Programmen wie etwa Indesign bestätigte der Assistent uns zwar, dass er verstanden habe („Kein Problem“), stürzte daraufhin jedoch ab oder öffnete eine Bing-Suche. Im Fall von Google Chrome und Google Earth zeigte die Software hingegen lediglich einige Informationen zu den Programmen an, anstatt diese zu starten. Die Dragon-Pakete von Nuance bieten neben der Transkription von Texten gleichfalls Funktionen für die Sprachsteuerung von Windows an.

Assistenten: Wie hoch ist der Mount Everest?

Echo von Amazon war mit Alexa der erste populäre Hardwaresprachassistent auf dem Markt.
Vergrößern Echo von Amazon war mit Alexa der erste populäre Hardwaresprachassistent auf dem Markt.

Cortana von Microsoft, Amazon Alexa sowie der Google Assistant und Apples Siri sind Sprachassistenten, die allgemeine Wissensfragen beantworten, aber den Nutzer auch auf bevorstehende Termine hinweisen können. Mit den Geräten aus der Echo-Serie war Amazon der Vorreiter, der einen Assistenten als wohnzimmertaugliches Gerät mit WLAN-Anschluss anbot. Nach Schätzungen von Analysten hat das Unternehmen bislang rund 50 Millionen Alexa-Systeme verkaufen können. Ursprünglich hatte Amazon das Gerät als ein bequemes Werkzeug zum Bestellen seiner Produkte konzipiert. Allerdings werden die Echo-Lautsprecher lediglich von einer kleinen Minderheit ihrer Besitzer auch entsprechend genutzt.

Einige Monate nach dem Erscheinen von Alexa zog Google mit dem Home Assistant nach, 2018 kam der Apple Homepod auf den Markt. Nur Microsoft setzt ausschließlich auf eine Softwarelösung.

Wissensfragen wie etwa nach der Höhe des Mount Everest beantworten die Geräte auf Basis einer Suchmaschinenabfrage. Apple Siri und der Google Assistant greifen dabei auf Google zu, Amazon und Microsoft verwenden Bing. Cortana nimmt sich die Freiheit, bei einigen Fragen einfach nur die Ergebnisliste von Bing anzuzeigen, nach dem Motto: „Such es doch selber raus“.

Fazit: Windows-Spracherkennung ist ausreichend

Die Spracherkennung von Windows dürfte für die allermeisten Anwender ausreichend sein. Die Erkennungsgenauigkeit ist bei den derzeit verfügbaren Paketen von Drittherstellern auch nicht besser. Diese Software bietet Ihnen in erster Linie den Vorteil, dass sie sich um einige Fachwörterbücher erweitern lässt und man sie für die Steuerung zusätzlicher Anwendungen anpassen kann. Genau wie bei der PC-Steuerung per Sprache handelt es sich hier aber um einen Nischenmarkt.

Ganz anders sieht die Situation inzwischen bei den digitalen Assistenten aus. Alexa hat hier einen Hype ausgelöst, der noch lange nicht beendet ist. Immer mehr Hersteller springen aktuell auf diesen Zug auf und präsentieren den Nutzern eine Anbindung an Alexa oder an den Google Assistant für die Sprachsteuerung ihrer Produkte. Und wie es aussieht, nehmen die Kunden diese Entwicklung gerne an.

Panasonic hat einen Akku entwickelt, der nur 0,45mm dick und außerdem biegbar ist. Damit eigenet er sich für flexible Geräte mit biegbaren Displays. Bisher ist die Kapazität allerdings noch relativ gering. Die Massenproduktion soll 2018 starten.

PC-WELT Marktplatz

2232176