2232176

Cortana, Alexa und Co.: Windows und PC per Sprache steuern und Text diktieren

21.11.2018 | 08:02 Uhr |

Eine Spracherkennung ist fester Bestandteil von Windows, und in den letzten Jahren wurde sie kontinuierlich verbessert. Doch mit den Sprachassistenten von Amazon & Co. ist Windows eine starke Konkurrenz erwachsen. Wir zeigen die Vorteile jeder Lösung.

Als die Crew des Raumschiffs Enterprise im Film „Star Trek IV: Zurück in die Gegenwart“ in das Jahr 1986 reiste und Chefingenieur Montgomery Scott, genannt Scotty, dort einen PC mit „Hallo Computer“ zu aktivieren versuchte, war das noch ein Scherz der Drehbuchautoren. Der Film stammt ja auch aus dem Jahr 1986. Heute, 32 Jahre später, ist die direkte Ansprache von PCs und anderen Geräten für viele Benutzer hingegen beinahe schon Alltag. Seit in den 90er-Jahren die ersten Spracherkennungspakete für den Desktop-PC auf den Markt kamen, wurden sie kontinuierlich verbessert, wobei die Hersteller zunächst von der ständig steigenden Rechenleistung der CPUs und später dann von den Möglichkeiten des Internets profitiert haben.

Eine größere Aufmerksamkeit gewann die Spracherkennung nach dem Boom in den 90er-Jahren aber erst wieder mit Siri , dem in Apples Mobilbetriebssystem integrierten Sprachassistenten. Entwickelt wurde diese Software von dem gleichnamigen US-amerikanischen Start-up, das 2010 von Apple übernommen wurde. Mit dem iPhone 4s erschien 2011 das erste Smartphone, bei dem Siri fest integriert war. Durch Siri änderte sich die Rolle der Spracherkennung: Anstatt Sprache in Text zu übertragen, beantwortete das Programm Fragen und half, Termine und Notizen zu organisieren.

Siri, Alexa & Co: Jeder Vierte nutzt bereits Sprachsteuerung

Spracherkennung ist nicht gleich Spracherkennung

Siri war die erste populäre Sprachassistentin ihrer Art, der in den Jahren darauf eine Reihe weiterer Programme folgten, darunter Microsoft Cortana , Google Assistant und Amazon Alexa . Damit lassen sich aktuell drei große Anwendungen für die Spracherkennung unterscheiden. Wir stellen sie Ihnen an dieser Stelle kurz vor, weiter unten in diesem Artikel finden Sie darüber hinaus ausführlichere Beschreibungen der Sprachassistenten und ihrer Möglichkeiten:

Diktate: Die Umwandlung von gesprochener Sprache in Text ist die klassische Disziplin der Spracherkennung am PC. Hierbei spricht der Benutzer seinen Text in ein Mikrofon, und die Spracherkennungssoftware wandelt diesen in Text um und zeigt ihn in einer Textverarbeitung wie etwa Word an. Damit das funktioniert, waren in früheren Jahren lange Trainingseinheiten notwendig, in denen sich das Programm auf die Sprechweise des Nutzers einstellte. Moderne Software liefert dagegen schon nach einer kurzen Einstellung des Mikrofons und der Eingabe einiger Beispielsätze gute Erkennungsraten und passt sich während der Benutzung immer besser an den Sprecher an.

PC-Steuerung: Mit einer Sprachsteuerung für den PC können Sie Programme starten und beenden sowie Funktionen aufrufen, den Cursor in der Textverarbeitung an der gewünschten Stelle postieren, scrollen oder auch die Maus bewegen und klicken. Microsoft hat Windows mit einer entsprechenden Funktion ausgestattet, aber auch die kostenpflichtige Software Dragon Home Version 15 (vormals Dragon Naturally Speaking) verfügt über eine Sprachsteuerung. Beide Programme sind in erster Linie für Menschen gedacht, die Probleme mit der Bedienung von Tastatur und Maus haben.

Sprachassistenten: Diese Variation der Spracherkennung setzt nicht nur Sprache in Text um, sondern versteht auch den Sinn der Wörter. Man kann damit mittels Sprache Informationen abrufen, wie beispielsweise den Wetterbericht für den nächsten Tag oder die Ergebnisse des letzten Bundesliga-Spieltages. Allerdings bieten die Sprachassistenten in der Regel kein eigenes Wissen, sondern greifen auf Suchmaschinen und spezialisierte Websites zu.

Sprachassistenten gibt es in Form von Hardware und Software, beide benötigen zwingend eine Netzwerkverbindung ins Internet. Die Grenzen zwischen diesen drei Anwendungsgebieten sind heutzutage fließend. Microsoft Cortana lässt sich beispielsweise sowohl als Sprachassistent als auch für die Steuerung von Windows einsetzen, mithilfe von Apples Siri hingegen können Sie auch kurze E-Mails diktieren.

So aktivieren Sie Cortana

Cortana ist fester Bestandteil von Windows und kann aus dem Betriebssystem nicht entfernt werden. Damit Ihnen der digitale Assistent des Programms hilfreich zur Seite steht, muss er jedoch zunächst aktiviert werden. Dies erledigen Sie entweder gleich bei der Installation von Windows oder im Nachhinein über die „Einstellungen“ im Startmenü: Rufen Sie dort „Cortana“ auf und stellen Sie den Schalter unter „Cortana soll auf ‚Hey Cortana‘ reagieren“ auf „Ein“. Im Anschluss daran können Sie das Programm bereits über den genannten Sprachbefehl aktivieren. Alternativ dazu lässt sich Cortana ebenfalls mithilfe der entsprechenden Option über die Tastenkombination Windows-C aufrufen.

Der intelligente Assistent Cortana wird entweder gleich bei der Installation aktiviert oder im Nachhinein über eine Funktion in den „Einstellungen“ von Windows.
Vergrößern Der intelligente Assistent Cortana wird entweder gleich bei der Installation aktiviert oder im Nachhinein über eine Funktion in den „Einstellungen“ von Windows.

Sobald Cortana aktiv ist, können Sie ihr per Mikrofon Fragen stellen und Befehle erteilen. Eine vollständige Liste finden Sie hier . Dort stehen auch die passenden Kommandos für die erweiterten Funktionen des Programms, etwa zum Aufnehmen von Notizen, zur Einstellung des Weckers oder zur Navigation. Wissensfragen beantwortet der Assistent oft, indem er die Frage an Bing übergibt und die Antworten in Edge anzeigt. Leider ist es in der aktuellen Version von Windows 10 nicht mehr möglich, die Suche auf Google umzustellen. Auch Edge ist fest vorgegeben, ganz gleich, welchen Standard-Browser Sie eingestellt haben.

Spracherkennung am PC: Zum Diktat, bitte!

Die Spracherkennung konfigurieren Sie in der klassischen Systemsteuerung von Windows unter „Erleichterte Bedienung“.
Vergrößern Die Spracherkennung konfigurieren Sie in der klassischen Systemsteuerung von Windows unter „Erleichterte Bedienung“.

Vorreiter für die Spracherkennung am PC waren das mittlerweile eingestellte IBM Viavoice und Dragon Naturally Speaking , das heute unter dem Namen Dragon in verschiedenen Versionen von der Firma Nuance vertrieben wird. Weil Spracherkennungsprogramme umfangreiche Datenbanken erfordern, auf die sie dann während der Texteingabe in rascher Folge zugreifen, waren die ersten Versionen durch die damals verfügbare Rechenleistung stark in ihrer Funktionalität beschränkt. Durch die Verfügbarkeit immer schnellerer CPUs, Festplatten und Bussysteme sowie mit der Entwicklung des Internets wurden diese Beschränkungen allerdings aufgehoben – die Spracherkennung von Amazon Alexa beispielsweise bearbeitet die gesprochenen Anfragen in einem Rechenzentrum des Onlinehändlers.

Dragon ist nach wie vor die Software der Wahl für das Transkribieren von gesprochenen Texten aller Art, wie zum Beispiel von Interviews, Ideen, diktierten Geschäftsbriefen und dergleichen mehr. Mit Dragon Legal Individual ist des Weiteren eine spezielle Ausgabe für Juristen verfügbar. Gleichzeitig bietet das Programm auch eine große Hilfe für alle Personen, die auf der Tastatur lediglich eine langsame Schreibgeschwindigkeit erreichen.

Die Dragon-Engine bildet auch die Basis für die Software Speech Exec , die Philips seinen hochwertigen Handdiktiergeräten beilegt. Denn auch das gibt es heute: Diktiergeräte, die in einem digitalen Format wie MP3 aufnehmen und nach dem Einsetzen in eine Docking Station die Aufnahme automatisch auf den PC laden und sie dort mit einem Spracherkennungsprogramm bearbeiten. Neben Philips stellen unter anderem auch Olympus und Sony entsprechende Geräte her.

So geht’s mit Windows: Die wichtigste Alternative zu Dragon ist die seit Vista in Windows integrierte Text-to-Speech-Engine von Microsoft. Sie ist nicht zu verwechseln mit Cortana – der Assistent kann beispielsweise Word lediglich öffnen, allerdings keinen Text eingeben. Die Windows-Spracherkennung arbeitet offline und hatte in Windows Vista im „Center für erleichterte Bedienung“ ihren Platz. Ab Windows 7 starten Sie die Windows-eigene Spracherkennung über „Windows-Symbol –› Systemsteuerung –› Erleichterte Bedienung –› Spracherkennung –› Spracherkennung starten“. Dort lässt sich die Funktion starten und konfigurieren. Anschließend setzen Sie den Cursor einfach in eine beliebige Anwendung, die Texteingaben unterstützt, klicken auf den Mikrofon-Button und beginnen zu diktieren.

OK Google - so aktivieren und nutzen Sie die Sprachsuche

Cortana mit einer Diktierfunktion aufrüsten

Dictate ist ein kostenloses Add-in für Word, Outlook und Powerpoint.
Vergrößern Dictate ist ein kostenloses Add-in für Word, Outlook und Powerpoint.

Weiter oben in diesem Artikel hieß es, dass sich Cortana nicht für die Umsetzung von Sprache in Text eigne. Das ist so nicht ganz richtig. Das kostenlose Add-in Dictate wurde von einem Team im Rahmen des Garage-Programms von Microsoft entwickelt und greift auf die Funktionen von Cortana und Microsoft Translate zu, um eine Spracherkennung in Word, Outlook und Powerpoint zu integrieren. Verglichen mit der Standardspracherkennung von Windows, die in jedem Programm mit Texteingabe funktioniert, ist sie also einerseits etwas eingeschränkt. Andererseits unterstützt die normale Windows-Spracherkennung lediglich Englisch, Deutsch, Französisch, Japanisch, Mandarin und Spanisch, während Dictate insgesamt 29 Sprachen versteht und mithilfe von Microsoft Translate in Echtzeit in 60 Sprachen übersetzen kann. Die entsprechenden Befehle finden Sie nach der Installation von Dictate in den genannten Office-Programmen im neuen Ribbon „Dictation“. Da das Programm auf Cortana basiert, werden die Diktate online in der Cloud auf Microsoft-Servern verarbeitet und dort auch ausgewertet. Wer das nicht will, sollte bei der in Windows integrierten Spracherkennung bleiben.

Alternativen: Weiterhin existieren mit Paketen wie Dicta Plus oder Voice Pro spezielle Programme für professionell geführte Büros. Gegenüber der Windows-Engine haben diese den Vorteil, dass sie sich um Fachwörterbücher erweitern lassen, im Fall von Dicta Plus beispielsweise um spezielle Wortverzeichnisse für Juristen und Mediziner. Des Weiteren ist mit Speak-a-Message auch ein Freewaretool zur Spracherkennung erhältlich. Diese Software hat sich auf das Verfassen von E-Mails sowie auf das Verschicken von Nachrichten und Fotos spezialisiert.

Sprachsteuerung: Der PC gehorcht aufs Wort

Microsoft Cortana ist zwar in erster Linie ein intelligenter Assistent, lässt sich jedoch auch für die Bedienung von Windows verwenden. Sie können damit beispielsweise die Systemsteuerung oder die Microsoft- Office-Programme öffnen, im Test ließ sich aber zum Beispiel auch Paint Shop Pro mithilfe von Cortana starten. Bei anderen Programmen wie etwa Indesign bestätigte der Assistent uns zwar, dass er verstanden habe („Kein Problem“), stürzte daraufhin jedoch ab oder öffnete eine Bing-Suche. Im Fall von Google Chrome und Google Earth zeigte die Software hingegen lediglich einige Informationen zu den Programmen an, anstatt diese zu starten. Die Dragon-Pakete von Nuance bieten neben der Transkription von Texten gleichfalls Funktionen für die Sprachsteuerung von Windows an.

Assistenten: Wie hoch ist der Mount Everest?

Echo von Amazon war mit Alexa der erste populäre Hardwaresprachassistent auf dem Markt.
Vergrößern Echo von Amazon war mit Alexa der erste populäre Hardwaresprachassistent auf dem Markt.

Cortana von Microsoft, Amazon Alexa sowie der Google Assistant und Apples Siri sind Sprachassistenten, die allgemeine Wissensfragen beantworten, aber den Nutzer auch auf bevorstehende Termine hinweisen können. Mit den Geräten aus der Echo-Serie war Amazon der Vorreiter, der einen Assistenten als wohnzimmertaugliches Gerät mit WLAN-Anschluss anbot. Nach Schätzungen von Analysten hat das Unternehmen bislang rund 50 Millionen Alexa-Systeme verkaufen können. Ursprünglich hatte Amazon das Gerät als ein bequemes Werkzeug zum Bestellen seiner Produkte konzipiert. Allerdings werden die Echo-Lautsprecher lediglich von einer kleinen Minderheit ihrer Besitzer auch entsprechend genutzt.

Einige Monate nach dem Erscheinen von Alexa zog Google mit dem Home Assistant nach, 2018 kam der Apple Homepod auf den Markt. Nur Microsoft setzt ausschließlich auf eine Softwarelösung.

Wissensfragen wie etwa nach der Höhe des Mount Everest beantworten die Geräte auf Basis einer Suchmaschinenabfrage. Apple Siri und der Google Assistant greifen dabei auf Google zu, Amazon und Microsoft verwenden Bing. Cortana nimmt sich die Freiheit, bei einigen Fragen einfach nur die Ergebnisliste von Bing anzuzeigen, nach dem Motto: „Such es doch selber raus“.

Fazit: Windows-Spracherkennung ist ausreichend

Die Spracherkennung von Windows dürfte für die allermeisten Anwender ausreichend sein. Die Erkennungsgenauigkeit ist bei den derzeit verfügbaren Paketen von Drittherstellern auch nicht besser. Diese Software bietet Ihnen in erster Linie den Vorteil, dass sie sich um einige Fachwörterbücher erweitern lässt und man sie für die Steuerung zusätzlicher Anwendungen anpassen kann. Genau wie bei der PC-Steuerung per Sprache handelt es sich hier aber um einen Nischenmarkt.

Ganz anders sieht die Situation inzwischen bei den digitalen Assistenten aus. Alexa hat hier einen Hype ausgelöst, der noch lange nicht beendet ist. Immer mehr Hersteller springen aktuell auf diesen Zug auf und präsentieren den Nutzern eine Anbindung an Alexa oder an den Google Assistant für die Sprachsteuerung ihrer Produkte. Und wie es aussieht, nehmen die Kunden diese Entwicklung gerne an.

Spracherkennung: Ein gutes Mikrofon ist Pflicht

Für die Spracherkennung sollten Sie ein möglichst gutes Mikrofon benutzen. Leider sind die für wenige Euro angebotenen Headsets keine Vorbilder bei der Tonqualität, die Spracherkennungspakete melden bei deren Verwendung daher teilweise eine zu geringe Lautstärke. Das können Sie über die Soundeinstellungen von Windows ein wenig ausgleichen: Rufen Sie dazu im Startmenü die „Einstellungen“ auf und gehen Sie auf „System –› Sound“. Scrollen Sie nach unten zum Abschnitt „Eingabe“, klicken Sie im Folgenden auf „Geräteeigenschaften“ und öffnen Sie im nächsten Fenster das Register „Pegel“. Schieben Sie den Regler bei „Mikrofonverstärkung“ ganz nach rechts, um die Empfindlichkeit zu erhöhen. Allerdings verstärken Sie damit auch das Rauschen. Besser ist aus diesem Grund der Anschluss eines USB-Mikrofons, das es ab etwa 15 Euro als Standgerät gibt. Lavalier-Modelle zum Anstecken sind bereits ab etwa 12 Euro erhältlich.

Über die „Einstellungen“ können Sie die Empfindlichkeit des Mikrofons erhöhen.
Vergrößern Über die „Einstellungen“ können Sie die Empfindlichkeit des Mikrofons erhöhen.

Für die in Windows eingebaute Spracherkennung empfiehlt es sich zudem, den PC auf Ihre Stimme einzustellen. Öffnen Sie dazu in der Systemsteuerung den Bereich „Spracherkennung“ und klicken Sie auf „Computer trainieren, damit er Sie besser versteht“. Die Trainingseinheit dauert nur wenige Minuten und liefert zudem interessante Hinweise zur Spracherkennungsfunktion. Über den Link „Sprachreferenzkarte öffnen“ erreichen Sie außerdem eine Liste mit möglichen Kommandos.

Panasonic hat einen Akku entwickelt, der nur 0,45mm dick und außerdem biegbar ist. Damit eigenet er sich für flexible Geräte mit biegbaren Displays. Bisher ist die Kapazität allerdings noch relativ gering. Die Massenproduktion soll 2018 starten.

PC-WELT Marktplatz

0 Kommentare zu diesem Artikel
2232176