Windows: Spracheingabe in jeder Anwendung
Windows bringt schon lange von Hause aus eine integrierte Spracherkennung mit. Im Gegensatz zu früheren Versionen muss diese mittlerweile aber nicht mehr aufwändig trainiert und an einen bestimmten Sprecher angepasst werden. Und dank KI lässt sie sich jederzeit und flexibel in fast allen Anwendungen nutzen.
Das Erkennen von menschlicher Sprache ist ein Kunststück, an dem Software-Entwickler schon seit Jahrzehnten arbeiten. Solange gibt es auch bereits Spracherkennungsprogramme, mit denen man Computer steuern und Texte diktieren kann. Allerdings hat diese Disziplin durch die modernen generativen KI-Systeme nochmal einen gewaltigen Schub erfahren. Denn diese nutzen ihre umfassenden Sprachmodelle, um die gesprochenen Laute nicht einfach nur in passende Worte zu übersetzen. Sie analysieren den erkannten Text auch inhaltlich und suchen nach der Version, die logisch den meisten Sinn ergibt. Dadurch erreichen Sie im Vergleich zu früheren Versionen der Spracherkennung eine beeindruckende Erfolgsquote. Dadurch sind die Ergebnisse so gut und zuverlässig, dass kaum noch Korrekturbedarf entsteht und man auf diese Weise oftmals schneller Texte eingeben kann als per Hand.
Auch Microsoft hat die Spracherkennung von Windows gründlich modernisiert. Wer früher schon einmal damit experimentiert und entnervt aufgegeben hat, sollte ihr eine neue Chance geben. Früher musste man die Spracherkennung mühsam auf einen Sprecher trainieren und sich beim Diktieren an bestimmte Regeln halten. Heute kann man ganz ohne Vorbereitung einfach drauflosreden und erzielt damit erstaunlich zuverlässige Ergebnisse.
Windows 11: Spracheingabe vs. Sprachzugriff
Bei der aktuellen Windows-Version begegnen Ihnen verschiedene Funktionen zur Spracherkennung. Beide haben ähnliche Funktionen. Allerdings gibt es wichtige Unterschiede:
- Die Spracheingabe nutzt die Cloud-Server von Microsoft. Ihre Sprachdaten werden also dorthin transferiert, dort analysiert und dann zurück an Ihren PC gesendet. Der Sprachzugriff hingegen arbeitet rein lokal. Die Daten verlassen Ihren PC also nie. Beides hat Vor- und Nachteile. Die Cloud-Spracherkennung ist auf eine Internetverbindung angewiesen, um zu funktionieren. Falls Sie Ihren PC offline betreiben oder mit einem Notebook unterwegs ohne Online-Verbindung sind, kommt nur der Sprachzugriff infrage. Auch unter Datenschutzaspekten ist die Spracheingabe problematisch, da alle Ihre Eingaben mitsamt der enthaltenen Information von Microsoft-Servern ausgewertet werden.
- Da der Sprachzugriff rein lokal auf Ihrem PC arbeitet, ist der aus Datenschutzsicht zu bevorzugen. Auf einem zeitgemäßen PC arbeitet er in der Regel auch schnell genug, um der Spracherkennung ebenbürtig zu sein. Bei älteren PCs kann es allerdings zu Verzögerungen bei der Erkennung kommen, sodass – eine flotte Internetverbindung vorausgesetzt – die Spracherkennung der schnellere Weg ist.
Im Folgenden konzentriere ich mich insbesondere wegen des besseren Datenschutzes auf den lokalen Sprachzugriff und verweise nur gelegentlich auf Unterschiede bei der Spracheingabe.
Daten und Privatsphäre zuverlässig schützen
Windows 11 Datenschutzfibel
|
Sprachzugriff einrichten
Vor der ersten Nutzung muss die Spracherkennung einmalig eingerichtet werden.
- Lokalisieren Sie im Windows-Startmenü den Eintrag Sprachzugriff (über die Suche oder im Unterordner Barrierefreiheit) und öffnen Sie die dazugehörende App.
- Dadurch wird eine Symbolleiste am oberen Bildschirmrand angezeigt. Klicken Sie hier zunächst auf Ich stimme zu, um die Verarbeitung Ihrer Sprachdaten zu erlauben. Diese erfolgt laut Microsoft lokal auf Ihrem PC und nicht in der Cloud.
- Sollte Ihr PC über mehr als ein Mikrofon verfügen, wählen Sie im anschließenden Assistenten dasjenige aus, welches für die Spracherkennung verwendet werden soll.
Spracherkennung bei Windows 10 Bei Windows 10 ist noch die klassische Spracherkennung an Bord, die allerdings relativ aufwändig trainiert und an den Sprecher angepasst werden muss. Hat man das einmal erledigt, kann man damit relativ gut diktieren und Befehle zur Steuerung erteilen. Diese Spracherkennung arbeitet rein lokal. Alternativ steht auch bei Windows 10 eine cloud-basierte Spracherkennung zur Verfügung, die man jederzeit mit [Win]+[H] ein- und ausschalten kann. Sie kann in beliebigen Apps und Eingabefelder genutzt werden, benötigt aber eine Internetverbindung und übermittelt alle Daten an Microsofts Cloud-Server. |
Sprachzugriff an die Taskleiste anheften
Wenn Sie den Sprachzugriff regelmäßig nutzen, ist das Öffnen über das Startmenü auf Dauer recht umständlich. Dann empfiehlt es sich, die App an die Taskleiste anzuheften, um sie von dort jederzeit schnell ausführen zu können.
- Öffnen Sie das Windows-Startmenü (beispielsweise mit [Win]).
- Klicken Sie darin zunächst auf die Alle >-Schaltfläche, um das vollständige Startmenü auszuklappen, und öffnen Sie darin das Untermenü Barrierefreiheit. Alternativ tippen Sie im Suchfeld des Startmenüs „spra“ ein, damit Ihnen der Sprachzugriff als erster Treffer angeboten wird.
- Klicken Sie darin mit der rechten Maustaste auf den Eintrag Sprachzugriff.
- Wählen Sie im so geöffneten Kontextmenü Mehr/An Taskleiste anheften.
- Anschließend finden Sie in der Taskleiste ein neues Symbol vor, mit dem Sie den Sprachzugriff bei Bedarf jederzeit aktivieren können.
Spracheingabe per Tastenkürzel öffnen und schließen Einer der Vorzüge der cloudbasierten Spracheingabe gegenüber dem rein lokal arbeitenden Sprachzugriff ist das komfortablere Öffnen und Beenden nach Bedarf. Die Spracheingabe lässt sich jederzeit mit dem Tastenkürzel [Win]+[H] öffnen und mit derselben Kombination auch jederzeit wieder schließen. |
In beliebigen Anwendungen diktieren
Ist der Sprachzugriff einmal eingerichtet, können Sie ihn jederzeit verwenden, um flexibel in nahezu beliebigen Apps und Eingabefeldern beispielsweise auch auf Webseiten im Browser Texte per Sprache einzugeben.
- Öffnen Sie den Sprachzugriff über das Startmenü oder – sofern dort angeheftet – die Taskleiste.
- Platzieren Sie nun die Eingabemarkierung in der App bzw. dem Eingabefeld, in dem Sie Text einfügen möchten.
- Wenn Sie mit dem Sprechen beginnen möchten, klicken Sie oben links auf das Mikrofon-Symbol.
- Jetzt können Sie einfach drauflosreden. Der Sprachzugriff zeigt den aktuell erkannten Text jeweils in der Symbolleiste an. Dies dient aber nur der Visualisierung der Aktivität. Entscheidend ist, dass der fertig erkannte Text anschließend automatisch in die gewählte App bzw. das Eingabefeld eingefügt wird, so als ob Sie ihn dort eingetippt hätten.
Solange die Steuerleiste für den Sprachzugriff angezeigt wird, kennt sie drei Zustände:
- Mikrofon aus
Das Mikrofon ist deaktiviert und Windows hört absolut nichts. Wenn Sie auf die Mikrofon-Schaltfläche klicken, wird das Mikrofon aktiviert und die Funktion wechselt in den Zuhörmodus. Sie können den Zustand jederzeit wieder herstellen, indem Sie mit der linken Maustaste länger auf das Symbol klicken. - Ich höre zu
In diesem Modus ist der Sprachzugriff aktiv und nimmt Ihre Ansagen entgegen. Mit einem kurzen Klick auf das Mikrofonsymbol wechseln Sie in den Schlafmodus, wenn Sie mit dem Diktieren vorerst fertig sind. - Schlafmodus
Im Schlafmodus registriert der Sprachzugriff Ihre Sprache, reagiert aber nur auf bestimmte Schlüsselwörter wie „Sprachzugriff reaktivieren“. Das ermöglicht es, rein per Sprache wieder in den Zuhörmodus zu wechseln.
Alle Modi lassen sich auch per Sprache erreichen. Im Ich höre zu-Modus können Sie jederzeit „Schlafmodus“ oder „Mikrofon aus“ sagen, um zum jeweiligen Modus zu wechseln. Im Schlafmodus sagen Sie „Mikrofon aus“ oder „Sprachzugriff reaktivieren“. Nur wenn das Mikrofon bereits ausgeschaltet ist, können Sie zu den anderen Modi nur per Mausklick wechseln.