Sprache auf dem Weg zum wieder wichtigsten Kommunikationsmittel

Verfasst von Craig Walker am 29.10.2017 - 09:41

Es gibt bereits eine Reihe von persönlichen Sprachassistenten, wie Siri, Cortana und Google Assistant, und Startups nutzen Künstliche Intelligenz und Analysen, um weitere persönliche Begleiter zu bauen. Es sieht also so aus, als steuerten wir auf eine zunehmend sprachgesteuerte Beziehung zur Technologie zu. Wie zuvor auf dem Consumer-Markt werden diese Stimmenaktivierungssysteme sich wohl am Ende auch in den Unternehmen durchsetzen. Immerhin haben diese Systeme das Potenzial, Aktivitäten enorm zu vereinfachen und zu automatisieren.

Gastbeitrag von Craig Walker, Director Cloud Services bei ALE (Alcatel Lucent Enterprise)

Klar kann es noch lange dauern, bis wir jemanden treffen, der alle Eigenschaften von HAL aus "2001: Odyssee im Weltraum" aufweist. Klar ist aber auch, dass es bereits Technologien gibt, mit denen Unternehmen ihren operativen Betrieb erheblich optimieren können.

Ton ab. Kamera ab. Und Action!

Wie viel einfacher wäre es für einen Arzt, einfach nur zu sagen: "System: Aktualisiere die Krankenakte von Maria Schmidt: Patientin hat Bauchschmerzen. Stell ein Rezept für 200 mg Superantigas aus. Unterschrift: Dr. Wohlfühl." Und wie schön wäre es, wenn man in einem Konferenzraum nicht mit den Fernbedienungen für Bildschirm, Projektor und Beleuchtung kämpfen müsste, sondern nur kurze Sprachanweisung geben müsste: "System: Schalte den Projektor ein, schalte den Bildschirm an, dimme das Licht."

Die Herausforderungen

Wie weit sind wir auf dem Weg zur Sprachsteuerung vorangekommen? Die Stimmenanalyse-Firma Voicelabs hat die verschiedenen Schichten beschrieben, die nötig sind, um einen Voice-First-Ansatz in der Verbraucherwelt umzusetzen. Bevor wir jedoch neben den einfachen verbraucherorientierten Anwendungsfälle auch Anwendungen in komplexen mehrsprachigen Unternehmensumgebungen unterstützen können, müssen noch ein paar Dinge passieren.

Sicherheit wird ein entscheidender Faktor sein, wenn wir anfangen, unsere Enterprise-Systeme mit Sprachbefehlen zu steuern: Soll jeder in der Lage sein, unternehmenskritische Geräte oder Systeme zu kontrollieren, indem er einfach nur spricht? Die Antwort ist natürlich: nein. Der Datenschutz ist ebenfalls ein ganz wichtiges Thema. Das Arztbeispiel scheint ganz einfach zu sein, aber wir müssen es auch im Kontext von Vorschriften und Gesetzen sehen. Sind die Rechte eines Patienten verletzt, wenn durch die Sprachbefehle die medizinischen Daten des Patienten an Dritte gelangen?

Sicherer Zugang

Es gibt bereits die nächste Generation der Spracherkennungssysteme, bei der die Technologie einen sicheren Zugang unterstützt. Banken nutzen diese Systeme, um die Sprachauthentifizierung für ihre Telefonbanking-Systeme einzuführen. Einige Kunden machen sich dabei Sorgen um die Sicherheit ihres Kontos. Aber wahrscheinlicher ist es, dass wir hier einen vergleichbaren Adoptionszyklus sehen werden wie beim E-Commerce. Dort mussten auch erst die anfänglichen Bedenken bezüglich eines möglichen Kreditkartenbetrugs überwunden werden, bevor es zum kometenhaften Aufstieg des Online-Shoppings kommen konnte.

Wir werden auch künftig immer wieder Innovationen und Verbesserungen bei den Spracherkennungssystemen sehen, die es ermöglichen, die Sicherheit des Sprachsystems in einer Unternehmensumgebung zu gewährleisten, um sicherzustellen, dass nur autorisierte Benutzer mit den richtigen Berechtigungen die entsprechenden Aktionen ausführen können.

Und während unsere Mikrowelle uns nicht ausspionieren kann, werden einige Geräte immer eingeschaltet sein, immer auf Empfang – und möglicherweise immer bereit, uns aufzunehmen. Ein paar auf breiter Front veröffentlichte Fälle von Datenschutzverletzungen, Industriespionage oder rechtlichen Risiken könnten die Einführung massiv verzögern. Das heisst, dass ein grosser An-/Aus-Schalter oder eine entsprechende Funktion in die Voice-First-Produkte aufgenommen werden muss, damit der Anwender die Vorteile nutzen kann, ohne eine ständige Überwachung befürchten zu müssen. Ausserdem ist es wichtig, dass die Produkte über einen zuverlässigen sicheren Software-Zugang verfügen, um Hacking-Angriffe zu verhindern und zu erkennen.

Auf dem Weg zu wirksameren Spracherkennungssystemen

Die ersten Anwendungsfälle sind vor allem Sprachdialogsysteme, wie sie beispielsweise in Call-Centern eingesetzt werden oder in unseren Autos und Smartphones implementiert sind. Aber wie viele von uns aus eigener Erfahrung wissen, funktionieren diese Systeme nicht zuverlässig. Spracherkennung und Kontextualisierung müssen durch technologische Entwicklungen noch deutlich verfeinert werden, bevor wir realistisch über einen unternehmensweiten Einsatz nachdenken können.
Forschungsprogramme wie das Sphinx-Projekt der Carnegie-Mellon-Universität verbessern die Spracherkennung immer weiter. Der Internet-Trends-Bericht von Mary Meeker kam zu dem Schluss, dass das Spracherkennungssystem von Google im Jahr 2016 über fünf Millionen Wörter mit einer Genauigkeit von rund 90 Prozent erkennen konnte. Aber das ist noch lange nicht umfangreich oder genau genug. Oder reicht eine Genauigkeit von 90 Prozent etwa aus, wenn es um die Steuerung von lebenserhaltenden Apparaten in einem Krankenhaus oder die Interaktion mit dem Netzwerk eines Versorgers geht?

Es geht ja auch nicht nur um die Erkennung von Wörtern, sondern auch um das, was mit den Wörtern zu tun ist. Hier kommen Cognitive Engines und KI ins Spiel. Einige der grossen Anbieter in der Branche – zum Beispiel Microsoft mit seiner Open Source Cognitive Recognition Engine – unterstützen die Systeme dabei, den Kontext der Wörter zu verstehen. "Wie komme ich zum Bahnhof?“ mag einfach klingen, aber es muss in den richtigen Kontext gebracht werden. Die Standorterkennung könnte darauf hinweisen, dass Sie wahrscheinlich den lokalen Bahnhof meinen. Wenn Sie in einem Café in der Innenstadt sitzen, wäre die Antwort vielleicht: "Biegen Sie am Ende der Strasse rechts ab und folgen Sie der Strasse einen halben Kilometer lang." Dabei haben wir aber angenommen, dass die Eisenbahn gemeint ist, und nicht die U-Bahn oder Strassenbahn.

Die Suche nach dem tieferen Sinn

Die eigentliche Herausforderung besteht aber in dem, was sich hinter den Spracherkennungssystemen verbirgt – von der Integration der IoT-Geräte bis hin zum System selbst. Und in der Notwendigkeit sicherzustellen, dass die gegebenen Befehle einen Sinn ergeben. Hier muss man die Cognitive Engines noch mehr für die Prüfung und Validierung einsetzen.

Nehmen wir an, jemand gibt aus Versehen den Befehl "Kühlsystem des Reaktors 4 abschalten“ – gemeint ist aber Reaktor 3, der bereits heruntergefahren ist. Oder ein Arzt verschreibt über das System die Überdosis eines Medikaments, weil er versehentlich 400 Gramm sagt statt 400 Milligramm. Das mögen extreme Beispiele sein, sie zeigen aber die Notwendigkeit einer ganzheitlichen Sicht auf die Aktionen, die automatisiert gesteuert werden. Nur so kann menschliches Versagen verhindert und eine Intelligenz bereitgestellt werden, die die durch die Sprachsteuerung ausgelösten Handlungen bewerten kann. Vielleicht war im erwähnten Beispiel der Befehl "Kühlsystem des Reaktors 4 abschalten“ korrekt. Dann müsste das System aber immer noch alle operativen Verfahren verstehen, um diese Aktion auszuführen.

API-Plattformen für sprachintegrierte Systeme

Ein interessantes Element, das strategisch mit der Entwicklung von echten sprachgesteuerten Unternehmensumgebungen zusammenhängen kann, beruht auf den Innovationen in der traditionellen Sprachkommunikation. Wir erleben einen explosionsartigen Anstieg von CPaaS (Communication Platform as-a-Service) im Unternehmen, die APIs nutzen, um die bestehenden Anwendungen zu sprachintegrierten Lösungen weiterzuentwickeln. Einige der grossen Sprachkommunikationsanbieter treten jetzt in diesen Markt ein. Sie bieten CPaaS-Infrastrukturen mit einem Standard-Set an APIs, mit denen Unternehmen die Kommunikation in ihre Geschäftsprozesse integrieren können.

Traditionell betrachten wir die Integration von Sprach- und Videodiensten in bestehende Anwendungen – denkt man nur etwa an eine Bankanwendung, die es erlaubt, vom Online-Banking direkt zu einem Sprachanruf mit Ihrem Bankberater zu wechseln. Diese Dienste werden auch eine grosse Rolle in der "Voice First“-Umgebung spielen, indem sie die umfassende API-Infrastruktur der CPaaS-Plattformen nutzen, um mit Anwendungen und Dingen zu kommunizieren.

Neben den Anforderungen an die Kommunikationsinfrastruktur muss die Art und Weise, wie CPaaS oder andere Plattformen mit Geräten kommunizieren, standardisiert werden, bevor wir eine schnelle Entwicklung der Sprachtechnologie sehen werden. Jedes der heutigen sprachgesteuerten Verbrauchersysteme hat eigene Schnittstellen und eigene API-Integrationen. Wie bei dem historischen Kampf "Beta vs. VHS“ vor Jahrzehnten kann das zum Veralten von Produkten führen. Verbraucher wollen nicht die neueste "smarte Kaffeemaschine" kaufen, wenn die Plattform, die sie steuert, gerade eingestellt wurde. Und genauso möchten Unternehmen sicherstellen, dass die neuen Technologien, in die sie investieren, nicht veraltet sind, bevor die Investition sich amortisiert hat.

Das Beste kommt noch

Im Moment werden gerade eine Reihe von Technologien entwickelt, mit denen die Gefahr einer vorzeitigen Obsoleszenz verringert wird. Frameworks wie IoTivity wollen eine standardisierte Plattform bauen. Wir erleben den Wert, die Vorteile und die schnelle Ausbreitung neuer Sprachanwendungen bereits bei den Verbrauchern. In naher Zukunft werden wir sehen, wie einige Anwendungsfälle auch in den Unternehmen zum Tragen kommen. Längerfristig wird es angesichts der Fortschritte bei der Spracherkennung, Sprachsicherheit und bei der Vereinfachung und Standardisierung der Gerätekonnektivität immer mehr Voice-First-Aktivitäten sowohl in der Konsumenten- als auch in der Enterprise-Welt geben, um die Komplexität zu reduzieren und unsere Produktivität zu steigern.

Sprach(eingabe)systeme sind im Vormarsch (Symbolbild: Pixabay)