Das neue von Google verwendete Spracherkennungssystem stammt aus dem Tessin

Verfasst von ictk am 26.10.2015 - 16:26

Die technischen Grundlagen für das neue von Googles "Voice Research" verwendete Spracherkennungssystem stammen aus dem Tessin. Und zwar handelt es sich dabei um rekurrente neuronale Nezte, die vom Dalle Molle Institute for Artificial Intelligence (IDSIA, Università della Svizzera italiana und Scuola universitaria professionale della Svizzera italiana) entwickelt wurden.

Die Technik ist das Ergebnis einiger Forschungsprojekte des Schweizerischen Nationalfonds (SNF) zur Förderung der wissenschaftlichen Forschung. Es geht dabei um eine neue Generation der Spracherkennung, die für Google-Anwendungen auf iOS und Android verwendet wird. Sie ist viel präziser als die vorherige Generation, blendet Geräuschkulissen aus, ist schneller und braucht weniger Rechenleistung.

Grundlage dieser Entwicklung bilden rekurrente neuronale Netze vom Typ Long Short-Term Memory (LSTM), die im Tessin und in München unter der Regie von Prof. Jürgen Schmidhuber - nun an der Fakultät für Informatikwissenschaften der Università della Svizzera italiana (USI) - entwickelt wurden. Milliarden Menschen werden die daraus entstehenden Anwendungen nutzen und dadurch den "Mensch-Maschinen-Dialog" drastisch verbessern können, teilt das Tessiner Institut dazu mit.

Prof. Schmidhuber ist am IDSIA (Institut der USI und SUPSI) tätig. Das Institut ist dem Departement für Innovativen Technologien der SUPSI angeschlossen. Das von IDSIA in Zusammenarbeit mit der Technischen Universität München veröffentlichte Modell ermöglicht einer Maschine das Lernen von Lauten und Wörtern durch Training anhand von Millionen von Beispielen. Es handelt sich um ein künstliches neuronales Netz, das Strukturen des menschlichen Gehirns nachempfunden ist.

Die rekurrenten Verknüpfungen des neuronalen LSTM-Netzes begünstigen den Prozess der Interpretation enorm. Für die neue Generation der Umsetzung von Sprachbefehlen hat Google LSTM-Innovationen verwendet und zitiert. Diese und ähnliche Techniken haben Schmidhubers Gruppe kürzlich neun erste Preise bei angesehenen internationalen Wettbewerben eingebracht. Google und andere wichtige Unternehmen wie Microsoft, IBM und Baidu nutzen LSTM für zahlreiche Anwendungen, unter anderem für die maschinelle Übersetzung, für die Interpretation von Bildern und für die Analyse der natürlichen Sprache. In diesem Rahmen hat Google im vergangenen Jahr Deepmind gekauft, das Unternehmen, das sich mit maschinellem Lernen befasst und vier ehemalige IDSIA Mitarbeiter unter seinen Gründern und Mitarbeitern zählt.