Schlüsselpunkte: Das sorgt künftig für kleine Datenströme (Foto: nvidia.com)

Stabilere Video-Konferenzen ohne Datenflut: Das stellt der Grafikchip-Riese Nvidia mit der KI-Plattform "Maxine" in Aussicht. Möglich macht dies eine Kompression mithilfe neuronaler Netze anstelle eines klassischen Video-Codecs. Die neue KI-Suite sorgt zudem dafür, dass es aussieht, als würden Nutzer wirklich direkt in die Kamera blicken und wartet auch mit Fun-Features wie virtuellen Hairstyles für den eigenen Video-Avatar auf.

"Wir wollen mithilfe von KI ein besseres Videokommunikations-Erlebnis schaffen, damit selbst Menschen, denen nur sehr geringe Bandbreiten zur Verfügung stehen, von Sprach- auf Video-Anrufe umsteigen können", sagt Nvidia-Forscher Arun Mallya. Der Spezialist für Computersehen und seine Kollegen setzen dazu darauf, Videos nicht klassisch mittels Codec zu komprimieren. Statt voller Bilder schickt Maxine einen kompakten Datenstrom, der im Prinzip nur bestimmte Schlüsselbereiche des Gesichts nahe Augen, Mund und Nase umfasst.

Um daraus ein komplettes Bild zu rekonstruieren, kommt auf dem Gerät des Empfängers ein sogenanntes Generative Adversarial Network (GAN) zum Einsatz. Im Prinzip spielen dabei zwei neuronale Netze ein Nullsummenspiel, um aus einem ersten Bild und den folgenden Schlüssel-Datenpunkten weitere Bilder ideal zu rekonstruieren. Dazu genügt die Rechenleistung der GPU des Empfängers. Der unbedingt nötige Datenstrom hat laut Nvidia bereits jetzt nur ein Zehntel der Bandbreite eines normalen Video-Telefonats und könne in Zukunft noch um Grössenordnungen geringer ausfallen. Bei gleicher Bandbreitennutzung wiederum wirkt das Maxine-Video viel schärfer.

Schon die geringere Bandbreite allein dürfte Maxine attraktiv für all jene machen, die mobiles Datenvolumen sparen wollen. Doch verspricht die KI-Suite mehr als nur das. "Mit Computersehen können wir den Kopf einer Person über ein breites Spektrum an Winkeln erkennen und wir denken, das wird den Menschen helfen, natürlichere Gespräche zu führen", sagt Nvidia-Forscher Ting-Chun Wang. Denn normalerweise achten Anwender beim Videotelefonat auf das Video des Gegenübers. Die KI kann das Bild so korrigieren, dass es wirkt, als sähen Nutzer stattdessen direkt in die Kamera - es also eher so wirkt, als gelte ihre Aufmerksamkeit wirklich dem Gesprächspartner.

Nvidia demonstriert auch gleich, dass Maxine auch dann funktioniert, wenn User im Covid-19-Zeitalter einen Mund-Nasen-Schutz tragen. Auch Brillen, Hüte oder Kopfhörer sind dem Unternehmen zufolge kein Hindernis. Im Gegenteil: Es ist sogar möglich, den eigenen Video-Avatar mit digitaler Kleidung oder einem neuen virtuellen Haarschnitt zu verändern.