Ingenieure der Princeton University und der Ingenieurschule der Stanford University haben eine Technik zur Komprimierung riesiger Datenmengen von Grossen Sprachmodellen (LLM) vorgestellt, die deren Nutzung auf Smartphones und Laptops ermöglicht, ohne den zentralen Server zu bemühen.
Um die Daten zu reduzieren, werden unter anderem Redundanzen entfernt. Die schlanken LLMs bieten eine Leistung, die fast so genau und nuanciert ist wie eine unkomprimierte Version. "Wenn man die rechnerische Komplexität, den Speicherbedarf und die Bandbreitenanforderungen bei der Verwendung von KI-Modellen reduziert, kann man KI auf Geräten und Systemen ermöglichen, die normalerweise nicht in der Lage sind, solche rechen- und speicherintensiven Aufgaben zu bewältigen", so Princeton-Forscherin Andrea Goldsmith.
"Wenn Sie ChatGPT verwenden, wird jede Anfrage, die Sie eingeben, an die Back-End-Server von OpenAI weitergeleitet, die diese Daten verarbeiten, und das ist sehr teuer. Besser ist es, LLMs mit Grafikprozessoren zu nutzen, die in mobiler Elektronik meist vorhanden ist. Doch das geht nur durch Datenkompression", ergänzt ihr Doktorand Rajarshi Saha. Die Entwickler werden ihren Algorithmus "Caldera" auf der Konferenz über neuronale Informationsverarbeitungssysteme im Dezember dieses Jahres im kanadischen Vancouver vorstellen.
Die Forscher haben bei der Entwicklung der Kompressions-Algorithmen nicht mit LLMs selbst gearbeitet, sondern mit den grossen Informationssammlungen, die zum Training von LLMs und anderen komplexen KI-Modellen verwendet werden - wie solchen, die für die Bildklassifizierung eingesetzt werden. Dieser Vorläufer von Caldera wurde bereits 2023 präsentiert. Caldera ist für Aufgaben geeignet, die keine höchstmögliche Präzision erfordern. Darüber hinaus wird die Möglichkeit erhöht, komprimierte LLMs auf Edge-Geräten wie Smartphones oder Laptops zu nutzen. Unternehmen, Organisationen und Einzelpersonen müssen zudem keine sensiblen Daten an Dritte weitergeben.
Der Online-Stellenmarkt für ICT Professionals