Symbolbild: Pixabay/Geralt

Um neue Technologien wie Künstliche Intelligenz (KI) und generative KI sinnvoll nutzen zu können, sind hochwertige Daten das A und O. Unternehmen, die ihre Daten für sich arbeiten lassen, sind also die grossen Profiteure der Zukunft. Sie müssen dazu sicherstellen, dass ihre Daten sicher, genau, geprüft und dokumentiert verwaltet sind – über die passende Data Governance.

Gastbeitrag von Marc Ender, Field CTO / Senior Manager Solutions Specialist, Netapp Schweiz

KI-Tools können die alltäglichen Arbeit wesentlich erleichtern. Sie schreiben E-Mails, fassen Dokumente übersichtlich zusammen, helfen bei Problemstellungen in Coding und Software-Engineering und selbst in der experimentellen Forschung wie für Chip- und Biotechnologie finden sie zunehmend Anwendung. Schweizerische Unternehmen haben dementsprechend erkannt, dass sich in der generativen KI interessante Chancen für neue Geschäftsmöglichkeiten auftun.

Doch was braucht eine KI? Den Treibstoff der neuen Technologie bilden hochwertige Daten. Unternehmen, die ihre Daten in KI-gestützten Prozessen für sich arbeiten lassen, werden künftig ziemlich sicher davon profitieren. Zu einem solchen Ergebnis kommt beispielsweise eine Studie der Boston Consulting Group. Diese zeigt, dass etwa 30 Prozent der datengesteuerten Unternehmen ihren Umsatz bis Ende 2024 um mehr als 10 Prozent steigern werden, verglichen mit nur 13 Prozent der Datennachzügler. Allerdings ist eine hochwertige, stabile und vertrauenswürdige Datenbasis für KI-Workloads zu schaffen keine triviale Aufgabe. Unternehmen müssen sicherstellen, dass ihre Daten sicher, akkurat, geprüft und dokumentiert verwaltet sind. Und das funktioniert nur über eine durchdachte Data-Governance-Strategie.

Data Governance für KI fundamental

Generative-KI-Prozesse sind äusserst komplex und variieren über verschiedene Phasen hinweg, was eine enorm hohe Leistung, massive Skalierung und hohe Ein-/Ausgabeoperationen pro Sekunde erfordert. Verschiedene Teile dieser Workflows können dabei sowohl in der Public Cloud, der Private Cloud und On-Premises laufen. Es braucht also eine intelligente flexible Storage-Struktur mit nahtloser Integration der verschiedenen Umgebungen und Cloud-Dienstleister sowie der privaten Daten des Unternehmens mit AI-Cloudservices. Letzteres schaffen bereits 65 Prozent der KI-Experten und 35 Prozent der KI-Neulinge, wie es auch das von Netapp gesponsorte IDC-Whitepaper "Scaling AI Initiatives Responsibly: The Critical Role of an Intelligent Data Infrastructure" belegt. Nur so kann die KI in einer solch komplexen hybriden Infrastruktur zuverlässig und schnell auf Daten zugreifen.

Die dynamische Natur der Dateninputs für KI- und generative-KI-Workloads bedeutet auch, dass der sichere Zugang zu einem kombinierten Repository mit strukturierten und unstrukturierten Datensätzen und Datentypen mit unterschiedlichen Eigenschaften entscheidend ist. Dafür müssen die Daten – egal ob strukturiert oder unstrukturiert – erfasst, geordnet und klassifiziert werden. Zu diesem Zweck braucht es wiederum eine methodische Identifizierung aller relevanter Datenquellen wie Tabellen oder Datenbanken, um im Anschluss die darin enthaltenen Daten einzuteilen, zu annotieren, zu formatieren und nach Relevanz einzuordnen. So lassen sich die wertvollen Daten für KI-Anwendungen nutzbar machen und Duplikate sowie veraltete und irrelevante Daten herausfiltern.

Neben der Schaffung einer flexiblen Infrastruktur sowie Datenvorbereitung stellen die Datensicherheit und die Datentransparenz weitere Herausforderungen dar. Immerhin werden für das Training von KI-Modellen oftmals die sensibelsten Datensätze eines Unternehmens miteinbezogen. Wenn eine KI auf diese Daten zugreifen kann, erhöht sich dabei nicht nur die Wahrscheinlichkeit für unabsichtliche Datenleaks durch Mitarbeiter. Auch das Risiko von Missbrauch der KI durch Cyberkriminelle steigt, die KI-Modelle zunehmend als Angriffsvektoren in ihre Strategien miteinbeziehen. Ohne die ständige Nachverfolgung des Datenverlaufs können Unternehmen Daten- und Modellvergiftung, Diebstahl personenbezogener Daten oder verzerrte Ergebnisse und Halluzinationen nur unzureichend aufspüren. Versäumnisse im Datenschutz führen dabei nicht nur zu finanziellen Schäden durch Strafzahlungen und Produktionsstopps, sondern ziehen auch einen langfristigen Ruf- und Vertrauensverlust nach sich.

Data Governance – wie Daten KI-ready werden

Unternehmen, die ihre Workloads mit KI erweitern wollen, sollten zuerst Data Governance zur Priorität erklären. Bei KI geht es um Innovation – eine solide Data-Governance-Strategie bildet die Leitplanken dafür. So bringt KI das Unternehmen tatsächlich nach vorne und es driftet nicht ab. Zu diesem Zweck braucht es einheitliche Kontroll- und Verwaltungstools sowie durchdachte Governance-, Sicherheits- und Datenschutzprozesse. Eine reibungslose Integration der verschiedenen Cloud- und On-Premises-Umgebungen bildet dafür die Grundlage. Nur so kann die KI auf eine stabile und vertrauenswürdige Datenbasis zurückgreifen.

Daten sind der Treibstoff von KI. Je hochwertiger und besser organisiert sie sind, desto schneller und reibungsloser läuft der KI-Motor und desto mehr Profit können Unternehmen aus KI-gestützten Workflows ziehen. Folgende Massnahmen sind grundsätzlich empfehlenswert, wenn Unternehmen eine Data-Governance-Strategie aufstellen möchten:
• Standardisierte KI-Governance- und Verfahrens-Richtlinien im Unternehmen festlegen
• Ein unabhängiges internes Gremium bilden, das den verantwortungsvollen und sicheren Einsatz von KI rigoros durchsetzt, überwacht und für Transparenz sorgt
• Konkrete Daten-Verantwortliche ernennen
• Den Datenschutz und die Datensicherheit durch methodische Vorbereitung und Klassifizierung von Datensätzen garantieren und darauf aufbauend: KI-Modelle richtig konfigurieren
• Eine intelligente hybride Daten- und Storage-Infrastruktur bilden

Fazit: KI treibt an, Data Governance kontrolliert

Wenn generative KI der neue Motor im Wagen eines Unternehmens ist, so bildet Data Governance das Lenkrad. Sie sorgt zudem dafür, dass nur der richtige Datentreibstoff in das System kommt. Denn KI-Tools sind nur so gut, wie die Daten, auf die sie zugreifen können. Letztlich bedeutet dies, dass Unternehmen, die umfangreiche strukturierte und unstrukturierte Datensätze in einer intelligenten Dateninfrastruktur verbinden und vereinheitlichen können, am besten für den KI-dominierten Wettbewerb der Zukunft positioniert sind.

Gastautor Marc Ender, Field CTO / Senior Manager Solutions Specialist, Netapp Schweiz (Foto: zVg)
Gastautor Marc Ender, Field CTO / Senior Manager Solutions Specialist, Netapp Schweiz (Foto: zVg)