Gesichter: Genaue Infos sollen Fehler verhindern (Foto: ai.facebook.com)

Facebooks KI-Sparte hat quelloffen die Video-Datenbank "Casual Conversations" veröffentlicht. Sie enthält 45.186 Clips, in denen jeweils zwei Nutzer zwanglos plaudern. Worüber sie reden, ist freilich völlig nebensächlich. Denn die Datenbank soll helfen, Bias bei KI-Systemen entgegenzuwirken. Dazu haben alle Teilnehmer selbst ihr Alter und Gender angegeben. Das könnte helfen, durch ungenaue Schätzungen mitbedingtes, fehlgeleitetes Maschinenlernen zu vermeiden.

"Unseres Wissens nach ist dies der erste öffentlich verfügbare Datensatz mit bezahlten Individuen, die selbst ihr Alter und Gender angeben", heisst es im Facebook-AI-Blog. Die in den Metadaten der Clips vermerkten Angaben stimmen also sicher. Das soll einen entscheidenden Unterschied gegenüber gängigen Datenbanken machen, in denen diese Infos entweder von Dritten oder gar von maschinenlernenden Systemen abgeschätzt werden. Diese enthalten nämlich leicht womöglich unbewusste Vorurteile der Dateneingebenden beziehungsweise solche, die sich schon das annotierende KI-System angelernt hat.

Die Casual Conversations sollen also einen möglichst bias-freien Datensatz bilden, mit dem Forscher ihre KI-Systeme auf mögliches fehlgeleitetes Lernen testen können. Wie leicht es eben dazu kommt, zeigt das Beispiel der verbreiteten Forschungsdatenbank Imagenet. Ein Online-Kunstprojekt hat im Herbst 2019 verdeutlicht, dass KI-Gesichtserkennung aus dieser rassistische Tendenzen lernt. Aber nicht nur Gesichts-, sondern auch Stimmerkennungs-KIs sehen sich immer wieder mit Bias-Vorwürfen konfrontiert.

Gerade in Sachen Rassismus spielt auch der Hautton eine grosse Rolle, und zwar sowohl der tatsächliche als auch der wahrgenommene. Für die Facebook-Datenbank haben daher Experten für alle Clips sowohl den Hauttyp nach der standardisierten Fitzpatrick-Skala als auch die Lichtverhältnisse erfasst. Entsprechende Metadaten sollen helfen zu prüfen, ob KI-Systeme auch noch bei schlechtem Licht schaffen, Bias-frei zu urteilen. Ganz allgemein sind die Casual Conversations als Hilfsmittel gedacht, um sicherzustellen, dass KI möglichst vorurteilsfrei bleibt, wenngleich Facebooks KI-Sparte selbst betont, dass die Datenbank wohl nur ein Schritt auf diesem Weg zu diesem Ziel ist.

http://ai.facebook.com