Kinderpornografie in KI-Datensatz entdeckt

Juli Rutsch
Juli Rutsch

Am 26.01.2024 - 15:25

Der gigantische Datensatz Laion 5B musste vorübergehend aus dem Netz verschwinden. Grund dafür ist eine grausame Entdeckung.

Augen Blick Binärcode
Über 3000 missbräuchliche Bilder soll der Datensatz Laion 5B enthalten haben. - Depositphotos

Forscher der renommierten Stanford Universität stiessen in dem Datensatz auf mehr als 3.000 Bilder, die Kindesmissbrauch darstellen könnten. Sogenanntes Child Sexual Abuse Material (CSAM).

Über 1.000 davon wurden bereits unabhängig als solches identifiziert. Genutzt wird der Datensatz von Stable Diffusion sowie weiteren KI-Modellen.

Diese schockierenden Ergebnisse wurden durch den Vergleich von Hashwerten mit bereits bekannten Darstellungen erzielt.

Abstrakte Grafik Binärcode Symbole Profil Mensch
Der Datensatz Laion 5B muss zwischenzeitlich vom Netz genommen werden. - Depositphotos

Es scheint so, dass Laion beim Zusammenstellen des Datensatzes keine Verbindung zu spezialisierten Teams oder Forschern hatte.

Von Anfang an ein Risiko?

Bereits bei der Ankündigung des Datensatzes Laion 5B wies das Team darauf hin, dass die Daten nicht kuratiert waren und somit «zu stark unangenehmen und verstörenden Inhalten» führen könnten. Trotzdem wurde empfohlen, den Datensatz nur zu Forschungszwecken statt im produktiven Einsatz zu verwenden.

Selbst wenn nicht jugendfreie Inhalte herausgefiltert werden könnten: eine Garantie dafür wollte das Team nie geben.

Künstliche Intelligenz und echter Missbrauch

Bisher nahmen viele Forscher an, dass KI-Modelle durch die Zusammenführung verschiedener Informationen in der Lage sein könnten, Darstellungen von Kindesmissbrauch selbst zu generieren. Doch diese Annahme wurde nun widerlegt – entsprechende Inhalte wurden direkt im Datensatz gefunden.

Tastatur Taste Stop Child Porn Zeigefinger
Der grosse Datensatz Laion 5B enthielt sehr wahrscheinlich Bilder von Kindesmissbrauch. - Depositphotos

Darauf trainierte Modelle könnten also auf realer Grundlage neue Bilder generieren.

Die Konsequenzen des Grauens

Nach den schockierenden Ergebnissen entschied das Laion-Team, den Datensatz vorübergehend nicht mehr anzubieten. Es stellte sich heraus, dass sie bereits vor zwei Jahren wussten, dass die Verteilung dieser Inhalte möglicherweise strafbar sein könnte.

Für Nutzer des Datensatzes ergibt sich ein ernsthaftes Problem: Wer diesen vollständigen Datensatz heruntergeladen hat, um etwa ein Modell für Forschungszwecke zu trainieren, sei nun im Besitz von Darstellungen von Kindesmissbrauch.

Mehr zum Thema:

Weiterlesen