Illegales KI-Training: Mit diesen Büchern lernte ChatGPT
ChatGPT lernt mithilfe gewaltiger Textmengen. Darunter sind geschützte literarische Werke bekannter Autoren. Über das (rechtlich fragwürdige) KI-Training.
Die digitale Welt erlebte einen Skandal, als im Herbst vergangenen Jahres herauskam, dass KIs mit Unmengen an literarischen Texten «gefüttert» wurden. Das Training der KI-Modelle erfolgte dabei mit einer kaum für möglich gehaltenen Menge an Werken und Inhalten.
Fast 200'000 Bücher aus allen Genres verwendeten die Unternehmen, um ihre KI-Systeme zu trainieren – ohne die Zustimmung der Autoren. In diesem Beitrag schauen wir nochmal genauer hin.
Bücher aller Art und Genres
Wie eine Untersuchung der US-Zeitschrift «The Atlantic» damals enthüllte, basierte ein Textdatei-System namens Books3 auf einer Sammlung illegal kopierter E-Books.
Dessen Fülle an literarischen Gattungen und Genres ist riesig. OpenAI trainierte ChatGPT mit Sachbüchern, erotischer Literatur, Prosa (Romane, Erzählungen und so weiter) oder auch poetischen Texten verschiedener Stile.
Diese Bücher dienten als Lernmaterial für KI-Systeme und helfen ihnen bis heute dabei, Informationen im User-Chat zu kommunizieren.
Verletzung des Urheberrechts
Dank einer Datenbank, die «The Atlantic» gleich selbst ins Netz gestellt hatte, können Autoren bis heute nachvollziehen, ob ihre speziellen Werke zum Training dieser KI-Systeme missbraucht wurden. Denn: Die Nutzung und Verwendung geschah illegal und ohne das Wissen ihrer Schöpfer.
Zu den Opfern zählt die koreanisch-amerikanische Autorin Mary H.K. Choi. Sie verfasste einige erfolgreiche Erzählungen, darunter «Emergency Contact», mit der die KI trainiert wurde.
Oder Nora Roberts, eine der erfolgreichsten und produktivsten Romance-Autorinnen der Welt. Die KI-Firmen bedienten sich über 200 ihrer Bücher – eine Summe an Literatur, die nur noch von Shakespeare übertroffen wird.
Mit Roberts und Choi legten 13'000 Mitglieder des Verbands Authors Guild Klage gegen OpenAI ein. Darunter weltberühmte Schriftsteller wie John Grisham, Jodi Picoult und George R. R. Martin.
Pattsituation: Zwischen Missbrauch und Werbung
Doch nicht alle Autoren sind verärgert darüber, dass KI sich ihrer Sprache und Ideen bedient. James Chappel zum Beispiel zeigte sich einverstanden damit, dass OpenAI sein akademisches Buch über die moderne katholische Kirche als Trainingsmaterial heranzog.
Andere (wenige) Autoren geben an, dass durch eine solche Copyright-Verletzung das eigene Buch immerhin mehr Aufmerksamkeit erfahre. Kostenlose Werbung gewissermassen.
Wie viele andere Diskussionen um KI Möglichkeiten der und Grenzen für die KI hat auc diese gerade erst begonnen ...