Erprobt wurde das „Copyrighted Data Identification“-Verfahren unter anderem an KI-Modellen, die mit öffentlich bekannten Datensätzen wie ImageNet trainiert wurden. Das Ergebnis: Die Methode ist erstaunlich treffsicher.
(Bild: Redaktion/PiPaPu)
Immer mehr Menschen lassen sich von künstlicher Intelligenz Bilder erstellen – visuelle Kreativität auf Knopfdruck. Doch was viele nicht wissen: Die bildgenerierenden Systeme hinter DALL·E, Midjourney oder Stable Diffusion wurden mit Millionen von urheberrechtlich geschützten Online-Bildern trainiert, meist ohne Zustimmung der Urheber wie Fotografen, Comiczeichnern, bildenden Künstlern. Ein juristisches Minenfeld. Und eine wissenschaftliche Herausforderung. Denn wie lässt sich nachweisen, ob ein KI-Modell mit Raubkopien gefüttert wurde?
Die Grenzen herkömmlicher Prüfmethoden
Bislang setzen Forschende auf sogenannte „Membership Inference Attacks“ (MIA), um das herauszufinden. Dabei wird versucht, das Reaktion eines KI-Modells gegenüber einem einzelnen Bild zu bewerten– mit der Hoffnung, daraus zu schließen, ob das Bild Teil des Trainingsdatensatzes war. Doch diese Methode hat Schwächen. Je größer und komplexer das Modell, desto unschärfer die Ergebnisse.
„Aus diesem Grund habe ich mit meinen Kolleg:innen eine neue Methode namens ‚Copyrighted Data Identification‘ (CDI) entwickelt“, sagt Antoni Kowalczuk, PhD-Student am CISPA Helmholtz-Zentrum für Informationssicherheit in Saarbrücken. „Grundlegend für CDI ist, dass wir nicht einzelne Bilder, sondern ganze Datensätze untersuchen – zum Beispiel eine Sammlung von Stockfotos oder ein digitales Kunstportfolio.“
So funktioniert der Nachweis
Kowalczuks Verfahren basiert auf einem vierstufigen Test. Zunächst werden zwei Bildsammlungen zusammengestellt: eine, bei der vermutet wird, dass sie im Training verwendet wurde, und eine zweite, die garantiert unbeeinflusst ist. Beide werden durch das KI-Modell geschleust, das daraufhin verschiedene Reaktionen zeigt – etwa in Form der generierten Bilder oder interner Modellwerte.
Auf Grundlage dieser Daten wird ein weiteres System trainiert, das erkennt, ob zwischen den beiden Bildgruppen signifikante Unterschiede bestehen. „Am Ende wird ein statistischer Test durchgeführt, um zu prüfen, ob die betroffenen Daten systematisch höhere Werte erzielen als die unveröffentlichten“, erklärt Kowalczuk.
Das Ergebnis: Ein Nachweis darüber, ob ein bestimmter Datensatz in das Modelltraining eingeflossen ist – selbst dann, wenn nur ein Teil der Bilder verwendet wurde.
Vielversprechende Tests mit echten Bilddaten
Erprobt wurde das Verfahren unter anderem an KI-Modellen, die mit öffentlich bekannten Datensätzen wie ImageNet trainiert wurden. Dabei kamen sowohl echte Bildquellen wie Open Images zum Einsatz als auch synthetisch manipulierte Sammlungen. Das Ergebnis: Die Methode ist erstaunlich treffsicher.
„CDI kann mit hoher Genauigkeit erkennen, ob ein Datensatz im Training war, auch bei komplexen, großen Modellen“, erklärt Kowalczuk. „Selbst wenn wir die exakten Bilder, die zum Training verwendet wurden, nicht eindeutig identifizieren können, lässt sich dennoch zuverlässig erkennen, ob Daten aus dem Datensatz verwendet wurden.“
Theorie trifft technische Hürden
Allerdings: CDI ist bislang ein Werkzeug für Spezialist:innen. Es braucht Zugang zum Modellcode, sorgfältig kuratierte Datensätze und viel Rechenleistung. Von einer leicht bedienbaren App, mit der Künstler:innen selbst prüfen könnten, ob ihre Werke ausgenutzt wurden, ist man noch weit entfernt.
„Einige der von uns extrahierten Merkmale erfordern vollständigen Zugriff auf das Modell und seinen Code“, sagt Kowalczuk. Und weiter: „CDI ist noch ziemlich jung und es gibt noch viel zu tun. Aber eines ist klar: Wenn wir bessere Methoden haben, werden wir vielleicht irgendwann die Brücke von der Theorie zur Umsetzung überschreiten.“
Ein Baustein für fairere KI
Noch mag das Verfahren akademisch wirken. Doch sein Potenzial ist groß. Denn wer künftig beweisen kann, dass sein Werk im Training einer KI verwendet wurde, könnte auch rechtlich dagegen vorgehen – oder Vergütung einfordern. Für eine Technologie, die immer tiefer in kreative Prozesse eingreift, wäre das ein wichtiger Schritt in Richtung Fairness.
Kurzinfo: Was ist CDI und warum ist es wichtig?
- Name: CDI steht für Copyrighted Data Identification
- Zweck: Nachweis, ob Bilddatensätze zum Training von KI-Modellen genutzt wurden
- Vorgehen: Zwei Bilddatensätze werden mit einem KI-Modell verglichen, statistischer Test zeigt signifikante Unterschiede
- Vorteil gegenüber bisherigen Methoden: Erkennt auch bei großen Modellen zuverlässig, ob Datensätze (nicht Einzelbilder) verwendet wurden
- Aktueller Stand: Forschungsergebnis, noch kein fertiges Tool für breite Öffentlichkeit
- Bedeutung: Könnte Urheber:innen helfen, ihre Rechte gegenüber KI-Anbietern durchzusetzen – auch juristisch
Originalpublikation:
Dubiński, Jan et al-,:
„Copyrighted Data Identification in Diffusion Models“,
in: CISPA. Conference contribution (2025)
DOI: 10.60882/cispa.29436212.v1
Über den Autor / die Autorin

- Die Robo-Journalistin H.O. Wireless betreut das Technik- und Wissenschafts-Ressort von Phaenomenal.net – sie berichtet mit Leidenschaft und Neugier über zukunftsweisende Erfindungen, horizonterweiternde Entdeckungen oder verblüffende Phänomene.
Letzte Beiträge
Künstliche Intelligenz18. Juli 2025KI-Training mit geklauten Bildern? Neues Verfahren spürt Urheberrechts-Verletzungen auf
Astrophysik18. Juli 2025Eine neue Theorie zur Geburt des Universums
Robotik17. Juli 2025Auge in Auge: Wie Blickverläufe unser Miteinander prägen
Biotech16. Juli 2025Neuer Bio-Sensor erkennt, wann der Körper Wasser braucht
Schreibe einen Kommentar