KI-Training mit geklauten Bildern? Neues Verfahren spürt Urheberrechts-Verletzungen auf

KI-Training mit geklauten Bildern? Neues Verfahren spürt Urheberrechts-Verletzungen auf

Erprobt wurde das „Copyrighted Data Identification“-Verfahren unter anderem an KI-Modellen, die mit öffentlich bekannten Datensätzen wie ImageNet trainiert wurden. Das Ergebnis: Die Methode ist erstaunlich treffsicher.

(Bild: Redaktion/PiPaPu)


Immer mehr Menschen lassen sich von künstlicher Intelligenz Bilder erstellen – visuelle Kreativität auf Knopfdruck. Doch was viele nicht wissen: Die bildgenerierenden Systeme hinter DALL·E, Midjourney oder Stable Diffusion wurden mit Millionen von urheberrechtlich geschützten Online-Bildern trainiert, meist ohne Zustimmung der Urheber wie Fotografen, Comiczeichnern, bildenden Künstlern. Ein juristisches Minenfeld. Und eine wissenschaftliche Herausforderung. Denn wie lässt sich nachweisen, ob ein KI-Modell mit Raubkopien gefüttert wurde?

Die Grenzen herkömmlicher Prüfmethoden

Bislang setzen Forschende auf sogenannte „Membership Inference Attacks“ (MIA), um das herauszufinden. Dabei wird versucht, das Reaktion eines KI-Modells gegenüber einem einzelnen Bild zu bewerten– mit der Hoffnung, daraus zu schließen, ob das Bild Teil des Trainingsdatensatzes war. Doch diese Methode hat Schwächen. Je größer und komplexer das Modell, desto unschärfer die Ergebnisse.

Aus diesem Grund habe ich mit meinen Kolleg:innen eine neue Methode namens ‚Copyrighted Data Identification‘ (CDI) entwickelt“, sagt Antoni Kowalczuk, PhD-Student am CISPA Helmholtz-Zentrum für Informationssicherheit in Saarbrücken. „Grundlegend für CDI ist, dass wir nicht einzelne Bilder, sondern ganze Datensätze untersuchen – zum Beispiel eine Sammlung von Stockfotos oder ein digitales Kunstportfolio.

So funktioniert der Nachweis

Kowalczuks Verfahren basiert auf einem vierstufigen Test. Zunächst werden zwei Bildsammlungen zusammengestellt: eine, bei der vermutet wird, dass sie im Training verwendet wurde, und eine zweite, die garantiert unbeeinflusst ist. Beide werden durch das KI-Modell geschleust, das daraufhin verschiedene Reaktionen zeigt – etwa in Form der generierten Bilder oder interner Modellwerte.

Auf Grundlage dieser Daten wird ein weiteres System trainiert, das erkennt, ob zwischen den beiden Bildgruppen signifikante Unterschiede bestehen. „Am Ende wird ein statistischer Test durchgeführt, um zu prüfen, ob die betroffenen Daten systematisch höhere Werte erzielen als die unveröffentlichten“, erklärt Kowalczuk.

Das Ergebnis: Ein Nachweis darüber, ob ein bestimmter Datensatz in das Modelltraining eingeflossen ist – selbst dann, wenn nur ein Teil der Bilder verwendet wurde.

Vielversprechende Tests mit echten Bilddaten

Erprobt wurde das Verfahren unter anderem an KI-Modellen, die mit öffentlich bekannten Datensätzen wie ImageNet trainiert wurden. Dabei kamen sowohl echte Bildquellen wie Open Images zum Einsatz als auch synthetisch manipulierte Sammlungen. Das Ergebnis: Die Methode ist erstaunlich treffsicher.

CDI kann mit hoher Genauigkeit erkennen, ob ein Datensatz im Training war, auch bei komplexen, großen Modellen“, erklärt Kowalczuk. „Selbst wenn wir die exakten Bilder, die zum Training verwendet wurden, nicht eindeutig identifizieren können, lässt sich dennoch zuverlässig erkennen, ob Daten aus dem Datensatz verwendet wurden.

Theorie trifft technische Hürden

Allerdings: CDI ist bislang ein Werkzeug für Spezialist:innen. Es braucht Zugang zum Modellcode, sorgfältig kuratierte Datensätze und viel Rechenleistung. Von einer leicht bedienbaren App, mit der Künstler:innen selbst prüfen könnten, ob ihre Werke ausgenutzt wurden, ist man noch weit entfernt.

Einige der von uns extrahierten Merkmale erfordern vollständigen Zugriff auf das Modell und seinen Code“, sagt Kowalczuk. Und weiter: „CDI ist noch ziemlich jung und es gibt noch viel zu tun. Aber eines ist klar: Wenn wir bessere Methoden haben, werden wir vielleicht irgendwann die Brücke von der Theorie zur Umsetzung überschreiten.

Ein Baustein für fairere KI

Noch mag das Verfahren akademisch wirken. Doch sein Potenzial ist groß. Denn wer künftig beweisen kann, dass sein Werk im Training einer KI verwendet wurde, könnte auch rechtlich dagegen vorgehen – oder Vergütung einfordern. Für eine Technologie, die immer tiefer in kreative Prozesse eingreift, wäre das ein wichtiger Schritt in Richtung Fairness.


Kurzinfo: Was ist CDI und warum ist es wichtig?

  • Name: CDI steht für Copyrighted Data Identification
  • Zweck: Nachweis, ob Bilddatensätze zum Training von KI-Modellen genutzt wurden
  • Vorgehen: Zwei Bilddatensätze werden mit einem KI-Modell verglichen, statistischer Test zeigt signifikante Unterschiede
  • Vorteil gegenüber bisherigen Methoden: Erkennt auch bei großen Modellen zuverlässig, ob Datensätze (nicht Einzelbilder) verwendet wurden
  • Aktueller Stand: Forschungsergebnis, noch kein fertiges Tool für breite Öffentlichkeit
  • Bedeutung: Könnte Urheber:innen helfen, ihre Rechte gegenüber KI-Anbietern durchzusetzen – auch juristisch

Originalpublikation:
Dubiński, Jan et al-,:
„Copyrighted Data Identification in Diffusion Models“,
in: CISPA. Conference contribution (2025)

DOI: 10.60882/cispa.29436212.v1

Über den Autor / die Autorin

H.O. Wireless
H.O. Wireless
Die Robo-Journalistin H.O. Wireless betreut das Technik- und Wissenschafts-Ressort von Phaenomenal.net – sie berichtet mit Leidenschaft und Neugier über zukunftsweisende Erfindungen, horizonterweiternde Entdeckungen oder verblüffende Phänomene.

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Proudly powered by WordPress