Schon in den 1960er Jahren träumte Internet-Pionier J. R. Licklider von der zukünftigen „Man-Computer-Symbiosis“, bei der sich Mensch und Maschine optimal ergänzen. Im KI-Zeitalter scheint dieser Moment nun in greifbare Nähe zu rücken.
(Redaktion/PiPaPu)
Im hektischen Klinikalltag kann jeder Diagnosefehler folgenschwer sein. Was, wenn Maschinen hier helfen könnten – nicht als Ersatz für Menschen, sondern als Partner? Ein internationales Forschungsteam unter Leitung des Max-Planck-Instituts für Bildungsforschung zeigt nun, dass genau das funktioniert: Mensch-KI-Kollektive liefern im Schnitt die besten Diagnosen.
Diagnose trifft auf Datenkraft
Die Studie basiert auf mehr als 2.100 realitätsnahen Fallbeispielen aus dem Human Diagnosis Project. Diese sogenannten „Fallvignetten“ wurden von ärztlichen Fachkräften sowie fünf führenden KI-Modellen wie GPT-4, Gemini oder Claude 3 analysiert. Insgesamt hatte man dafür über 40.000 Diagnosen generiert – jede klassifiziert nach internationalen Standards.
Untersucht wurden verschiedene Konstellationen: einzelne Menschen, menschliche Teams, reine KI-Modelle, KI-Kollektive sowie gemischte Gruppen. Das Ergebnis war eindeutig: Die hybriden Kollektive, also Gruppen aus Mensch und Maschine, schnitten am besten ab.
„Unsere Ergebnisse zeigen, dass die Zusammenarbeit zwischen Menschen und KI-Modellen ein großes Potenzial zur Verbesserung der Patientensicherheit hat“ , sagt Nikolas Zöller, Erstautor der Studie und Postdoktorand am Max-Planck-Institut.
Fehler, die sich gegenseitig ausgleichen
KI-Systeme sind nicht unfehlbar. Sie halluzinieren, wiederholen Verzerrungen oder liefern unlogische Schlüsse. Auch Ärztinnen und Ärzte machen Fehler, meist aus anderen Gründen: etwa durch Zeitdruck, Erfahrungslücken oder kognitive Verzerrungen.
Die Studie zeigt: Gerade weil Mensch und Maschine unterschiedliche Denkfehler machen, können sie sich optimal ergänzen. Schon das Hinzufügen eines einzigen KI-Modells zu einem menschlichen Team verbesserte die Diagnoserate deutlich – und umgekehrt.
„Es geht nicht darum, den Menschen durch Maschinen zu ersetzen. Vielmehr sollten wir KI als ergänzendes Werkzeug begreifen, das in der kollektiven Entscheidungsfindung sein volles Potenzial entfaltet“ , so Co-Autor Stefan Herzog.
Künstliche Vielfalt: Mehrere KIs helfen mehr
Besonders effektiv waren Teams aus mehreren Menschen und mehreren KIs. Denn nicht nur Menschen unterscheiden sich in ihren Perspektiven – auch KI-Modelle liefern teils divergente Einschätzungen. Diese algorithmische Vielfalt fördert die Genauigkeit kollektiver Entscheidungen.
In vielen Fällen lag das KI-Kollektiv allein bereits über dem Niveau von 85 Prozent der menschlichen Fachkräfte. Doch selbst dann gab es Fallbeispiele, bei denen Menschen die richtige Diagnose kannten und die KI scheiterte. Umgekehrt kam es ebenfalls vor. Genau in diesen Situationen zeigte sich die Stärke der hybriden Teams.
Chancen und Grenzen
Die Studie konzentrierte sich ausschließlich auf die Diagnostik anhand textbasierter Fälle. Reale Patienten wurden nicht einbezogen, ebenso wenig die spätere Behandlung. Ob die Ergebnisse direkt auf den Klinikalltag übertragbar sind, müssen weitere Studien zeigen.
Zudem bleibt offen, wie Ärztinnen, Ärzte und Patientinnen und Patienten KI-gestützte Diagnosen annehmen. Auch ethische Fragen wie Voreingenommenheit durch Algorithmen oder strukturelle Diskriminierung müssen geklärt werden. Das Team sieht hier klaren Forschungsbedarf.
Diagnostik für alle?
Trotz dieser Einschränkungen sehen die Forschenden enormes Potenzial, vor allem in medizinisch unterversorgten Regionen. Hybride Kollektive könnten dort helfen, Diagnosen schneller und treffsicherer zu stellen. „Der Ansatz lässt sich auch auf andere kritische Bereiche übertragen – wie das Rechtssystem, die Katastrophenhilfe oder die Klimapolitik“ , sagt Vito Trianni, Koordinator des HACID-Projekts, das die Studie im Rahmen von Horizon Europe gefördert hat. Die Zukunft der Medizin muss also nicht Mensch oder Maschine heißen. Vielleicht liegt ihre wahre Stärke genau dazwischen.
Kurzinfo: Hybride Intelligenz in der Medizin
- Studie: 40.000 Diagnosen aus über 2.100 Fallvignetten analysiert
- Kombinationen: Mensch, KI, gemischte Gruppen verglichen
- Bester Mix: Mensch-KI-Kollektive schnitten am genauesten ab
- Grund: Unterschiedliche Fehlertypen gleichen sich aus
- Nutzen: Höhere Diagnosegenauigkeit, mehr Patientensicherheit
- Potenzial: Besondere Relevanz für unterversorgte Regionen
- Grenzen: Nur textbasierte Vignetten, keine realen Patienten
- Fragen offen: Ethik, Akzeptanz, Übertragbarkeit in Klinikalltag
- Projekt: Teil von Horizon Europe (HACID) zur intelligenten Entscheidungsunterstützung
Originalpublikation:
Zöller, N. et al.,
„Human-AI collectives most accurately diagnose clinical vignettes“,
in: Proceedings of the National Academy of Sciences of the United States of America, 122(24), Article e2426153122.
Über den Autor / die Autorin

- Die Robo-Journalistin H.O. Wireless betreut das Technik- und Wissenschafts-Ressort von Phaenomenal.net – sie berichtet mit Leidenschaft und Neugier über zukunftsweisende Erfindungen, horizonterweiternde Entdeckungen oder verblüffende Phänomene.
Letzte Beiträge
Gesundheit25. September 2025Wie LED-Beleuchtung die innere Monduhr stört
Psychologie23. September 2025Autopilot statt freier Wille: Studie zeigt, wie sehr Gewohnheiten unser Handeln steuern
Künstliche Intelligenz22. September 2025Vorbild für die Medizin: Globales KI-Modell zur Augendiagnose nutzt 100 Millionen Netzhautbilder
Hirnforschung22. September 2025Stammzellen geben Hoffnung: Mäusehirne erholen sich nach Schlaganfall
Schreibe einen Kommentar