Diese Studie zeigt, warum KI Ärzte nicht ersetzt

Es gibt ja Menschen, die davon ausgehen, dass KI alle Ärzte ersetzen wird. So schneiden die öffentlich zugänglichen Modelle bei einem Teil des amerikanischen Staatsexamens heute schon mit bis zu 93 % ab (https://doi.org/10.1038/s41598-025-31010-4).

Ich gehöre allerdings nicht dazu.

Es gibt viele Gründe, aber einer hat damit zu tun, wie wir Ärzte arbeiten und eine Studie hat mir gerade zumindest etwas recht gegeben.

Solange die KI-Modelle unter perfekten Gegebenheiten arbeiten, werden sie zu 100 % bessere Ergebnisse erzielen. Für eine Auflistung von klar abgegrenzten Fakten eine Diagnose zu finden ist nicht so schwer.

Die Kunst liegt aber häufig in der Interpretation.

Ist das, was der Patient Schwindel nennt, wirklich ein Schwindel? Wann ist die Schwäche oder Abgeschlagenheit pathologisch und wie ordne ich diese ein?Bewertungsalgorithmen sind ziemlich binär. Aber Menschen sind das nicht. Soll ich bei diesem 92-Jährigen mit terminaler Demenz und Aspirationspneumonie noch intubieren?

In einer Nature-Studie (https://doi.org/10.1038/s41591-025-04074-y) wurden ~1200 Probanden angewiesen, Szenarien mit einem LLM zu bearbeiten (sie in der Rolle des Patienten). Dies wurde verglichen mit der Performance des LLM alleine.Dabei war die Interaktion erheblich schlechter:

❝

Arbeiteten die LLMs allein, schlossen sie die Szenarien korrekt ab und identifizierten in 94,9 Prozent der Fälle die Erkrankungen und in durchschnittlich 56,3 Prozent die Vorgehensweise richtig. Wurden die LLMs jedoch von den Probanden genutzt, identifizierten sie in weniger als 34,5 Prozent der Fälle relevante Erkrankungen und in weniger als 44,2 Prozent die richtige Vorgehensweise.

https://www.aerzteblatt.de/news/menschliche-interaktion-verschlechtert-leistung-von-chatbots-bei-gesundheitsfragen-17f3b601-327d-4605-8658-299f6987394b

Es ist eben kompliziert, wenn Menschen im Spiel sind und man nicht nur mit Fakten arbeitet.

❝

Um die Ergebnisse zu erklären, untersuchten die Studienautoren die Transkripte der Interaktionen der Probanden mit den LLMs. Dabei beobachteten sie Fälle, in denen sowohl Probanden unvollständige Informationen lieferten als auch LLMs Benutzeranfragen falsch interpretierten. Auch seien die Probanden den Empfehlungen nicht immer konsequent gefolgt.

Ärzteblatt

Dein Job bleibt also sicher. Trotzdem sind LLM ein gutes Werkzeug für jeden, der die Limitationen versteht.

LLM machen gute Ärzte besser und schlechte schlechter.

Beste Grüße,

Daniel

PS: Wenn du neu bist, kannst du alte Newsletter Episoden hier nachlesen: https://wie-du-kein-schlechter-arzt-wirst.beehiiv.com/ .

Wenn dir solche Beobachtungen gefallen, wird dir ein ganzes Buch davon zusagen: https://amzn.to/3KYOUMr (in KDP sogar umsonst)

Diese Studie zeigt, warum KI Ärzte nicht ersetzt

Keep Reading

Wie du kein schlechter Arzt wirst