Können Chat-Bots beim Erkennen von Gesundheitsproblemen helfen? – Neue Studie zeigt: Nicht so einfach

Künstliche Intelligenz (KI) und vor allem große Sprachmodelle (Large Language Models, LLMs) wie ChatGPT werden von vielen Menschen inzwischen für gesundheitliche Fragen genutzt. Sie beantworten häufig auftretende Symptome, geben Erste-Hilfe-Tipps oder sollen helfen abzuschätzen, ob ein Arztbesuch notwendig ist. Doch wie gut funktioniert das wirklich im Alltag? Eine neue Studie in Nature Medicine liefert dazu überraschende Ergebnisse.

Was wurde untersucht?

In einer kontrollierten, randomisierten Studie wurden knapp 1 300 Erwachsene aus Großbritannien aufgefordert, anhand alltäglicher medizinischer Szenarien eine gesundheitliche Einschätzung vorzunehmen – etwa zu Kopfschmerzen, Erschöpfung oder möglichen Gallensteinen. Diese Probanden sollten entscheiden, welche Erkrankung zutreffen könnte und wie sie weiter vorgehen würden (z. B. zu Hause beobachten, zum Hausarzt, in die Notaufnahme). Die Teilnehmenden konnten entweder auf eines von drei KI-gestützten Chat-Tools (GPT-4o, Llama 3, Command R+) zurückgreifen oder selbst recherchieren (z. B. via Internet-Suche).

Starke Modelle – aber schwache Anwendung

Wenn man die KI-Modelle ohne menschlichen Nutzer testete, waren sie durchaus leistungsfähig: sie erkannten relevante medizinische Zustände in über 90 % der Fälle und trafen bei der empfohlenen Handlungsweise in etwa der Hälfte der Fälle richtige Entscheidungen. Das klingt zunächst vielversprechend. Doch die Leistung allein sagt nichts darüber aus, wie die Systeme in der Praxis funktionieren.

Genau darin liegt der Knackpunkt: in realen Anwendungssituationen mit Menschen schnitten die Modelle deutlich schlechter ab. Die Teilnehmenden identifizierten mit Hilfe der KI in weniger als 35 % der Fälle überhaupt die relevanten gesundheitlichen Zustände und fanden in weniger als 45 % den richtigen Handlungsweg – und zwar nicht besser als jene, die herkömmliche Suchmethoden nutzten.

Warum ist das so?

Die Forscher*innen erklären diesen großen Unterschied zwischen der „theoretischen“ KI-Leistung und der tatsächlichen Anwendung mit Nutzern vor allem durch Schwierigkeiten in der Kommunikation zwischen Mensch und KI:

Nutzer geben oft unzureichende oder unvollständige Informationen über ihre Symptome ein.
KI-Modelle können darauf nicht immer sinnvoll reagieren oder verstehen nicht, was wirklich gemeint ist.
Selbst wenn die KI korrekte Vorschläge liefert, werden diese von den Nutzer*innen häufig nicht umgesetzt oder missinterpretiert.

Kurz gesagt: Eine KI mag medizinisches Wissen haben – aber sie schafft es derzeit nicht zuverlässig, dieses Wissen in einer echten Mensch-Maschine-Interaktion präzise und verständlich zu vermitteln.

Was bedeutet das für die Nutzung von KI im Gesundheitsbereich?

Die Ergebnisse legen nahe, dass der Einsatz von KI-Chatbots für medizinische Erstinformationen noch nicht so reif ist, wie manche es sich wünschen. Obwohl viele Erwachsene bereits regelmäßig KI-Tools für Gesundheitsfragen nutzen, kann dies zu Fehleinschätzungen führen, wenn die Tools nicht richtig eingesetzt oder verstanden werden.

Die Studienautor*innen fordern daher, dass künftige Entwicklungen im medizinischen KI-Bereich stärker auf interaktive Tests mit realen Nutzerinnen und Nutzern ausgerichtet werden müssen, bevor solche Systeme breit im Gesundheitswesen eingesetzt werden.

Fazit für Patientinnen und Patienten

KI-Chatbots sollten aktuell nicht als Ersatz für medizinische Beratung durch Fachleute gesehen werden.
Sie können eine Orientierung bieten, ersetzen aber nicht das klinische Urteil von Ärztinnen und Ärzten oder den direkten Kontakt zu Gesundheitsdiensten. Besonders bei ernsthaften oder anhaltenden Beschwerden ist eine professionelle medizinische Abklärung weiterhin unverzichtbar.