
AOK-Forschungsprojekt: Mit Hilfe von Künstlicher Intelligenz sollen Gesundheitsdaten von Krankenversicherten eines Tages so umfassend analysiert werden, dass schon lange vor gravierenden Gesundheitsproblemen angezeigt wird, dass Patienten dringend Präventionsmaßnahmen und Therapien in Anspruch nehmen sollten, bevor es zu schweren Schäden kommt. Foto: witsarut/stock.adobe.com
AOK-Projekt: Mit künstlicher Intelligenz aus Kassendaten früh Gesundheitsrisiken erkennen
Wie lassen sich Gesundheitsrisiken vorhersagen, bevor eine Erkrankung schwer verläuft oder ein Krankenhausaufenthalt nötig wird? Im gemeinsamen Forschungsprojekt ClaimsBERT analysieren Fraunhofer SCAI und Wissenschaftliches Institut der AOK (WIdO) dazu mithilfe Künstlicher Intelligenz Abrechnungsdaten der Versicherten. „Ziel ist es vor allem, Prävention und Versorgung gezielter und individueller zu gestalten“, sagt Christian Günster, Leiter des Forschungsbereichs Qualitäts- und Versorgungsforschung beim WIdO.
Im Interview auf Vital-Region.de erklärt Günster, Funktion, Aufgaben und Ziele des Forschungsprojekts.
Im Projekt ClaimsBERT wird die Methode des „Deep Learnings“ eingesetzt. Wie funktioniert das genau?
Christian Günster: Beim Deep Learning lernt ein Modell die Muster und Zusammenhänge der Daten, auf denen es trainiert wurde. Ähnlich wie Sprachmodelle Zusammenhänge zwischen Wörtern erkennen, identifiziert ClaimsBERT typische Abfolgen medizinischer Ereignisse in den Abrechnungsdaten und berechnet Wahrscheinlichkeiten für das Auftreten zukünftiger Ereignisse. Das sind in unserem Projekt Erkrankungen oder Behandlungen. Die statistischen Risikoeinschätzungen ermöglichen eine frühzeitige Intervention. Voraussetzung für das Deep Learning sind sehr große Mengen an qualitativ hochwertigen Versorgungsdaten, die wir dann mit modernen Transformer-Architekturen bearbeiten.
Wie werden Erkenntnisse aus den Auswertungen genutzt? Wie profitieren künftig AOK-Versicherte davon?
Günster: Ziel ist es vor allem, Prävention und Versorgung gezielter und individueller zu gestalten. Wenn Risiken frühzeitig erkannt werden, können Versicherte beispielsweise durch passende Präventionsangebote, Beratungen oder Programme unterstützt werden. Dies wird durch das Gesundheitsdatennutzungsgesetz und die Regelung gemäß Paragraph 25b SGB V möglich. Kranken- und Pflegekassen dürfen Versichertendaten nutzen, um das versichertenindividuelle Risiko einer konkreten Gesundheitsgefährdung, eines drohenden Erkrankungsrisikos oder Pflegebedürftigkeit, oder auch für das Vorliegen einer Impfindikation zu ermitteln. Im Projekt ClaimsBERT leisten wir die wissenschaftliche Vorarbeit, um eine solche Risikoprädiktion über verschiedene medizinische Fragestellungen hinweg zu vereinfachen oder überhaupt erst zu ermöglichen.

Persönliche Daten für individuelle Vorhersagen – wie wird der Datenschutz bei den Auswertungen gewährleistet?
Günster: Der Schutz der Daten hat im Projekt höchste Priorität. Die Analysen erfolgen ausschließlich auf streng geschützten und anonymisierten Daten. Direkte Rückschlüsse auf einzelne Personen sind ausgeschlossen. Da wir im Projekt ClaimsBERT zunächst nur theoretisch arbeiten, sind anonymisierte Daten ausreichend. Dennoch unterliegt das Projekt den strengen gesetzlichen Vorgaben des Datenschutzes mit zahlreichen technischen und organisatorischen Sicherheitsmaßnahmen. Der Zugriff auf Daten ist klar geregelt und stark eingeschränkt. Wenn die Modelle nach Projektabschluss genutzt werden, um Versicherte gezielt zu informieren, dann gelten die Informationspflichten des Paragraphen 25b SGB V.
Wann liegen erste Ergebnisse des Projektes vor? Wann kommen die KI-Methoden im Echtbetrieb zum Einsatz?
Günster: Aktuell sind wir noch mit den Vorarbeiten beschäftigt, das heißt wir erarbeiten das Datenschutzkonzept und den statistischen Analyseplan. Außerdem testen wir, welches Modell das passendste für unsere Zwecke ist. Im Anschluss beginnt dann das Pre-Training des Basismodells. Die Feinjustierung zur Vorhersage von bestimmten Risiken folgt Ende 2027. Die finalen Ergebnisse werden Ende 2028 vorliegen. Anders als bei klassischen Methoden steht dann nicht nur ein Vorhersagemodell für eine einzelne Erkrankung zur Verfügung, sondern ein Grundmodell, das für eine Vielzahl von Gesundheitsrisiken adaptiert werden kann.
Große Bandbreite an Gesundheitsproblemen frühzeitig erkennen
Wie lassen sich Gesundheitsrisiken vorhersagen, bevor eine Erkrankung schwer verläuft oder ein Krankenhausaufenthalt nötig wird? Mit dieser Frage beschäftigt sich das Forschungsprojekt ClaimsBERT. Ziel ist es, ein Foundation Model für Routinedaten im Gesundheitswesen zu entwickeln – also ein breit einsetzbares KI-Basismodell, das große Datenmengen auswertet und sich für viele medizinische Vorhersagen nutzen lässt. Dafür werden Abrechnungsdaten der gesetzlichen Kranken- und Pflegeversicherung mit Methoden der Künstlichen Intelligenz ausgewertet. Das Projekt ClaimsBERT läuft von März 2026 bis Februar 2029 und wird durch den Innovationsfonds beim Gemeinsamen Bundesausschuss (G-BA) mit rund 1,3 Millionen Euro gefördert.
Im Mittelpunkt stehen sogenannte GKV-Claims-Daten der AOK. Gemeint sind damit Abrechnungs- und Versorgungsdaten der gesetzlichen Kranken- und Pflegeversicherung, die im Alltag des Gesundheitssystems ohnehin anfallen. Dazu gehören unter anderem Angaben zu Diagnosen, Behandlungen, Arzneimittelverordnungen und Krankenhausaufenthalten. Aus diesen zeitlich geordneten Informationen soll das Modell Muster erkennen, die auf spätere gesundheitliche Entwicklungen hindeuten.
„Unser Ziel ist es, aus Routinedaten der Versorgung ein belastbares Foundation Model zu entwickeln, das frühe Warnsignale für unterschiedliche Krankheitsverläufe sichtbar macht und so dazu beitragen kann, Risiken früher zu erkennen und Versorgung gezielter zu steuern“, sagt Prof. Dr. Holger Fröhlich, Abteilungsleiter Biomedical AI & Data Science am Fraunhofer-Institut für Algorithmen und Wissenschaftliches Rechnen SCAI und Professor am Institut für Digitale Medizin der Universität Bonn.
Die Einsatzmöglichkeiten sind breit angelegt. So soll ClaimsBERT unter anderem das erstmalige Auftreten von Pflegebedürftigkeit prognostizieren, stationäre Aufnahmen wegen unerwünschter Arzneimittelereignisse erkennen und Hinweise auf Erkrankungen wie Brustkrebs, rheumatische Erkrankungen oder das Syndrom der unruhigen Beine liefern. Auch Krankenhauseinweisungen infolge von Unterzuckerung oder Herzschwäche gehören zu den Anwendungsfällen.
Nach dem Training des Modells sollen die Ergebnisse auf medizinische Plausibilität überprüft und anschließend weiter verbessert werden. Langfristig hoffen die Forscher, damit eine technische Grundlage zu schaffen, die sich mit vergleichsweise geringem Aufwand auch auf weitere Erkrankungen und Gesundheitszustände übertragen lässt. pm/tok