DIGITALISIERUNG: MIT EINEM KONSENTIERTEN DATENFORMAT GEGEN DEN KREBS

Als die alten Babylonier den Turm zu Babel bauen wollten, scheiterten sie bekanntlich an einem Sprachenwirrwarr. Eine ähnliche Situation haben wir in der Medizin. Dort ist es ein Wirrwarr an Datenformaten, das wichtigen Fortschritten im Weg steht. Deshalb entwickelt der Vision Zero e.V. zusammen mit Impulsgebern und Unterstützern aus Forschung, Klinik und IT ein skalierbares Datenformat für die Onkologie, das die Datenerhebung vereinheitlichen und einen Austausch üer unterschiedlichste Datenpools hinweg ermöglichen soll. Ein erster Entwurf liegt nun vor.

 

Ein Beitrag von Dipl.-Ing. Sebastian Gugel, Dr. Liudmila Lysyakova, Dr. Stefanie Rudolph und B.A. Maria Uebe, BIH Charité Berlin

Eine Vision Zero in der Onkologie muss durch einen Digitalisierungs-Masterplan die sichere Datennutzung und dadurch die Versorgung der Patient:innen deutlich verbessern. Ein erster Schritt in diese Richtung wurde bereits auf dem E-Health Summit eingeschlagen, an dem zahlreiche Unterstützer:innen aus der Patientenversorgung, akademische Institute und Unternehmen aus der forschenden Industrie beteiligt waren. Eine „Berliner Erklärung“ veröffentlichte die konsentierten erforderlichen Eckpunkte, die es im nächsten Schritt zu konkretisieren gilt. Das größte Hindernis auf diesem Weg ist nicht eine fehlende Bereitschaft zur Zusammenarbeit, sondern die sehr unterschiedlichen Sprachen und Definitionen für Felder und Begriffe. Als Konsequenz hat Vision Zero begonnen, einen Vorschlag einer Datenstruktur zu entwickeln, der unterschiedlichen Anwendungen erlauben wird, ihre Unterschiedlichkeit auf der Basis einer gemeinsamen Sprache zu entwickeln. Ein zusammengeführter, einheitlicher onkologischen Konsensusdatensatz ist die Grundlage für eine optimale, medizinische Behandlung aller Krebspatienten.

 

Brauchen wir noch einen Datensatz?
Wir verfolgen nicht das Ziel, einen neuen Datensatz zu entwickeln, sondern wollen gezielt bisherige Vorarbeiten bereits bestehender und auch oftmals umfangreich abgestimmter Datensätze nutzen, um daraus einen gemeinsamen Standard sowohl für die akademische als auch für die industrielle Forschung zu erstellen. Ziel ist dabei, den Datenitems, also den in den Datensätzen enthaltenen Inhalten, eine „gemeinsame Sprache“ zu geben. Die Datenstruktur und -inhalte sollen so standardisiert werden, dass die Datenitems interoperabel anwendbar sind. Die Harmonisierung und Verknüpfung der „zersplitterten“ Datensätze aus verschiedenen Schwerpunktbereichen soll es ermöglichen, möglichst viele Datenitems für den klinischen Alltag wie auch die Forschung zu integrieren. Dabei darf aber die Handhabbarkeit für die Anwender:innen – ob Mediziner:in oder Patient:in – nicht außer Acht gelassen werden. Zudem ist die Nutzbarkeit des Datensatzes innerhalb der Forschung zu beachten. Er sollte möglichst umfangreich, aber individuell für die Nutzer:in kompatibel und anpassbar sein.

Hier ist bewusst keine Definition gemeint, ob und welche Daten verpflichtend erhoben werden müssen, sondern welche Definition zu jedem Datenitem gehört, über alle unterschiedlichen Banken hinweg.

 

Unsere Vorüberlegungen – wie beginnen?
In Vorüberlegungen über die Herangehensweise zur Erstellung eines Konsensus kristallisierten sich rasch die folgenden Ziele heraus:


1. Der Datensatz muss den Krankheitsverlauf der Patient:innen longitudinal erfassen können.
Longitudinalität ermöglicht es bei einer Krebserkrankung, den komplexen Krankheitsverlauf entsprechend zeit- und eventgebunden abzubilden, was bisher nicht in allen vorhandenen Datensätzen betrachtet wurde. Die einzelnen Datenpunkte sind multidimensional mit einer Metadatenverknüpfung nach Zeit, Ort und Stadium versehen.
2. Die Multiplizität, also das Abbilden von wiederkehrenden Ereignissen innerhalb eines Zeitpunktes, muss möglich sein.
Hierbei ist der Gedanke zugrunde gelegt, dass Krebserkrankungen nicht linear verlaufen und auch zu einem späteren Zeitpunkt wiederkehren können – dabei in gleicher, ähnlicher oder komplett neuer Form.
3. Eine Versionierung des Datensatzes oder der integrierten Kataloge wie SNOMED, ICD-10 Codesysteme etc. dürfen den vorhandenen Datensatz nicht einschränken oder bereits zuvor Erfasstes unbrauchbar machen.

4. Der Datensatz soll organisch sein, somit über die Zeit wachsen können, ohne dabei vorherig eingebundene Datenitems zu eliminieren oder zu verändern. Außerdem soll die stetige Aktualisierung gewährleisten, dass der Datensatz jederzeit auf dem neuesten Stand der Wissenschaft ist. Der Datensatz soll auf bereits vorhandenen interoperablen Standards wie FHIR-Profilen aus anderen Daten(an)sätzen aufbauen. Durch bereits geleistete Vorarbeiten durch verschiedene Akteure kann man bereits auf bestehendem Wissen aufbauen, dieses entsprechend verwenden und um weitere Informationen erweitern und verfeinern. Die FHIR-Profilierung nimmt national wie auch international einen hohen Stellenwert ein und ist daher eine Bedingung für den Datensatz.

5. Der inhaltliche Aufbau des Datensatzes soll insbesondere auch oftmals fehlende molekulare Abfragen einbeziehen, welche eine außerordentliche Vielzahl umfassen. Hierbei ist zu bedenken, dass zum Beispiel molekulare Parameter einer ständigen Veränderung und Anpassung unterliegen und in unserem Datenmodell entsprechend als variabel und anpassungsfähig adressiert und festgehalten werden müssen.
Nur mit einer agilen Weiterentwicklung der Items ohne zeitaufwendige Datenbank-Updates kann der Datensatz auch den tatsächlichen Ansprüchen der Forschung gerecht werden.

 

Erstellung des Maximaldatensatzes

 

Als Ausgangspunkt für dieses Projekt wurden verschiedene Schwerpunkt-Datensätze ausgewählt und zu einem sogenannten Maximaldatensatz zusammengefügt. Die bisher eingeflossenen
Datensätze umfassen neben den vier deutschen Datensätzen auch Datensätze aus den USA, dem United Kingdom und dem Europäischen Raum. Die Liste der betrachteten Datensätze
ist nicht als endgültig zu sehen. Im weiteren Verlauf sollen zusätzliche Datensätze hinzugefügt werden. Im Maximaldatensatz wurden neun vorläufige Domänen identifiziert, die inhaltlich ähnliche Aspekte einer Patient Journey widerspiegeln. Beispielhaft zu nennen ist die Domäne mit allen Angaben zum Patienten, die Fragen zu Demographie sowie Komorbiditäten enthält. Die Krebsdiagnose inklusive aller Eigenschaften des Tumors sind unter der Domäne „Tumor“ zusammengefasst. Die Domäne „Therapie“ enthält alle Therapiearten von der OP bis hin zu Stammzellen. Das Therapieansprechen und der Krankheitsverlauf gehören zu der Domäne „Beurteilung“. Unter „Diagnostik“ sind bildgebende Verfahren und Labordiagnostik zusammengeführt, die genomische Analytik separat als „Genetik“. Wichtige Fragen zu klinischen Studien und Tumorkonferenzen (TK, auch molekular) sowie zu psychosozialen Aspekten sind in zwei kleinen Domänen „Studien & TK“ und „Pflege“ erfasst.
Die Abbildung 1 zeigt die inhaltliche Verteilung von originalen Datenitems in Quelldatensätzen und im erstellten Maximaldatensatz. Dargestellt ist die relative Domänengröße in Prozent und die absolute Anzahl von originalen Items in jeweilig farbkodierten Domänen (Abb. 1). Die Größe einzelner Datensätze ist oberhalb als Gesamtanzahl von Datenitems dargestellt. Die Grafik zeigt viele Ähnlichkeiten, aber auch teilweise
grundverschiedene Ausrichtungen der einbezogenen Datensätze, die für einen ausgeglichenen Maximaldatensatz sorgen. So ist der einheitliche onkologische Datensatz der Deutschen Krebsregister ADT-GEKID auf Diagnose und Therapie fokussiert.

Die Basismodule des Kerndatensatzes der MedizininformatikInitiative (MII KDS) decken die Basisabfragen der Versorgung und Labordiagnostik gut ab. Der Datensatz des Nationalen Netzwerk Genomische Medizin Lungenkrebs (nNGM) legt seinen Schwerpunkt auf molekulargenetische Diagnostik von Lungenkrebspatienten.

Inhaltliche Verteilung von originalen Datenitems in Quelldatensätzen und im erstellten Maximaldatensatz (relative Domänengröße)

Der integrale Roche Datensatz, zusammengesetzt aus den Datensätzen des Zentrums für  Personalisierte Medizin, der Europäischen Arzneimittel-Agentur (EMA) und dem ADT-GEKID, erfasst eine Patient Journey relativ ausgeglichen. Der ICGC ARGO (International Cancer Genome Consortium, Projekt „Accelerating Research in Genomic Oncology“) wurde strukturell anders aufgebaut und zeichnet sich insbesondere durch den Einschluss von ganzheitlichen Fragestellungen wie Lebensweise der Patient:in aus. Die amerikanischen Datensätze CCDECGR (Core Clinical Data Elements for Cancer Genomic Repositories, Multi-Stakeholder Consensus) und mCODE (Minimal Common Oncology Data Elements) sind kompakt ausgelegt und nur als Vorschläge veröffentlicht.

1,2 Hingegen sind der ADT-GEKID in Deutschland sowie der COSD (Cancer Outcome and Services Data set) in England gesetzlich verankert. Beide sind mit entsprechend 11 und 13 entitätspezifischen Ergänzungsmodulen neben dem Kern relativ umfangreich. Die Datensätze MII KDS und mCODE sind bereits mit FHIR-Profilen ausgestattet, während andere noch auf dem Weg dahin sind. Beim Betrachten der inhaltlichen Schwerpunkte der Datensätze zeichnete sich schnell ab, dass Patient Reported Outcome Measures (PROM) sowie Nebenwirkungen von Therapien sehr limitiert einbezogen wurden. Da wir eine ganzheitliche Lösung schaffen wollen, die den gesamten onkologischen Krankheitsverlauf einschließt, wird die Einbindung dieser Faktoren ein weiterer wesentlicher Bestandteil unserer Arbeit sein.

 

Häufigkeit vorkuratierter Parameter in zusammengeführten Datensätzen

Vorkuratierte Datenparameter
Bei der Zusammenführung der Datensätze fiel schnell auf, dass selbst bei einfachsten Inhalten keine sprachliche Einheitlichkeit vorliegt. Um eine Vergleichbarkeit zwischen den Datensätzen erreichen zu können, wurden die 2055 originalen Datenitems im Maximaldatensatz zu aktuell ca. 300 vorkuratierten Datenparametern manuell zugeordnet, um inhaltlich gleiche Aspekte zusammenzufassen. Diese Zusammenfassung
ermöglicht es, einen Überblick zu bekommen, wie viele Inhalte in wie vielen Datensätzen vorkommen, die zwar anders bezeichnet werden, aber das Gleiche abbilden. Im aktuellen Stand kommt fast die Hälfte der vorkuratierten Parameter in mindestens drei von acht zusammengeführten Datensätzen vor (Abbildung 2). Nur in einem oder zwei Datensätzen werden z.B. Nachweise bestimmter Mutationen oder Tumormarker
abgefragt. Jedoch wird in fast allen Datensätzen gefragt, ob eine genetische Alteration vorliegt.

 

Ausblick – Was haben wir vor?
Die vorkuratierten Datenparameter sind zunächst nur Vorschläge für eine Konsensuskonferenz, welche vom Vision Zero-Team als weiterer Schritt vorgeschlagen wird. Das Redaktionsteam wird Experten aus den Bereichen Medizin, Forschung, Industrie, Interoperabilität und Epidemiologie einschließen. Somit werden alle Anwendungsbereiche von vornherein repräsentiert. Gemeinsam wird über Formulierung
und Format einzelner Datenparameter sowie deren Antwortmöglichkeiten abgestimmt. Ein Steuerungsgremium aus Entscheidern der beteiligten Institutionen, Unternehmen und Organen überwacht und bewertet die Ergebnisse des Redaktionsteams. Ein Datensatz benötigt neben der inhaltlich abgestimmten Parameterliste auch ein kluges Datenmodell, um die bereits zuvor benannten Eckpunkte der Longitudinalität, Multiplizität, Versionierung und Interoperabilität zu erfüllen. Die Vorstellung auf der Herbsttagung des Vision Zero e.V. hat bestätigt, dass es momentan keinen Datensatz gibt, der die onkologische Wirklichkeit darstellt. Wichtig ist nun, in eine gemeinsame Richtung aufzubrechen – mit den Initiativen, die bereits intensiv an Lösungen zur Digitalisierung arbeiten. Keine „Closed Shop“- Prinzipien mehr oder Datenhorden in
den eigenen Reihen, sondern gemeinsam miteinander handeln, um der Politik eine Lösung zu präsentieren, die das deutsche Gesundheitssystem einen guten Schritt voranbringen wird. Der momentane Aufschwung und Push, die Digitalisierung im Gesundheitswesen voranzutreiben, motiviert uns, dieses Projekt möglichst zügig mit entsprechendem Back-up und Unterstützung aus den Fachbereichen auf den Weg zu bringen. Das Mandat dafür wurde von den Unterzeichner:innen der Berliner Erklärung bereits gegeben.

 

 


1 CELL Volume 171, Issue 5, 16 November 2017
2 JCO Clinical Cancer Informatics no. 4, 2 November 2020

 

PARTNER