Paul-Ehrlich-Institut

Hinweis zur Verwendung von Cookies

Zur Bereitstellung und Optimierung unseres Webauftritts möchten wir gerne statistische Informationen vollständig anonymisiert erfassen und analysieren. Dürfen wir hierzu vorübergehend einen Statistik-Cookie setzen?

Sie können Ihre Einwilligung jederzeit in unserer Datenschutzerklärung widerrufen.

OK

Eine Machbarkeitsstudie zur Risikoevaluation der COVID-19-Impfstoffe (RiCO) auf Populationsebene in Deutschland – Nutzbarmachung verschiedener Sekundärdatenkörper für die Pharmakovigilanz und weitere Forschung

Um die Forschung zur Sicherheit und Wirkungsweise der COVID-­19-­Impfstoffe in Deutsch­land weiter zu vertiefen, müssen noch einige datentechnische und methodische Hürden überwunden werden. Im Rahmen einer Machbarkeitsstudie von Uniklinik Köln, Ruhr­-Uni­versität Bochum und Paul­-Ehrlich-­Institut werden die Zusammenführung sowie die prinzi­pielle Auswertbarkeit der benötigten Gesundheitsdaten getestet. Der Artikel beschreibt den hierfür verwendeten methodischen Ansatz und Datenfluss ebenso wie die verschie­denen Möglichkeiten, wie diese Daten genutzt werden können.

COVID-19-Statistik und Stethoskop (Quelle: ronstik/Shutterstock) Quelle: ronstik/Shutterstock

Hintergrund

Die Weltgesundheitsorganisation (World Health Organization, WHO) rief am 11.03.2020 die COVID-19-Pandemie aus. Verursacht wird COVID-19 durch eine Infektion mit dem SARS-CoV-2-Virus, das seinen Ursprung in China hatte und sich von dort sehr schnell global ausbreitete. Das klinische Bild umfasst ein breites Spektrum an Symptomen und Erkrankungen. Zu den am häufigsten beobachteten Symptomen zählen Husten, Fieber, Schnupfen sowie Geruchs- und Geschmacksverlust. Der Krankheitsverlauf variiert stark in Symptomatik und Schwere, es können symptomlose Infektionen bis hin zu schweren Pneumonien mit Lungenversagen und Tod auftreten. COVID-19 kann sich in vielfältiger Weise und nicht nur in der Lunge, sondern auch in anderen Organsystemen manifestieren. Die Manifestationsorte sind u. a. von der Dichte der ACE-2-Rezeptoren in den Geweben abhängig, die dem Virus den Eintritt in die Zelle ermöglichen. Neben direkten zytopathischen (zellverändernden) Effekten werden überschießende Immunreaktionen sowie Durchblutungsstörungen in Folge einer Hyperkoagulabilität (gesteigerte Blutgerinnung) beobachtet.

Unter enormem Zeitdruck wurden überall auf der Welt 2020 Impfstoffkandidaten gegen COVID-19 entwickelt und im Rahmen von präklinischen und klinischen Studien getestet. Dabei wurden mit adenovirusbasierten und mRNA-Impfstoffen auch neue Wege beschritten.

Alle zugelassenen COVID-19-Impfstoffe haben eine hohe Wirksamkeit gegenüber Infektionen mit SARS-CoV-2 in klinischen Prüfungen der Phase I–III gezeigt. Aufgrund der Limitierungen von klinischen Prüfungen (zahlenmäßig begrenzte Stichprobe, sehr homogene Studienpopulation aufgrund strikter Ein- und Ausschlusskriterien) bedurfte und bedarf es einer besonders intensiven Überwachung der Sicherheit der neuartigen Impfstoffe auch nach der Zulassung. Parallel zu den Impfkampagnen wurden daher in vielen Ländern pharmakoepidemiologische Studien, teils auf Populationsebene, durchgeführt, um die Sicherheit der verschiedenen Impfstoffe zu untersuchen.

Impfkampagne in Deutschland

Die COVID-19-Impfkampagne in Deutschland, die am 27.12.2020 begann, war so konzipiert, dass die Bevölkerung zunächst überwiegend in den neu gegründeten Impfzentren immunisiert wurde. Hinzu kamen Impfungen in Senioren- und Pflegeheimen (durch mobile Impfteams), Krankenhäusern, Betrieben, Gesundheitsämtern und Apotheken. Alle durchgeführten Impfungen wurden elektronisch an das Digitale-Impfquotenmonitoring(DIM)-System des Robert Koch-Instituts (RKI) gemeldet, wobei die personenbezogenen Daten über einen von der Bundesdruckerei eigens entwickelten Algorithmus pseudonymisiert wurden. Ab April 2021 fanden COVID-19-Impfungen auch im niedergelassenen Bereich statt. Die Fallzahlen wurden zeitnah von den impfenden Praxen an die Kassenärztliche Bundesvereinigung (KBV) und zeitlich versetzt in individualisierter Form an die für das jeweilige Bundesland zuständige Kassenärztliche Vereinigung (KV) gemeldet, wurden jedoch nicht wie andere Impfleistungen an die Krankenkassen weitergeleitet. Die Daten aus den KVen werden aktuell im Rahmen der Impfsurveillance des RKI durch die Bundesdruckerei (gleicher Algorithmus wie beim DIM) pseudonymisiert und können zusammen mit den DIM-Daten durch RKI und Paul-Ehrlich-Institut genutzt werden. Seit April 2023 ist auch die Durchführung der COVID-19-Impfungen Teil der Regelversorgung und wird über die Gesetzlichen Krankenversicherungen abgerechnet, siehe hierzu beispielsweise Kassenärztliche Vereinigung Westfalen-Lippe (2024).

Die gesamte Datenverarbeitung rund um die Erfassung und Meldung der Impfung in den ersten Pandemiejahren musste für die Impfkampagne neu konzeptioniert und implementiert werden. Dies umfasste den gesamten Datenfluss von den verschiedenen meldenden Stellen, über die Bundesdruckerei zur Pseudonymisierung bis hin zur Bereitstellung der Daten beim RKI und dem Paul-Ehrlich-Institut. Auch der von der Bundesdruckerei verwendete Algorithmus zur Pseudonymisierung wurde neu entwickelt.

Diese umfänglichen Neuentwicklungen und die starke Aufteilung der verschiedenen, für eine populationsbezogene Pharmakovigilanz nötigen Daten haben in Deutschland ein mit anderen Ländern vergleichbares Impfmonitoring für die neuen COVID-19-Impfstoffe stark erschwert. Denn neben den Impfdaten selbst müssen Daten zur Abbildung impfbezogener Outcomes (insb. unerwünschte Ereignisse, adverse events) zur Verfügung stehen. Dies ist im deutschen System am ehesten mit den Routinedaten der knapp 100 gesetzlichen und ca. 40 privaten Krankenversicherungen leistbar, in denen relevante Krankenhausaufenthalte, Notfallversorgungen etc. abgebildet werden. Eine weitere Herausforderung ist das Fehlen eines eindeutigen Identifikationsmerkmals für alle Bürgerinnen und Bürger (Unique Identifier), wie er beispielsweise in den nordischen Ländern Europas mit der Sozialversicherungsnummer zur Verfügung steht. In Deutschland steht mit der lebenslang eindeutigen Krankenversichertennummer ein solcher Unique Identifier für die ca. 90 Prozent GKV-Versicherten zur Verfügung.

Populationsbasierte pharmakoepidemiologische Studie

Das Paul-Ehrlich-Institut (PEI) und die PMV-Forschungsgruppe am Universitätsklinikum Köln in Kooperation mit der Abteilung für Medizinische Informatik, Biometrie und Epidemiologie der Ruhr-Universität Bochum und dem Robert Koch-Institut (RKI) initiierten 2020 eine populationsbasierte pharmakoepidemiologische Studie zu identifizierten und potenziellen Risiken von COVID-19-Impfstoffen anhand von Impfdaten (DIM, Impfungen der niedergelassenen Ärzte) und GKV-Routinedaten. Im Rahmen dieser sekundärdatenbasierten Beobachtungsstudie sollen die Individualdaten geimpfter und ungeimpfter Personen analysiert werden. Dabei sollen, neben der Untersuchung zu Todesfällen im zeitlichen Abstand zu Impfungen, schwerpunktmäßig Erkrankungen bzw. unerwünschte Ereignisse untersucht werden, für die es entweder in den klinischen Studien der Phasen I–III oder im Verlauf der nationalen und internationalen Impfkampagne(n) Risikohinweise gab und gibt. Untersucht werden sollen zudem Langzeitverläufe möglicher Nebenwirkungen/Komplikationen der Impfungen. Die Sicherheit der Impfstoffe soll außerdem an Personengruppen untersucht werden, die in klinische Prüfungen vor der Zulassung nicht eingeschlossen worden sind bzw. die in diesen Studien unterrepräsentiert waren, wie z. B. Patientinnen und Patienten mit bestehenden Autoimmunerkrankungen.

In der Umsetzungsplanung dieser Studie wurde deutlich, dass die oben skizzierten Herausforderungen bei der Nutzbarmachung der Daten potenziell starke Auswirkungen auf die Ergebnisqualität haben können. Dies betrifft einerseits die praktische Nutzung des Datenflusses, andererseits die Qualität und Zuverlässigkeit der verwendeten Identifikatoren für die Verknüpfung der Daten.

Daher soll zunächst im Rahmen einer Machbarkeitsstudie die Qualität einer Verknüpfung (Daten-Linkage) der verschiedenen benötigten Daten untersucht werden. Deren Herangehensweise wird im weiteren Verlauf beschrieben.

Ziele der RiCO-Studie

Ziele der Machbarkeitsstudie sind die Untersuchung der Machbarkeit des Datenflusses und die Ermittlung verschiedener Qualitätskennzahlen für die gemeinsame Verwendung von COVID-19-Impfdaten und GKV-Routinedaten zur Erforschung der Sicherheit der COVID-19-Impfstoffe und weiterer Fragestellungen, wie beispielsweise der Erforschung von Long COVID.

Die Machbarkeitsstudie wird dafür einen bereits entwickelten Datenfluss zur Zusammenführung und Verknüpfung von DIM-Impfdaten, Impfdaten des ambulanten Sektors (beide aus den ersten Pandemiejahren vor April 2023) und GKV-Routinedaten implementieren. Unter Verwendung einer im Vergleich zur Gesamtbevölkerung reduzierten Studienpopulation wird dabei zunächst die technische Machbarkeit der Datenzusammenführung getestet. Des Weiteren werden die Qualität der verfügbaren Daten beschrieben und der Anteil verschiedener Arten von Fehlern im Daten-Linkage (bedingt durch die verwendeten Pseudonymisierungsverfahren) geschätzt. Abschließend werden Empfehlungen für verschiedene Vorgehensweisen zum Daten-Linkage auch in Abhängigkeit der geplanten Analysen erarbeitet.

Methodik

Die Studie basiert auf zwei methodischen Kernkomponenten, die im Folgenden weiter beschrieben werden. Dies ist zum einen der schon angesprochene Datenfluss, der zur Nutzbarmachung der Daten benötigt wird, und zum anderen die statistische Vorgehensweise zur Analyse der Daten- und Linkagequalität.

RiCO-Datenfluss

Wie eingangs beschrieben, werden für eine Pharmakovigilanzstudie zu den COVID-19-Impfungen drei Datensätze benötigt. Dabei handelt es sich um zwei Datensätze (in der unteren Abbildung bezeichnet als Datensatz 2a und Datensatz 2b) mit den Daten des Impfgeschehens aus den ersten Pandemiejahren. Diese Daten stammen einmal aus der initialen Impfkampagne in Impfzentren, Pflegeeinrichtungen etc. und wurden über das Digitale Impfmonitoring gesammelt (Datensatz 2a). Sie stammen außerdem aus den anfänglichen Impfungen im ambulanten Sektor, bevor eine Vergütung im Rahmen des SGBV durch die Gesetzlichen Krankenversicherungen erfolgte und wurden über die Kassenärztlichen Vereinigungen gesammelt (Datensatz 2b). In beiden Datensätzen sind Informationen zum Impfzeitpunkt, dem verwendeten Wirkstoff, der Impfserie (wievielte Impfung der Person), dem Impfgrund und weitere Informationen, wie z. B. die PLZ des Wohnortes enthalten, ebenso wie mehrere pseudonymisierte Identifikatoren. Zusätzlich werden Routinedaten der Gesetzlichen Krankenversicherung (Datensatz 1) benötigt, um einerseits die zu beobachtenden Endpunkte zur Pharmakovigilanz (wie beispielsweise Krankenhauseinweisungen) und andererseits relevante Einflussgrößen (wie Morbiditätslast, Medikation) zu operationalisieren.

RiCO-Datenfluss - vereinfachte Darstellung (Quelle: Paul-Ehrlich-Institut) Abbildung: RiCO­-Datenfluss – verein­fachte Darstellung Quelle: Paul-Ehrlich-Institut

Die Abbildung zeigt eine vereinfachte Version des Datenflusses, der benötigt wird, um die Zusammenführung dieser Daten zu erreichen. Die entscheidende Rolle spielen dabei die unterschiedlichen Identifikatoren (Name, Geburtsdatum, Versichertennummer) in den Datensätzen, die es überhaupt erst ermöglichen, die Daten auf der Ebene einzelner Versicherter zusammenzuführen. Zur Wahrung der Datensicherheit durchliefen diese Identifikatoren ein mehrstufiges Pseudonymisierungsverfahren.

Ausgangspunkt und schwächstes Glied in der Kette sind die Identifikatoren in den DIM-Impfdaten (Datensatz 2a). Diese basieren auf dem Vor- und Nachnamen und dem Geburtsdatum der geimpften Person, wie sie im Impfzentrum erfasst wurden. Insbesondere in den ersten Wochen und Monaten der Impfkampagne konnten diese auf handgeschriebenen Listen beruhen, in denen die Mitarbeitenden in den Zentren die Informationen nach mündlicher Mitteilung durch die zu impfende Person aufschrieben.

Ebenso kamen elektronische Erfassung und das Auslesen der Krankenversichertenkarte zum Einsatz. Die Art der Erfassung ist aus den generierten Daten nicht ersichtlich. Aus diesen drei Identifikatoren wurde durch Konkatenation und Hashwertbildung ein Pseudonym generiert. Dieser Vorgang wurde viermal durchgeführt: zum einen auf Basis der Originalangaben, zum anderen nach Normierung der Schreibweise sowie Anwendung zweier phonetischer Aufbereitungen mit dem Ziel, Fehler in den Ausgangsangaben abzufangen. Die so entstandenen vier Pseudonyme wurden an die Bundesdruckerei übermittelt und dort mit einem nur der Bundesdruckerei bekannten Salzwert (als Schlüssel) erneut gehasht und als Pseudonyme an Robert Koch-Institut/Paul-Ehrlich-Institut weitergeleitet.

In den Impfdaten der KVen kommen dieselben Identifikatoren und Pseudonyme zum Einsatz. Nach den verfügbaren Informationen erfolgte die Erfassung von Vorname, Nachname und Geburtsdatum hier – wie im System der GKV üblich – überwiegend über das Einlesen der Krankenversichertenkarte und nur in Einzelfällen über das sogenannte Ersatzverfahren mit manueller Erfassung der Personenangaben.

Somit ist von einer gerade gegenüber der handschriftlichen Erfassung deutlich reduzierten Rate von Schreibfehlern auszugehen. Im KV-System wird ein fünftes Pseudonym (ebenfalls als Hashwert) auf Basis der Krankenversichertennummer (KVNR) gebildet. Da die KVNR ein Unique Identifier ist, ist auch das hieraus gebildete Pseudonym als eindeutig anzusehen.

Aus den GKV-Routinedaten können ebenfalls alle fünf beschriebenen Identifikatoren bzw. Pseudonyme gebildet werden, in dem diese durch das Verfahren der Bundesdruckerei geleitet werden.

Die Impfdaten (2a und 2b) wurden von der Bundesdruckerei zunächst an das Robert Koch-Institut und von diesem dann an das Paul-Ehrlich-Institut weitergeleitet. Dies entspricht dem im Rahmen der Impfkampagne und der gesetzlichen Grundlage für das Impfmonitoring festgelegten Vorgehensweise. Die für die Zwecke der RiCO-Studie hinzukommenden Routinedaten (Datensatz 1) werden von der Bundesdruckerei direkt an das Paul-Ehrlich-Institut weitergeleitet. Dort werden alle drei Datensätze zusammengeführt und können in einer gesicherten Serverumgebung ausgewertet werden.

Analyse der Daten- und Linkagequalität

Da die Verknüpfung der Impfdaten und der Daten aus den Krankenkassen nicht ausschließlich über einen pro Person einzigartigen Identifikator durchgeführt werden kann, ist es möglich, dass bei der Verknüpfung Fehler auftreten. In dieser Studie sind zwei Arten solcher Linkage-Fehler möglich: falsche Matches und fehlende Matches, wobei bei fehlenden Matches noch zu unterscheiden ist zwischen komplett fehlenden Matches und teilweise fehlenden Matches.

Falsche Matches treten auf, wenn die Informationen aus den Krankenkassendaten aufgrund eines identischen Pseudonyms zur falschen Person aus den Impfdaten zugeordnet werden. Dies kann nur passieren, wenn die Informationen, die zur Bildung des Pseudonyms verwendet werden, bei beiden Personen identisch sind oder wenn durch einen oder mehrere Eingabefehler die Informationen in den Daten als identisch erscheinen.

Fehlende Matches treten hingegen auf, wenn eine Person mindestens eine COVID-19-Impfung erhalten hat, es aber nicht möglich war, diese Information den Krankenkassendaten der Person zuzuordnen. Dies kann z. B. passieren, wenn der Name oder das Geburtsdatum einer Person in mindestens einem der beiden Impfdatensätze nicht korrekt erfasst wurde oder die Person zwischen Impfung und Abzug der GKV-Daten ihren Namen geändert hat. Von komplett fehlenden Matches wird gesprochen, wenn die Informationen zu allen tatsächlich erhaltenen COVID-19-Impfungen der Person fehlen. Bei nur teilweise fehlenden Matches ist es möglich, dass z. B. die Informationen zur zweiten Impfung verknüpft werden konnten, die Informationen zur ersten Impfung aber fehlen.

Es ist davon auszugehen, dass fehlende Matches deutlich häufiger auftreten als falsche Matches. Das genaue Ausmaß beider Probleme ist aber unklar. Eines der Hauptziele der Machbarkeitsstudie ist daher, abzuschätzen, wie oft derartige Linkage-Fehler in der Praxis auftreten. Anhand der KV-Impfdaten und der dort generierten Pseudonyme aus Namen und Geburtsdatum kann z. B. eine Abschätzung des Anteils der falschen Matches erfolgen, da in diesem Datensatz Personen anhand des Pseudonyms der KV-Nummer unterschieden werden können. Der Anteil fehlender Matches kann nicht so einfach geschätzt werden. Hierzu sollen verschiedene Auswertungen erfolgen, um diesen Anteil zu schätzen. Außerdem sind verschiedene Vorgehensweisen zum Linkage möglich, so kann z. B. die PLZ beim Linkage mitberücksichtigt werden, wodurch der Anteil falscher Matches reduziert werden kann. Allerdings für den Preis eines höheren Anteils fehlender Matches. Für die zukünftige Nutzung der Daten sollen daher Vorschläge erarbeitet werden, welche Form des Linkage (mit vs. ohne PLZ, welches Pseudonym) für welche Form der Analysen am besten geeignet ist.

In einer Simulationsstudie hat die Arbeitsgruppe zusätzlich untersucht, welchen Einfluss verschiedene Ausmaße der Linkage-Fehler auf die Analyseergebnisse haben. Dabei zeigte sich, dass bei realistisch zu erwartenden Anteilen von fehlenden Matches (bis zu 20 %) keine nennenswerten systematischen Fehler bei der Analyse der Impfnebenwirkungen zu erwarten sind, wenn zur Auswertung die Self-Controlled-Case-Series-Methode verwendet wird.

Diskussion

Während in anderen Ländern, wie z. B. Dänemark oder Schweden, pharmakoepidemiologische Studien zu den neuen COVID-19-Impfstoffen sehr zeitnah erfolgten und dadurch auch verschiedene Risiken, wie z. B. ein erhöhtes Risiko für eine Myokarditis bei männlichen Jugendlichen nach Impfung mit dem Pfizer-BioNTech-mRNA-Impfstoff, entdeckt werden konnten, sind in Deutschland eine Vielzahl an Schritten notwendig, um Daten aus verschiedensten Quellen zusammenzuführen. Erstmals wird dies im Rahmen der RiCO-Machbarkeitsstudie erfolgen.

Dass andere europäische Länder so schnell die Daten auswerten konnten, liegt unter anderem daran, dass dort schon seit Jahrzehnten sekundärdatenbasierte Studien zu potenziellen Sicherheitssignalen von Impfungen durchgeführt werden. Ermöglicht wird dies unter anderem durch das Vorhandensein eines Unique Identifiers, den eine Person mit der ersten Registrierung nach der Geburt bzw. nach Einwanderung aus dem Ausland erhält und der lebenslang beibehalten und in allen Datenbanken verwendet wird. In Deutschland gibt es keinen derartigen Primärschlüssel, der für alle Bürgerinnen und Bürger und über alle Einsatzbereiche hinweg zum Einsatz kommt. Jede einzelne Datenquelle besitzt eigene Identifier, was ein Linkage von Datenbanken deutlich erschwert. Zudem hat Deutschland unter anderem aus historischen Gründen vergleichsweise strenge Datenschutzgesetze, die ein Zusammenführen von Daten aus verschiedenen Quellen nur nach eingehender Prüfung und unter strikten Auflagen gestatten. Zu Beginn der Pandemie gab es außerdem keine bestehende zentrale Forschungsdateninfrastruktur, die man zu wissenschaftlichen Zwecken hätte einsetzen können. Stattdessen musste unter den schwierigen Bedingungen der COVID-19-Pandemie eigens für mögliche pharmakoepidemiologische Untersuchungen eine gänzlich neue Infrastruktur mit unterschiedlichen Datenflüssen etabliert werden. Dies gestaltete sich als sehr langwieriger und mühsamer Prozess. Vor diesem Hintergrund ist das geplante Forschungsdatenzentrum am BfArM ein Schritt in die richtige Richtung. Das RiCO-Projekt lehrt uns, dass zeitnahe sekundärdatenbasierte Analysen zu potenziellen Sicherheitssignalen nach Impfungen nur auf Basis einer vorbestehenden Forschungsdateninfrastruktur möglich sind.

Basierend auf den im Rahmen der Machbarkeitsstudie etablierten Datenflüssen und den Ergebnissen zur Qualität des Linkages von DIM-, KV- und GKV-Daten können neue Projekte geplant und initiiert werden und somit eine Weiternutzung der Daten erfolgen. Wie die Simulationsstudie unserer Arbeitsgruppe ergeben hat, ist, sofern sinnvoll möglich, eine Auswertung mittels Self-Controlled-Case-Series-Design zu bevorzugen. Auch die ursprünglich geplanten Analysen sind möglich.

Dennoch zeigt die durchgeführte Simulationsstudie, dass die Datenverknüpfung, wie oben beschrieben, hohen wissenschaftlichen Ansprüchen genügt und die angestrebten Analysen prinzipiell durchführbar sind, vorausgesetzt es kann auf eine genügend große Stichprobe an GKV-Daten zurückgegriffen werden.

Long COVID ist nach wie vor weltweit ein großes Problem, wie auch andere Folgeerkrankungen einer SARS-CoV-2-Infektion, beispielsweise die Myokarditis. Risikofaktoren, Diagnostik und Therapie von Long COVID sind zurzeit Gegenstand intensiver Forschung. Es wird davon ausgegangen, dass die COVID-19-Impfung hierbei eine protektive Rolle innehat, wobei beispielsweise die Dauer der protektiven Wirkung noch unklar ist.

Fazit

Durch die im Rahmen der Machbarkeitsstudie gewonnenen Ergebnisse besteht zukünftig die Möglichkeit, auch in Deutschland sekundärdatenbasierte Auswertungen zu Risikofaktoren und dem Verlauf von Long COVID und anderen mit einer SARS-CoV-2-Infektion assoziierten Erkrankungen vorzunehmen und dabei die Impfung als einen potenziellen protektiven Faktor mit zu berücksichtigen.

Aktualisiert: 27.09.2024