Titel: | Distributed Architectures for Data Pseudonymization and Anonymization in Medical Research | Sonstige Titel: | Verteilte Architekturen zur Pseudonymisierung und Anonymisierung medizinischer Forschungsdaten | Sprache: | Englisch | Autor*in: | Petersen, Tom | Schlagwörter: | Personenbeziehbare Forschungsdaten; Verteilte Architekturen; Kryptographische Verfahren; Pseudonymization; Anonymization; Personally identifiable research data; Distributed architectures; Cryptographic methods | GND-Schlagwörter: | AnonymisierungGND PseudonymisierungGND Verteiltes SystemGND KryptologieGND Personenbezogene DatenGND DatenschutzGND |
Erscheinungsdatum: | 2024-09 | Tag der mündlichen Prüfung: | 2025-02-20 | Zusammenfassung: | Medical research increasingly employs statistical methods for various purposes, such as identifying risk factors for diseases, advancing precision medicine, and evaluating treatment outcomes. These methods generally require extensive datasets derived from personal health information, which includes medical histories, lifestyle factors, treatment results, and even genetic data. But the growing reliance on this highly sensitive personal data raises serious privacy and security concerns. One way to balance these concerns with data demands is the application of data privacy techniques, such as pseudonymization and anonymization. These techniques enable the analysis of respective data while protecting individuals’ privacy and reducing risks of re-identification. The distributed nature of medical research data presents significant challenges for the utilization of these measures, leading to the central topic of this thesis. This thesis explores the application of data privacy methods in distributed environments without central data collection and investigates the associated challenges, limitations, opportunities, and advantages. The first part of this thesis reviews existing literature on data privacy measures, specifically pseudonymization, de-identification techniques, syntactic privacy models, and semantic privacy models. This includes technical aspects, including basic techniques and their strengths and weaknesses, as well as legal considerations, particularly the interpretation of relevant terms and concepts as well as the debate surrounding data privacy. The subsequent sections investigate the distributed application of data privacy techniques in selected scenarios representative for the domain of medical research. The first example involves the generation of pseudonyms in distributed environments where individuals contribute data at multiple data sources. Additionally to the generation of pseudonyms, in our next contribution, we provide a way to protect the disclosure of pseudonyms by distributing the process across multiple parties. The next example focuses on distributed anonymization protocols. Here, we identify weaknesses in an existing distributed syntactic privacy protocol and present an updated protocol version that addresses these weaknesses. The thesis concludes with a more practice-oriented contribution: a platform concept for privacy-preserving medical registries that allows for distributed data collection, which has been successfully utilized in real-world studies. The intersection of data science, regulatory frameworks, and data privacy measures has significant implications to the future of medical research, and this thesis aims to contribute to the advancement of data privacy and security practices in this field. Der zunehmende Einsatz datenbasierter, statistischer Methoden in der medizinischen Forschung ermöglicht unter anderem die Identifikation von Risikofaktoren für Krankheiten, die Beurteilung von Behandlungsverfahren und Fortschritte in der personalisierten Medizin. Diese Methoden basieren im Allgemeinen auf großen Datenmengen, die aus personenbeziehbaren Gesundheitsdaten wie etwa der medizinischen Historie, Lebensgewohnheiten, Behandlungsergebnissen, und genetischen Profilen gewonnen werden. Die zunehmende Nutzung dieser hochsensiblen personenbezogenen Daten führt jedoch zu erheblichen Datenschutz- und Sicherheitsbedenken. Eine Möglichkeit zur Vermittlung zwischen diesen Bedenken und dem Datenbedarf der Forschung ist der Einsatz von Maßnahmen wie Pseudonymisierungs- und Anonymisierungstechniken. Diese Techniken ermöglichen die Analyse entsprechender Gesundheitsdaten, reduzieren jedoch das Risiko einer Re-Identifizierung und schützen so die Privatsphäre Betroffener. Die verteilte Natur medizinischer Forschungsdaten bringt jedoch wesentliche Herausforderungen für den Einsatz entsprechender Techniken in verteilten Umgebungen mit sich, was zum zentralen Problemfeld dieser Arbeit führt. Diese Arbeit erkundet die Anwendung von Datenschutzmaßnahmen in verteilten Umgebungen ohne zentrale Datensammlung und untersucht Herausforderungen, Einschränkungen und Vorteile ihres Einsatzes. Im ersten Teil der Arbeit wird der aktuelle Forschungsstand zu Datenschutzmaßnahmen, insbesondere Pseudonymisierung, Deidentifizierungstechniken sowie syntaktischen und semantischen Datenschutzmodellen, dargestellt. Dies umfasst technische Aspekte, einschließlich grundlegender Techniken sowie ihrer Vor- und Nachteile, ebenso wie rechtliche Betrachtungen, insbesondere die Interpretation grundlegender Begriffe sowie die Debatte über die Bewertung von Datenschutztechniken. Die nachfolgenden Abschnitte untersuchen den Einsatz von Datenschutztechniken in verteilten Umgebungen anhand von repräsentativen Szenarien aus dem Bereich der medizinischen Forschung. Das erste Szenario befasst sich mit der Generierung von Pseudonymen in verteilten Umgebungen, in denen Individuen Daten in mehreren Datenquellen beisteuern können. Ergänzend zur Generierung von Pseudonymen wird im zweiten Forschungsbeitrag eine Möglichkeit für den Schutz des Aufdeckungsprozesses von Pseudonymen bereitgestellt, die auf der Verteilung des Prozesses auf mehrere Parteien besteht. Das nächste Beispiel fokussiert verteilte Anonymisierungsverfahren. Es werden Schwachstellen in einem verteilten Protokoll für syntaktische Privatsphäre identifiziert und es wird eine Version des Protokolls entworfen, die diese Schwachstellen verhindert. Die Arbeit schließt mit einem eher praxisorientierten Beitrag: einem Plattformkonzept für datenschutzfreundliche medizinische Register, das eine verteilte Datenerfassung ermöglicht und bereits erfolgreich in der Praxis eingesetzt wurde. Die Schnittstelle zwischen Data Science, Regulierung und technischen Datenschutzmaßnahmen hat erhebliche Auswirkungen auf die Zukunft der medizinischen Forschung und diese Arbeit zielt darauf ab, zur Weiterentwicklung der Datenschutz- und Sicherheitspraktiken in diesem Bereich beizutragen. |
URL: | https://ediss.sub.uni-hamburg.de/handle/ediss/11611 | URN: | urn:nbn:de:gbv:18-ediss-127424 | Dokumenttyp: | Dissertation | Betreuer*in: | Federrath, Hannes |
Enthalten in den Sammlungen: | Elektronische Dissertationen und Habilitationen |
Dateien zu dieser Ressource:
Datei | Prüfsumme | Größe | Format | |
---|---|---|---|---|
dissertation.pdf | 83c708d7e32dc1038cef6edd36662c5f | 3.25 MB | Adobe PDF | Öffnen/Anzeigen |
Info
Seitenansichten
Letzte Woche
Letzten Monat
geprüft am null
Download(s)
Letzte Woche
Letzten Monat
geprüft am null
Werkzeuge