Titel: Privacy-aware Federated Learning for Accelerating Biomedical and Clinical Time-to-Event Analysis
Sprache: Englisch
Autor*in: Späth, Julian Alexander
Schlagwörter: Survival Analysis; Time-to-Event Analysis; Federated Learning; Privacy-Enhancing Techologies; Föderiertes Lernen
GND-Schlagwörter: Verteilte künstliche IntelligenzGND
Maschinelles LernenGND
Überwachtes LernenGND
EreignisdatenanalyseGND
BioinformatikGND
Erscheinungsdatum: 2024
Tag der mündlichen Prüfung: 2024-09-27
Zusammenfassung: 
The digitalization of health care leads to the accumulation of huge amounts of biomedical data that is used in clinical research and studies to uncover therapies, treatments, or novel biomarkers. One important set of tools in clinical research is time-to-event analysis. These kinds of algorithms are used to analyze censored data. For such data, the exact time of an event is not known, since the event does not necessarily occur during observation time. These and other biomedical and clinical datasets are typically collected centrally at a single institution and then analyzed using statistical methods or machine learning. For gathering larger amounts of data, data sharing with a central institution is necessary. However, current privacy regulations make it difficult to share sensitive data with other institutions and gather them at a central instance. To address this issue, recently, a novel approach known as federated learning was introduced. Federated learning enables the application of machine learning on geographically distributed datasets. Therefore, the raw data of each institution stays locally and only model parameters or summary statistics are shared with a central aggregator. Despite recent advances in this field, there are still only a few accessible and privacy-preserving solutions for biomedical research, especially in time-to-event analysis.

The results of this cumulative dissertation are based on three main publications. The first publication introduces Partea, a platform for privacy-aware time-to-event analysis. Partea incorporates the most commonly employed time-to-event techniques and makes them accessible through a graphical user interface without requiring any programming expertise. The second publication describes FeatureCloud, a federated learning platform that goes beyond time-to-event analysis and enables both the use and development of federated learning algorithms by providing the necessary infrastructure. Finally, in the third publication, FeatureCloud was used to develop and evaluate a federated survival support vector machine for the analysis of distributed time-to-event data.

The developed methods and tools in this work extend existing approaches for analyzing time-to-event data on decentralized datasets and are directly accessible to researchers, statisticians, and clinicians. Furthermore, the dissertation demonstrates that federated learning algorithms possess the capability to attain a comparable level of accuracy on distributed datasets as compared to the original algorithms that solely operate on centrally collected datasets. By providing a broader set of algorithms, implementing privacy-enhancing technologies and providing user-friendly interfaces, the results of this dissertation increase the accessibility of federated learning in biomedical and clinical research environments and reduce the hurdles of complex federated learning infrastructures.

Die Digitalisierung des Gesundheitswesens führt zur Anhäufung riesiger Mengen biomedizinischer Daten. Diese Daten werden in der klinischen Forschung und in Studien verwendet, um Therapien, Behandlungen oder neue Biomarker zu erforschen. Ein wichtiges Instrument in der klinischen Forschung ist die Ereigniszeitanalyse. Diese Art von Algorithmen wird verwendet, um zensierte Daten zu analysieren. Bei solchen Daten ist der genaue Zeitpunkt eines Ereignisses nicht bekannt, da das Ereignis nicht unbedingt während der Beobachtungszeit eintritt. Diese und andere biomedizinische und klinische Datensätze werden in der Regel zentral in einer einzigen Einrichtung gesammelt und dann mit statistischen Methoden oder maschinellem Lernen analysiert. Für die Erfassung größerer Datenmengen ist das Teilen von Daten mit einer zentralen Einrichtung erforderlich. Die derzeitigen Datenschutzbestimmungen erschweren jedoch die Weitergabe sensibler Daten an andere Einrichtungen und deren Sammlung an einer zentralen Stelle. Um dieses Problem zu lösen, wurde kürzlich ein neuartiger Ansatz eingeführt, der als Federated Learning bekannt ist. Federated Learning ermöglicht die Anwendung von maschinellem Lernen auf verteilten Datensätzen. Dabei verbleiben die Daten jeder Einrichtung lokal und nur die Modellparameter oder zusammenfassende Statistiken werden mit einem zentralen Institut ausgetauscht. Trotz der jüngsten Fortschritte in diesem Bereich gibt es immer noch nur wenige zugängliche und privatsphäreschützende Lösungen für die biomedizinische Forschung, insbesondere für die Ereigniszeitanalyse.

Die Ergebnisse dieser kumulativen Dissertation stützen sich auf drei Hauptpublikationen. Die erste Veröffentlichung stellt Partea vor, eine Plattform für privatsphäreschützende Ereigniszeitanalysen. Partea unterstützt die am häufigsten verwendeten Ereigniszeitanalyse-Methoden und macht sie über eine grafische Benutzeroberfläche zugänglich, ohne dass Programmierkenntnisse erforderlich sind. Die zweite Veröffentlichung beschreibt FeatureCloud, eine Plattform für Federated Learning, die über die reine Ereigniszeitanalyse hinausgeht und sowohl die Nutzung als auch die Entwicklung von Algorithmen für Federated Learning ermöglicht, indem sie die notwendige Infrastruktur bereitstellt. In der dritten Publikation wurde schließlich FeatureCloud verwendet, um eine Survival Support Vektor Maschine für die verteilte Ereigniszeitanalyse zu entwickeln und zu evaluieren.

Die entwickelten Methoden und Werkzeuge dieser Arbeit erweitern bestehende Ansätze der Ereigniszeitanalyse für den Einsatz auf dezentral gespeicherten Datensätzen und sind für Forscher, Statistiker und Mediziner direkt zugänglich. Darüber hinaus zeigt die Dissertation, dass Federated Learning in der Lage ist, auf dezentral gespeicherten Datensätzen eine vergleichbare Genauigkeit erreichen zu können wie die ursprünglichen Algorithmen, die ausschließlich auf zentral gesammelten Datensätzen arbeiten. Die in dieser Arbeit bereitgestellte Palette an Algorithmen, die implementierten Methoden zum Schutz der Privatsphäre und die benutzerfreundlichen Schnittstellen erhöhen die Zugänglichkeit von Federated Learning in der biomedizinischen und klinischen Forschung und verringern die H¨urden komplexer Infrastrukturen.
URL: https://ediss.sub.uni-hamburg.de/handle/ediss/11253
URN: urn:nbn:de:gbv:18-ediss-122072
Dokumenttyp: Dissertation
Betreuer*in: Baumbach, Jan
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:
Datei Prüfsumme GrößeFormat  
Dissertation.pdf89b7a461822b5835b6feaae75ee6abd44.85 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Info

Seitenansichten

Letzte Woche
Letzten Monat
geprüft am null

Download(s)

Letzte Woche
Letzten Monat
geprüft am null
Werkzeuge

Google ScholarTM

Prüfe