Titel: Entwicklung eines Verfahrens zur fehlwerttoleranten Batcheffektkorrektur zwischen unabhängig generierten Proteomdatensätzen
Sonstige Titel: Development of a method for missing value tollerant batch effect correction between independently generated proteome datasets
Sprache: Deutsch
Autor*in: Voß, Hannah
Schlagwörter: Proteomanalyse; Fehlwert; Massenspektrometrie; Datenintegration; Batcheffekt
GND-Schlagwörter: StatistikGND
DatenGND
BiomedizinGND
ProteineGND
ChemieGND
Erscheinungsdatum: 2022-11
Tag der mündlichen Prüfung: 2023-06-23
Zusammenfassung: 
Die Untersuchung des Proteoms kann den vielfältigen vorhandenen DNA-Methylierungs-, Mutations- und Transkriptomdaten eine wichtige Informationsebene hinzufügen, da Proteine den Phänotyp biologischer Konditionen widerspiegeln, welcher häufig pharmakologisch adressiert werden kann. Kleine Kohorten schränken dabei die Validität statistischer Methoden zur Analyse hochdimensionaler Proteomdatensätze ein. Die Erweiterung eigener Datensätze mit Proteomdaten unabhängiger Studien, z.B. aus öffentlichen Datenbanken, hat das Potential, probenzahllimitierte Datensätze effizient zu erweitern. Eine solche Datenintegration ist allerdings durch die hohe technische Variabilität zwischen Proteomstudien limitiert, welche in integrierten Datensätzen Batcheffekte induziert, die biologisch relevante Unterschiede zwischen Phänotypen überlagern können. Im Rahmen der vorliegenden Arbeit wurde erstmalig die Integrierbarkeit von Proteomdaten aus unabhängig generierten Datensätzen, sowie die Anwendbarkeit etablierter bioinformatischer Verfahren zur Entfernung von Batcheffekten zwischen diesen, untersucht. Dabei konnte festgestellt werden, dass gängige Verfahren zum Entfernen von Batcheffekten in Transkriptom- und DNA-Methylierungsdaten, bei konfigurationsspezifischer Präprozessierung von Proteomdaten, Batcheffekte zwischen aus unterschiedlichen Gewebskonservierungstypen, Flüssigkeitschromatographie,
Massenspektrometerkonfigurationen, Quantifizierungstechniken generierten Proteomdatensätzen erfolgreich reduzieren können. Bisher ist dabei limitierend, dass alle fortgeschrittenen Verfahren zur Batcheffektreduktion keine Fehlwerte des ”Missing not at
random” (MNAR)-Typen tolerieren. Aus diesem Grund, reduzierte sich, für alle in dieser Studie untersuchten Datensätze, die Zahl der verwendbaren Datenpunkte nach Batcheffektkorrektur auf 30-60 % aller identifizierten Proteine. Derweil die Anwendung
”Machine Learning”-basierter Imputationsverfahren (z. B. Random ForestImputation) eine Batcheffektkorrektur unter Berücksichtigung aller identifizierten Proteine ermöglicht, konnte für alle getesteten Verfahren eine Datenverzerrung einzelner Proteine festgestellt werden. Die Anwendbarkeit von Imputationsverfahren vor der Batcheffektkorrektur zwischen Proteomdatensätzen ist dabei besonders durch die Notwendigkeit der gleichzeitigen Imputation von MNAR- und ”Missing at random” (MAR)-Typ-Fehlwerten limitiert. Um dieses Problem zu umgehen, wurde im Rahmen dieser Studie das Matrix-Dissektionsverfahren zur fehlwerttoleranten Integration unabhängig generierter Datensätze, ohne die Notwendigkeit der Datenimputation, entwickelt. Das Prinzip ermöglicht durch die Implementierung verschiedener etablierter Algorithmen, wie dem empirischen Bayesian-Framework des ComBat-Algorithmus und dem linearen Regressionsmodell des Limma-Algorithmus, die Batcheffektkorrektur von normalverteilten und nicht-normalverteilten Proteomdaten unabhängig der Verfügbarkeit von Spektraldaten. Derweil das Matrix-Dissektionsverfahren für Proteomdaten etabliert wurde, kann das grundlegende Prinzip für alle MAR-, MCAR-Typ-toleranten Batcheffektkorrekturstrategien, Datenmodalitäten und wissenschaftlichen Fragestellungen adaptiert werden.
URL: https://ediss.sub.uni-hamburg.de/handle/ediss/10347
URN: urn:nbn:de:gbv:18-ediss-110373
Dokumenttyp: Dissertation
Betreuer*in: Schlüter, Hartmut
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:
Datei Beschreibung Prüfsumme GrößeFormat  
Hannah Voß, Dissertation, 2022 copy.pdf1b3b1bb415ac1f051ed6ace51e8a17ac20.58 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Info

Seitenansichten

201
Letzte Woche
Letzten Monat
geprüft am 02.07.2024

Download(s)

168
Letzte Woche
Letzten Monat
geprüft am 02.07.2024
Werkzeuge

Google ScholarTM

Prüfe