DC ElementWertSprache
dc.contributor.advisorSchlüter, Hartmut-
dc.contributor.authorVoß, Hannah-
dc.date.accessioned2023-07-21T13:33:54Z-
dc.date.available2023-07-21T13:33:54Z-
dc.date.issued2022-11-
dc.identifier.urihttps://ediss.sub.uni-hamburg.de/handle/ediss/10347-
dc.description.abstractDie Untersuchung des Proteoms kann den vielfältigen vorhandenen DNA-Methylierungs-, Mutations- und Transkriptomdaten eine wichtige Informationsebene hinzufügen, da Proteine den Phänotyp biologischer Konditionen widerspiegeln, welcher häufig pharmakologisch adressiert werden kann. Kleine Kohorten schränken dabei die Validität statistischer Methoden zur Analyse hochdimensionaler Proteomdatensätze ein. Die Erweiterung eigener Datensätze mit Proteomdaten unabhängiger Studien, z.B. aus öffentlichen Datenbanken, hat das Potential, probenzahllimitierte Datensätze effizient zu erweitern. Eine solche Datenintegration ist allerdings durch die hohe technische Variabilität zwischen Proteomstudien limitiert, welche in integrierten Datensätzen Batcheffekte induziert, die biologisch relevante Unterschiede zwischen Phänotypen überlagern können. Im Rahmen der vorliegenden Arbeit wurde erstmalig die Integrierbarkeit von Proteomdaten aus unabhängig generierten Datensätzen, sowie die Anwendbarkeit etablierter bioinformatischer Verfahren zur Entfernung von Batcheffekten zwischen diesen, untersucht. Dabei konnte festgestellt werden, dass gängige Verfahren zum Entfernen von Batcheffekten in Transkriptom- und DNA-Methylierungsdaten, bei konfigurationsspezifischer Präprozessierung von Proteomdaten, Batcheffekte zwischen aus unterschiedlichen Gewebskonservierungstypen, Flüssigkeitschromatographie, Massenspektrometerkonfigurationen, Quantifizierungstechniken generierten Proteomdatensätzen erfolgreich reduzieren können. Bisher ist dabei limitierend, dass alle fortgeschrittenen Verfahren zur Batcheffektreduktion keine Fehlwerte des ”Missing not at random” (MNAR)-Typen tolerieren. Aus diesem Grund, reduzierte sich, für alle in dieser Studie untersuchten Datensätze, die Zahl der verwendbaren Datenpunkte nach Batcheffektkorrektur auf 30-60 % aller identifizierten Proteine. Derweil die Anwendung ”Machine Learning”-basierter Imputationsverfahren (z. B. Random ForestImputation) eine Batcheffektkorrektur unter Berücksichtigung aller identifizierten Proteine ermöglicht, konnte für alle getesteten Verfahren eine Datenverzerrung einzelner Proteine festgestellt werden. Die Anwendbarkeit von Imputationsverfahren vor der Batcheffektkorrektur zwischen Proteomdatensätzen ist dabei besonders durch die Notwendigkeit der gleichzeitigen Imputation von MNAR- und ”Missing at random” (MAR)-Typ-Fehlwerten limitiert. Um dieses Problem zu umgehen, wurde im Rahmen dieser Studie das Matrix-Dissektionsverfahren zur fehlwerttoleranten Integration unabhängig generierter Datensätze, ohne die Notwendigkeit der Datenimputation, entwickelt. Das Prinzip ermöglicht durch die Implementierung verschiedener etablierter Algorithmen, wie dem empirischen Bayesian-Framework des ComBat-Algorithmus und dem linearen Regressionsmodell des Limma-Algorithmus, die Batcheffektkorrektur von normalverteilten und nicht-normalverteilten Proteomdaten unabhängig der Verfügbarkeit von Spektraldaten. Derweil das Matrix-Dissektionsverfahren für Proteomdaten etabliert wurde, kann das grundlegende Prinzip für alle MAR-, MCAR-Typ-toleranten Batcheffektkorrekturstrategien, Datenmodalitäten und wissenschaftlichen Fragestellungen adaptiert werden.de
dc.language.isodede_DE
dc.publisherStaats- und Universitätsbibliothek Hamburg Carl von Ossietzkyde
dc.rightshttp://purl.org/coar/access_right/c_abf2de_DE
dc.subjectProteomanalysede
dc.subjectFehlwertde
dc.subjectMassenspektrometriede
dc.subjectDatenintegrationde
dc.subjectBatcheffektde
dc.subject.ddc500: Naturwissenschaftende_DE
dc.titleEntwicklung eines Verfahrens zur fehlwerttoleranten Batcheffektkorrektur zwischen unabhängig generierten Proteomdatensätzende
dc.title.alternativeDevelopment of a method for missing value tollerant batch effect correction between independently generated proteome datasetsen
dc.typedoctoralThesisen
dcterms.dateAccepted2023-06-23-
dc.rights.cchttps://creativecommons.org/licenses/by/4.0/de_DE
dc.rights.rshttp://rightsstatements.org/vocab/InC/1.0/-
dc.subject.gndStatistikde_DE
dc.subject.gndDatende_DE
dc.subject.gndBiomedizinde_DE
dc.subject.gndProteinede_DE
dc.subject.gndChemiede_DE
dc.type.casraiDissertation-
dc.type.dinidoctoralThesis-
dc.type.driverdoctoralThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersionde_DE
dc.type.thesisdoctoralThesisde_DE
tuhh.type.opusDissertation-
thesis.grantor.departmentChemiede_DE
thesis.grantor.placeHamburg-
thesis.grantor.universityOrInstitutionUniversität Hamburgde_DE
dcterms.DCMITypeText-
dc.identifier.urnurn:nbn:de:gbv:18-ediss-110373-
item.advisorGNDSchlüter, Hartmut-
item.grantfulltextopen-
item.languageiso639-1other-
item.fulltextWith Fulltext-
item.creatorOrcidVoß, Hannah-
item.creatorGNDVoß, Hannah-
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen
Dateien zu dieser Ressource:
Datei Beschreibung Prüfsumme GrößeFormat  
Hannah Voß, Dissertation, 2022 copy.pdf1b3b1bb415ac1f051ed6ace51e8a17ac20.58 MBAdobe PDFÖffnen/Anzeigen
Zur Kurzanzeige

Info

Seitenansichten

201
Letzte Woche
Letzten Monat
geprüft am 02.07.2024

Download(s)

168
Letzte Woche
Letzten Monat
geprüft am 02.07.2024
Werkzeuge

Google ScholarTM

Prüfe