Titel: | Klassifizierung und Charakterisierung des Metaboloms von Lebensmitteln mit Random Forest Methoden | Sonstige Titel: | Classification and Characterization of the Metabolome of foods with Random Forest Methods | Sprache: | mehrsprachig | Autor*in: | Wenck, Soeren Hendrik | Schlagwörter: | Lebensmittel; Metabolomics; Machine Learning; Random Forest; Variablenselektion; Variablenbeziehungen | Erscheinungsdatum: | 2025-03-30 | Tag der mündlichen Prüfung: | 2025-07-18 | Zusammenfassung: | Im Rahmen dieser Arbeit wurden große analytische Datensätze des Metaboloms mit random forest (RF) Verfahren untersucht. Dabei wurden ausgewählte Lebensmittel hinsichtlich verschiedener Eigenschaften klassifiziert, relevante Variablen mit Variablenselektionsmethoden ausgewählt und deren gemeinsamer Einfluss auf das Klassifikationsmodell analysiert. Die auf diese Weise gefundenen Zusammenhänge wurden bezüglich des analytischen und biologischen Hintergrunds interpretiert und damit gezeigt, dass anhand der hier angewendeten Methoden eine detaillierte Analyse der untersuchten Proben, die weit über die bei machine learning-Verfahren häufig angewendete „black box“ Untersuchung hinaus geht, ermöglicht wird. Die Untersuchungen erfolgten an Metabolom-Daten aus 1H Kernspinresonanz-spektroskopie (engl.: nuclear magnetic resonance, NMR-Spektroskopie) und gekoppelter Flüssigchromatographie mit Massenspektrometrie (engl.: liquid chromatography coupled with mass spectrometry, LC-MS) von Apfel-, Spargel- und Trüffelproben. Die Daten wurden dabei zuerst mit der oft eingesetzten Hauptkomponentenanalyse (principal component analysis, PCA) untersucht, um die Hauptunterschiede in den Datensätzen zu analysieren. Dabei zeigte sich, dass diese meistens keine klare Unterscheidung der analysierten Klassen ermöglichte und somit überwachte Verfahren angewendet werden sollten. RF zeigte sich als sehr gut geeignet, um die Datensätze mit teilweise recht geringen Stichprobengrößen einzelner Klassen zu klassifizieren, da durch die interne Validierung in Kombination mit dem Verzicht auf eine Optimierung der Modellparameter ein unabhängiger Validierungsfehler erhalten werden konnte, ohne zusätzliche Daten zu benötigen. Dabei konnten Klassifizierungsgenauigkeiten über 70 %, meist zwischen 80-100 %, erreicht werden. Die Anwendung von surrogate minimal depth (SMD) zur Selektion relevanter Variablen und deren Beziehungsanalyse, zusammen mit der anschließenden Identifizierung mit Datenbankabgleich und LC-MS-MS Analyse, bzw. der zusätzlichen Analyse mit weiteren Methoden der NMR-Spektroskopie und spike-in-Experimenten erwies sich als ein leistungsfähiger Ansatz zur Untersuchung der Wirkung von Variablen in den RF Modellen und damit deren Beitrag zur erfolgreichen Klassifizierung von Lebensmitteln. Dabei konnten sowohl Signale der gleichen Metabolite als auch biologisch sinnvolle Beziehungen zwischen einzelnen Metaboliten aufgedeckt werden. |
URL: | https://ediss.sub.uni-hamburg.de/handle/ediss/11925 | URN: | urn:nbn:de:gbv:18-ediss-131371 | Dokumenttyp: | Dissertation | Betreuer*in: | Seifert, Stephan |
Enthalten in den Sammlungen: | Elektronische Dissertationen und Habilitationen |
Dateien zu dieser Ressource:
Datei | Beschreibung | Prüfsumme | Größe | Format | |
---|---|---|---|---|---|
Soeren Wenck - kumulative Dissertation.pdf | 410b249353b9be3afaa0de7303dd6454 | 17.01 MB | Adobe PDF | ![]() Öffnen/Anzeigen |
Info
Seitenansichten
Letzte Woche
Letzten Monat
geprüft am null
Download(s)
Letzte Woche
Letzten Monat
geprüft am null
Werkzeuge