Klassifizierung und Charakterisierung des Metaboloms von Lebensmitteln mit Random Forest Methoden

Wenck, Soeren Hendrik

Titel:	Klassifizierung und Charakterisierung des Metaboloms von Lebensmitteln mit Random Forest Methoden
Sonstige Titel:	Classification and Characterization of the Metabolome of foods with Random Forest Methods
Sprache:	mehrsprachig
Autor*in:	Wenck, Soeren Hendrik
Schlagwörter:	Lebensmittel; Metabolomics; Machine Learning; Random Forest; Variablenselektion; Variablenbeziehungen
Erscheinungsdatum:	2025-03-30
Tag der mündlichen Prüfung:	2025-07-18
Zusammenfassung:	Im Rahmen dieser Arbeit wurden große analytische Datensätze des Metaboloms mit random forest (RF) Verfahren untersucht. Dabei wurden ausgewählte Lebensmittel hinsichtlich verschiedener Eigenschaften klassifiziert, relevante Variablen mit Variablenselektionsmethoden ausgewählt und deren gemeinsamer Einfluss auf das Klassifikationsmodell analysiert. Die auf diese Weise gefundenen Zusammenhänge wurden bezüglich des analytischen und biologischen Hintergrunds interpretiert und damit gezeigt, dass anhand der hier angewendeten Methoden eine detaillierte Analyse der untersuchten Proben, die weit über die bei machine learning-Verfahren häufig angewendete „black box“ Untersuchung hinaus geht, ermöglicht wird. Die Untersuchungen erfolgten an Metabolom-Daten aus 1H Kernspinresonanz-spektroskopie (engl.: nuclear magnetic resonance, NMR-Spektroskopie) und gekoppelter Flüssigchromatographie mit Massenspektrometrie (engl.: liquid chromatography coupled with mass spectrometry, LC-MS) von Apfel-, Spargel- und Trüffelproben. Die Daten wurden dabei zuerst mit der oft eingesetzten Hauptkomponentenanalyse (principal component analysis, PCA) untersucht, um die Hauptunterschiede in den Datensätzen zu analysieren. Dabei zeigte sich, dass diese meistens keine klare Unterscheidung der analysierten Klassen ermöglichte und somit überwachte Verfahren angewendet werden sollten. RF zeigte sich als sehr gut geeignet, um die Datensätze mit teilweise recht geringen Stichprobengrößen einzelner Klassen zu klassifizieren, da durch die interne Validierung in Kombination mit dem Verzicht auf eine Optimierung der Modellparameter ein unabhängiger Validierungsfehler erhalten werden konnte, ohne zusätzliche Daten zu benötigen. Dabei konnten Klassifizierungsgenauigkeiten über 70 %, meist zwischen 80-100 %, erreicht werden. Die Anwendung von surrogate minimal depth (SMD) zur Selektion relevanter Variablen und deren Beziehungsanalyse, zusammen mit der anschließenden Identifizierung mit Datenbankabgleich und LC-MS-MS Analyse, bzw. der zusätzlichen Analyse mit weiteren Methoden der NMR-Spektroskopie und spike-in-Experimenten erwies sich als ein leistungsfähiger Ansatz zur Untersuchung der Wirkung von Variablen in den RF Modellen und damit deren Beitrag zur erfolgreichen Klassifizierung von Lebensmitteln. Dabei konnten sowohl Signale der gleichen Metabolite als auch biologisch sinnvolle Beziehungen zwischen einzelnen Metaboliten aufgedeckt werden.
URL:	https://ediss.sub.uni-hamburg.de/handle/ediss/11925
URN:	urn:nbn:de:gbv:18-ediss-131371
Dokumenttyp:	Dissertation
Betreuer*in:	Seifert, Stephan
Enthalten in den Sammlungen:	Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:

Datei	Beschreibung	Prüfsumme	Größe	Format
Soeren Wenck - kumulative Dissertation.pdf		410b249353b9be3afaa0de7303dd6454	17.01 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Info

Seitenansichten

216

Letzte Woche

Letzten Monat

geprüft am 30.01.2026

Download(s)

79

Letzte Woche

Letzten Monat

geprüft am 30.01.2026

Werkzeuge

Google Scholar^TM

Prüfe

Dateien zu dieser Ressource:

Seitenansichten

Download(s)

Google ScholarTM

Google Scholar^TM