Methods for Processing and Analyzing Protein Structure Collections for Data-Driven Structure-Property Relationship Modeling

Sieg, Jochen

Titel:	Methods for Processing and Analyzing Protein Structure Collections for Data-Driven Structure-Property Relationship Modeling
Sprache:	Englisch
Autor*in:	Sieg, Jochen
Schlagwörter:	protein property prediction; protein ligand interaction prediction; mutation prediction; virtual screening
GND-Schlagwörter:	Computational chemistryGND BioinformatikGND Computational chemistryGND Maschinelles LernenGND AlgorithmusGND ArzneimitteldesignGND ProteindesignGND
Erscheinungsdatum:	2023-12
Tag der mündlichen Prüfung:	2024-03-22
Zusammenfassung:	Effective prediction of the properties of biomolecules could answer crucial research questions: Which biomolecule would be an effective drug for a particular disease? Will a mutation in a patient be pathologic? Which biomolecule can break down materials like plastics? The structure-property relationship paradigm is a central concept describing that the biomolecule’s structure determines its properties. Especially for proteins, the so-called building blocks of life, high-quality three-dimensional structure data has increased tremendously in the last years. Data-driven prediction methods, like machine learning, are a promising choice to predict properties from the structure data. However, such data-driven methods are subject to data limitations and need protein representations adequate for proteins’ nature and properties. In this work, methods were developed to analyze and process data sets for improving data-driven property prediction. First, a machine learning-based interpretability method was developed to analyze predictive features on a data set for a given property-prediction task. The technique was first applied to analyze unbiasing strategies in benchmark data sets for structure-based virtual screening in drug discovery. Then, it was extended with the Shapley Values framework and used to interpret stabilizing protein adaptations for protein engineering. Besides important domain-specific trends, the analyses demonstrated that data limitations are a profound bottleneck in structure-property modeling. Obtaining more data is often not possible. An effective alternative can be to process the existing data to derive better protein representations for the task at hand. Two processing methods that describe relevant protein variabilities using structure ensembles were developed. The first method enumerates alternative conformations from AltLoc annotations to represent proteins’ inherent flexibility. The second method constructs structure ensembles through the similarity of residue 3D micro-environments to represent the structural changes upon single mutations. Both methods can be applied to entire protein structure collections and provide essential data and an improved representation of proteins for various property-prediction tasks, method development, and molecular modeling. Die effektive Vorhersage der Eigenschaften von Biomolekülen könnte entscheidende Forschungsfragen beantworten: Welches Biomolekül wäre ein wirksames Arzneimittel für eine bestimmte Krankheit? Wird eine Mutation bei einem Patienten pathologisch sein? Welches Biomolekül kann Materialien wie Kunststoffe abbauen? Das Paradigma der Struktur-Eigenschafts-Beziehung ist ein zentrales Konzept, welches beschreibt, dass die Struktur eines Biomoleküls seine Eigenschaften bestimmt. Insbesondere für Proteine, die sogenannten Bausteine des Lebens, hat die Zahl der hochwertigen dreidimensionalen Strukturdaten in den letzten Jahren enorm zugenommen. Datengetriebene Vorhersagemethoden, wie maschinelles Lernen, sind eine viel versprechende Wahl, um Eigenschaften mittels der Strukturdaten vorherzusagen. Solche datengetriebenen Methoden unterliegen jedoch Datenlimitierungen und benötigen Proteinrepräsentationen, die der Natur und den Eigenschaften der Proteine angemessen sind. In dieser Arbeit wurden Methoden zur Analyse und Verarbeitung von Datensätzen entwickelt, um datengetriebene Eigenschaftsvorhersagen zu verbessern. Zunächst wurde eine auf maschinellem Lernen basierende Interpretierbarkeitsmethode entwickelt, um prädiktive Feature in einem Datensatz für bestimmte Eigenschaftsvorhersagen zu analysieren. Die Technik wurde zuerst zur Analyse von Unbiasing-Strategien in Benchmark-Datensätzen für strukturbasiertes virtuelles Screening bei der Arzneimittelentwicklung eingesetzt. Daraufhin wurde sie mit dem Shapley Value System erweitert und verwendet, um stabilisierende Proteinanpassungen für das Protein-Engineering zu interpretieren. Neben wichtigen domänenspezifischen Trends haben die Analysen gezeigt, dass Datenlimitierungen ein tiefgreifender Engpass in der Modellierung von Struktur-Eigenschafts-Beziehungen sind. Mehr Daten zu aquirieren ist oft nicht möglich. Eine effektive Alternative kann die Prozessierung von existierenden Daten sein, um bessere Proteinrepräsentationen für die jeweilige Aufgabe zu erhalten. Es wurden zwei Prozessierungsmethoden entwickelt, welche relevante Proteinvariabilitäten mittels Strukturensembles beschreiben. Die erste Methode enumeriert alternative Konformationen anhand von AltLoc-Annotationen, um die Proteinflexibilität zu repräsentieren. Die zweite Methode konstruiert Strukturensembles mittels der Ähnlichkeit von 3D MikroUmgebungen von Aminosäureresten, um die strukturellen Änderungen durch Einzelmutationen zu repräsentieren. Beide Methoden können auf gesamte Proteinstruktursammlungen angewendet werden und essentielle Daten und verbesserte Repräsentationen von Proteinen für eine Vielzahl von Eigenschaftsvorhersagen, Methodenentwicklung und molekulares Modeling bereitstellen.
URL:	https://ediss.sub.uni-hamburg.de/handle/ediss/10955
URN:	urn:nbn:de:gbv:18-ediss-118411
Dokumenttyp:	Dissertation
Betreuer*in:	Rarey, Matthias
Enthalten in den Sammlungen:	Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:

Datei	Beschreibung	Prüfsumme	Größe	Format
Dissertation.pdf		158fbf64b422af58cb02080115c1a924	35.92 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Info

Seitenansichten

419

Letzte Woche

Letzten Monat

geprüft am 18.06.2026

Download(s)

428

Letzte Woche

Letzten Monat

geprüft am 18.06.2026

Werkzeuge

Google Scholar^TM

Prüfe

Dateien zu dieser Ressource:

Seitenansichten

Download(s)

Google ScholarTM

Google Scholar^TM