Titel: Methods for Processing and Analyzing Protein Structure Collections for Data-Driven Structure-Property Relationship Modeling
Sprache: Englisch
Autor*in: Sieg, Jochen
Schlagwörter: protein property prediction; protein ligand interaction prediction; mutation prediction; virtual screening
GND-Schlagwörter: Computational chemistryGND
BioinformatikGND
Computational chemistryGND
Maschinelles LernenGND
AlgorithmusGND
ArzneimitteldesignGND
ProteindesignGND
Erscheinungsdatum: 2023-12
Tag der mündlichen Prüfung: 2024-03-22
Zusammenfassung: 
Effective prediction of the properties of biomolecules could answer crucial research questions: Which biomolecule would be an effective drug for a particular disease? Will a mutation in a patient be pathologic? Which biomolecule can break down materials like plastics?
The structure-property relationship paradigm is a central concept describing that the biomolecule’s structure determines its properties. Especially for proteins, the so-called building blocks of life, high-quality three-dimensional structure data has increased tremendously in the last years. Data-driven prediction methods, like machine learning, are a promising choice to predict properties from the structure data. However, such data-driven methods are subject to data limitations and need protein representations adequate for proteins’ nature and properties. In this work, methods were developed to analyze and process data sets for improving data-driven property prediction.
First, a machine learning-based interpretability method was developed to analyze predictive features on a data set for a given property-prediction task. The technique was first applied to analyze unbiasing strategies in benchmark data sets for structure-based virtual screening in drug discovery. Then, it was extended with the Shapley Values framework and used to interpret stabilizing protein adaptations for protein engineering. Besides important domain-specific trends, the analyses demonstrated that data limitations are a profound bottleneck in structure-property modeling. Obtaining more data is often not possible. An effective alternative can be to process the existing data to derive better protein representations for the task at hand. Two processing methods that describe relevant protein variabilities using structure ensembles were developed. The first method enumerates alternative conformations from AltLoc annotations to represent proteins’ inherent flexibility. The second method constructs structure ensembles through the similarity of residue 3D micro-environments to represent the structural changes upon single mutations. Both methods can be applied to entire protein structure collections and provide essential data and an improved representation of proteins for various property-prediction tasks, method development, and molecular modeling.

Die effektive Vorhersage der Eigenschaften von Biomolekülen könnte entscheidende Forschungsfragen beantworten: Welches Biomolekül wäre ein wirksames Arzneimittel für eine bestimmte Krankheit? Wird eine Mutation bei einem Patienten pathologisch sein? Welches Biomolekül kann Materialien wie Kunststoffe abbauen?
Das Paradigma der Struktur-Eigenschafts-Beziehung ist ein zentrales Konzept, welches beschreibt, dass die Struktur eines Biomoleküls seine Eigenschaften bestimmt. Insbesondere für Proteine, die sogenannten Bausteine des Lebens, hat die Zahl der hochwertigen dreidimensionalen Strukturdaten in den letzten Jahren enorm zugenommen. Datengetriebene Vorhersagemethoden, wie maschinelles Lernen, sind eine viel versprechende Wahl, um Eigenschaften mittels der Strukturdaten vorherzusagen. Solche datengetriebenen Methoden unterliegen jedoch Datenlimitierungen und benötigen Proteinrepräsentationen, die der Natur und den Eigenschaften der Proteine angemessen sind. In dieser Arbeit wurden Methoden zur Analyse und Verarbeitung von Datensätzen entwickelt, um datengetriebene Eigenschaftsvorhersagen zu verbessern.
Zunächst wurde eine auf maschinellem Lernen basierende Interpretierbarkeitsmethode entwickelt, um prädiktive Feature in einem Datensatz für bestimmte Eigenschaftsvorhersagen zu analysieren. Die Technik wurde zuerst zur Analyse von Unbiasing-Strategien in Benchmark-Datensätzen für strukturbasiertes virtuelles Screening bei der Arzneimittelentwicklung eingesetzt. Daraufhin wurde sie mit dem Shapley Value System erweitert und verwendet, um stabilisierende Proteinanpassungen für das Protein-Engineering zu interpretieren. Neben wichtigen domänenspezifischen Trends haben die Analysen gezeigt, dass Datenlimitierungen ein tiefgreifender Engpass in der Modellierung von Struktur-Eigenschafts-Beziehungen sind. Mehr Daten zu aquirieren ist oft nicht möglich. Eine effektive Alternative kann die Prozessierung von existierenden Daten sein, um bessere Proteinrepräsentationen für die jeweilige Aufgabe zu erhalten. Es wurden zwei Prozessierungsmethoden entwickelt, welche relevante Proteinvariabilitäten mittels Strukturensembles beschreiben. Die erste Methode enumeriert alternative Konformationen anhand von AltLoc-Annotationen, um die Proteinflexibilität zu repräsentieren. Die zweite Methode konstruiert Strukturensembles mittels der Ähnlichkeit von 3D MikroUmgebungen von Aminosäureresten, um die strukturellen Änderungen durch Einzelmutationen zu repräsentieren. Beide Methoden können auf gesamte Proteinstruktursammlungen angewendet werden und essentielle Daten und verbesserte Repräsentationen von Proteinen für eine Vielzahl von Eigenschaftsvorhersagen, Methodenentwicklung und molekulares Modeling bereitstellen.
URL: https://ediss.sub.uni-hamburg.de/handle/ediss/10955
URN: urn:nbn:de:gbv:18-ediss-118411
Dokumenttyp: Dissertation
Betreuer*in: Rarey, Matthias
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:
Datei Prüfsumme GrößeFormat  
Dissertation.pdf158fbf64b422af58cb02080115c1a92435.92 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Info

Seitenansichten

Letzte Woche
Letzten Monat
geprüft am null

Download(s)

Letzte Woche
Letzten Monat
geprüft am null
Werkzeuge

Google ScholarTM

Prüfe