DC ElementWertSprache
dc.contributor.advisorRarey, Matthias-
dc.contributor.authorSieg, Jochen-
dc.date.accessioned2024-06-11T11:28:04Z-
dc.date.available2024-06-11T11:28:04Z-
dc.date.issued2023-12-
dc.identifier.urihttps://ediss.sub.uni-hamburg.de/handle/ediss/10955-
dc.description.abstractEffective prediction of the properties of biomolecules could answer crucial research questions: Which biomolecule would be an effective drug for a particular disease? Will a mutation in a patient be pathologic? Which biomolecule can break down materials like plastics? The structure-property relationship paradigm is a central concept describing that the biomolecule’s structure determines its properties. Especially for proteins, the so-called building blocks of life, high-quality three-dimensional structure data has increased tremendously in the last years. Data-driven prediction methods, like machine learning, are a promising choice to predict properties from the structure data. However, such data-driven methods are subject to data limitations and need protein representations adequate for proteins’ nature and properties. In this work, methods were developed to analyze and process data sets for improving data-driven property prediction. First, a machine learning-based interpretability method was developed to analyze predictive features on a data set for a given property-prediction task. The technique was first applied to analyze unbiasing strategies in benchmark data sets for structure-based virtual screening in drug discovery. Then, it was extended with the Shapley Values framework and used to interpret stabilizing protein adaptations for protein engineering. Besides important domain-specific trends, the analyses demonstrated that data limitations are a profound bottleneck in structure-property modeling. Obtaining more data is often not possible. An effective alternative can be to process the existing data to derive better protein representations for the task at hand. Two processing methods that describe relevant protein variabilities using structure ensembles were developed. The first method enumerates alternative conformations from AltLoc annotations to represent proteins’ inherent flexibility. The second method constructs structure ensembles through the similarity of residue 3D micro-environments to represent the structural changes upon single mutations. Both methods can be applied to entire protein structure collections and provide essential data and an improved representation of proteins for various property-prediction tasks, method development, and molecular modeling.en
dc.description.abstractDie effektive Vorhersage der Eigenschaften von Biomolekülen könnte entscheidende Forschungsfragen beantworten: Welches Biomolekül wäre ein wirksames Arzneimittel für eine bestimmte Krankheit? Wird eine Mutation bei einem Patienten pathologisch sein? Welches Biomolekül kann Materialien wie Kunststoffe abbauen? Das Paradigma der Struktur-Eigenschafts-Beziehung ist ein zentrales Konzept, welches beschreibt, dass die Struktur eines Biomoleküls seine Eigenschaften bestimmt. Insbesondere für Proteine, die sogenannten Bausteine des Lebens, hat die Zahl der hochwertigen dreidimensionalen Strukturdaten in den letzten Jahren enorm zugenommen. Datengetriebene Vorhersagemethoden, wie maschinelles Lernen, sind eine viel versprechende Wahl, um Eigenschaften mittels der Strukturdaten vorherzusagen. Solche datengetriebenen Methoden unterliegen jedoch Datenlimitierungen und benötigen Proteinrepräsentationen, die der Natur und den Eigenschaften der Proteine angemessen sind. In dieser Arbeit wurden Methoden zur Analyse und Verarbeitung von Datensätzen entwickelt, um datengetriebene Eigenschaftsvorhersagen zu verbessern. Zunächst wurde eine auf maschinellem Lernen basierende Interpretierbarkeitsmethode entwickelt, um prädiktive Feature in einem Datensatz für bestimmte Eigenschaftsvorhersagen zu analysieren. Die Technik wurde zuerst zur Analyse von Unbiasing-Strategien in Benchmark-Datensätzen für strukturbasiertes virtuelles Screening bei der Arzneimittelentwicklung eingesetzt. Daraufhin wurde sie mit dem Shapley Value System erweitert und verwendet, um stabilisierende Proteinanpassungen für das Protein-Engineering zu interpretieren. Neben wichtigen domänenspezifischen Trends haben die Analysen gezeigt, dass Datenlimitierungen ein tiefgreifender Engpass in der Modellierung von Struktur-Eigenschafts-Beziehungen sind. Mehr Daten zu aquirieren ist oft nicht möglich. Eine effektive Alternative kann die Prozessierung von existierenden Daten sein, um bessere Proteinrepräsentationen für die jeweilige Aufgabe zu erhalten. Es wurden zwei Prozessierungsmethoden entwickelt, welche relevante Proteinvariabilitäten mittels Strukturensembles beschreiben. Die erste Methode enumeriert alternative Konformationen anhand von AltLoc-Annotationen, um die Proteinflexibilität zu repräsentieren. Die zweite Methode konstruiert Strukturensembles mittels der Ähnlichkeit von 3D MikroUmgebungen von Aminosäureresten, um die strukturellen Änderungen durch Einzelmutationen zu repräsentieren. Beide Methoden können auf gesamte Proteinstruktursammlungen angewendet werden und essentielle Daten und verbesserte Repräsentationen von Proteinen für eine Vielzahl von Eigenschaftsvorhersagen, Methodenentwicklung und molekulares Modeling bereitstellen.de
dc.language.isoende_DE
dc.publisherStaats- und Universitätsbibliothek Hamburg Carl von Ossietzkyde
dc.relation.haspartdoi:10.1021/acs.jcim.8b00712de_DE
dc.relation.haspartdoi:10.1002/prot.26337de_DE
dc.relation.haspartdoi:10.1021/acs.jcim.3c00100de_DE
dc.relation.haspartdoi:10.1093/bib/bbad357de_DE
dc.relation.haspartdoi:10.1093/nar/gkac305de_DE
dc.rightshttp://purl.org/coar/access_right/c_abf2de_DE
dc.subjectprotein property predictionen
dc.subjectprotein ligand interaction predictionen
dc.subjectmutation predictionen
dc.subjectvirtual screeningen
dc.subject.ddc004: Informatikde_DE
dc.titleMethods for Processing and Analyzing Protein Structure Collections for Data-Driven Structure-Property Relationship Modelingen
dc.typedoctoralThesisen
dcterms.dateAccepted2024-03-22-
dc.rights.cchttps://creativecommons.org/licenses/by/4.0/de_DE
dc.rights.rshttp://rightsstatements.org/vocab/InC/1.0/-
dc.subject.gndComputational chemistryde_DE
dc.subject.gndBioinformatikde_DE
dc.subject.gndComputational chemistryde_DE
dc.subject.gndMaschinelles Lernende_DE
dc.subject.gndAlgorithmusde_DE
dc.subject.gndArzneimitteldesignde_DE
dc.subject.gndProteindesignde_DE
dc.type.casraiDissertation-
dc.type.dinidoctoralThesis-
dc.type.driverdoctoralThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersionde_DE
dc.type.thesisdoctoralThesisde_DE
tuhh.type.opusDissertation-
thesis.grantor.departmentInformatikde_DE
thesis.grantor.placeHamburg-
thesis.grantor.universityOrInstitutionUniversität Hamburgde_DE
dcterms.DCMITypeText-
dc.identifier.urnurn:nbn:de:gbv:18-ediss-118411-
item.fulltextWith Fulltext-
item.languageiso639-1other-
item.creatorOrcidSieg, Jochen-
item.creatorGNDSieg, Jochen-
item.advisorGNDRarey, Matthias-
item.grantfulltextopen-
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen
Dateien zu dieser Ressource:
Datei Beschreibung Prüfsumme GrößeFormat  
Dissertation.pdf158fbf64b422af58cb02080115c1a92435.92 MBAdobe PDFÖffnen/Anzeigen
Zur Kurzanzeige

Info

Seitenansichten

92
Letzte Woche
Letzten Monat
geprüft am 22.11.2024

Download(s)

135
Letzte Woche
Letzten Monat
geprüft am 22.11.2024
Werkzeuge

Google ScholarTM

Prüfe