Better Models in Macromolecular Crystal Structure Determination

Wiegels, Tim

Titel:	Better Models in Macromolecular Crystal Structure Determination
Sonstige Titel:	Bessere Modelle in Makromolekularer Kristallstrukturanalyse
Sprache:	Englisch
Autor*in:	Wiegels, Tim
Schlagwörter:	Roentgenbeugung; Data Mining; automatische Proteinmodellierung; Strukturanalyse; strukturelle Bioinformatik; X-ray crystallography; Data Mining; automatic protein modelling; structure determination; structural bioinformatics
Erscheinungsdatum:	2012
Tag der mündlichen Prüfung:	2012-09-07
Zusammenfassung:	Determining the three-dimensional structures of large molecular assemblies is a challenging task in macromolecular X-ray crystallography (MX). Crystals of such molecules rarely diffract to high resolution. Often only noisy and inaccurate electron density maps can be obtained. Computational approaches for model building in MX have historically been focused on high-resolution data. Thus their application to data extending to lower than 3.0 Å resolution is limited and typically results in incomplete and highly fragmented models. Hence, robust and fast methods that improve the completeness and the accuracy of models obtained from automated crystallographic model building routines are urgently needed, particularly to aid solution of low-resolution MX structures. In this thesis, this challenge has been addressed by the development of two approaches that use intrinsic information, which is already encoded in the model, and complementary information derived from structural databases. The first one exploits the fact that a significant proportion of crystal structures contain multiple copies of subunits or their assemblies in the asymmetric unit; based on the current content of the Protein Databank, more than 50% of structures contain such non-crystallographic symmetry (NCS). It was noticed that during automated model building with ARP/ wARP, particularly in its initial steps, NCS-related parts of the structure are often built to different extents. The reasons for that are manifold and include limited resolution of the data and poor initial phases. However, this also has a beneficial side effect. Each NCS-related copy can provide information that is not present in another one; combining this (intrinsic) information helps to advance the model building process and significantly increases the overall completeness of built structures, especially with low-resolution data. Often, the density between two built chain fragments is too poorly defined to be interpreted as part of a protein chain. Especially in the early stages of model building, this is the case for not only loops but also helices or strands. A method is introduced to fill these structural gaps with structural fragments from the PDB. It makes use of secondary structure predictions and statistical descriptions of the relationship between gap size and and the number of missing residues to identify connectable chains fragments. The two novel methods that were developed in this thesis have been integrated into the ARP/ wARP protein model building; the Protein NCS-based Structure (PNS) extender for using automatically detected NCS-relations for model extension and restraints in structure refinement and FittOFF (Fitting OF Fragments) for identifying structural gaps and filling them with fragments from the PDB. The application of both methods during model building with ARP/ wARP provides a significant improvement. In the best case for the PNSextender, model completeness improves from 56% to 72% at 3.2 Å resolution. Additionally, more side chains are docked in sequence, and the length of the built fragments increases. For FittOFF, a noticeable increase in model completeness of up to 12% and doubling of the average fragment length was observed. Das Ziel der Makromolekularen Röntgenbeugung (MX) ist die Bestimmung der dreidimensionalen Strukturen von Molekülen. Eine besondere Herausforderung stellt die Strukturbestimmung von grossen Makromolekülen und deren Komplexen dar, welche bislang oft gar nicht möglich oder mit grossem Aufwand verbunden ist. Das Hauptproblem liegt darin, dass für die Kristalle solcher Moleküle während eines Diffraktionsexperimentes nur selten Daten mit hoher Auflösung gemessen werden können. Das Ergebnis sind oft verrauschte und ungenaue Elektronendichtekarten. Ein weiteres Problemliegt darin, dass die bislang entwickelte Software für automatische Modellierung in MX weitgehend auf hochaufgelöste Daten ausgelegt ist. Es ist zwar möglich diese auf niedrigaufgelöste Daten (unter 3.0 Å) anzuwenden, die resultierenden Strukturmodelle sind jedoch meist unvollständig und stark fragmentiert. Es besteht also der dringende Bedarf für robuste und effiziente Methoden, welche die Vollständigkeit und Genauigkeit von niedrigaufgelösten Strukturmodellen verbessern. In dieser Dissertation werden zwei Methoden vorgestellt, welche die Qualität von Strukturmodellen basierend auf niedrigaufgelösten Daten deutlich verbessern. Hierfür werden vorhandene Informationen, die entweder intrinsisch, also in den zu analysierenden Daten bereits enthalten, oder komplementär, aus Datenbanken gewonnen, genutzt. Die erste Methode basiert darauf, dass viele Makromoleküle multiple Kopien ihrer Teilstrukturen in der asymmetrischen Einheit aufweisen. Im Jahr 2012 beinhalteten mehr als 50% aller Kristallstrukturen in der Proteindatenbank (PDB) jene sogenannte Nichtkristalline Symmetrie (NCS). Bei der automatischen Modellierung in ARP/ wARP werden diese NCS-Teilstrukturen selten im gleichen Umfang rekonstruiert, insbesondere in den anfänglichen Zyklen. Die Gründe hierfür können von limitierter Auflösung bis hin zu schlechten initialen Phasen reichen. Die Tatsache, dass NCS-Teilstrukturen zu unterschiedlichen Graden modelliert werden, hat den Vorteil, dass jede dieser Teilstrukturen Informationen beinhalten kann die in einer anderen fehlen. Die Kombination dieser (intrinsischen) Informationen führt zu einer Verbesserung der Vollständigkeit der resultierenden Strukturmodelle, besonders wenn Daten mit niedriger Auflösung zu Grunde liegen. Die Fragmentierung von Strukturmodellen, basierend auf niedrigaufgelösten Daten, beruht auf der oft nicht ausreichenden Qualität der Elektronendichte um Peptide eindeutig zu erkennen, und somit eine kontinuierliche Proteinkette aufbauen zu können. Insbesondere zu Beginn der automatischen Modellierung betrifft dies nicht nur Loops, sondern auch Helices oder Faltblätter. In der zweiten Methode, die im Zuge dieser Dissertation vorgestellt wird, werden diese strukturellen Lücken mit Strukturfragmenten aus der PDB aufgefüllt. Hierfür ist eine Verbindung der richtigen Fragmente essentiell. Zur Identifikation der zu verbindenden Ankergruppen werden hier zwei Ansätze kombinert: Zum einen das Docken von Fragmenten in eine Sekundärstrukturvorhersage und zum anderen statistische Relationen zwischen der Distanz der ankernden Fragmenten zueinander und der Anzahl der fehlenden Residuen in einer strukturellen Lücke. Die beiden im Rahmen dieser Dissertation entwickelten, neuen Methoden wurden in das ARP/ wARP Proteinmodellierungsprotokoll integriert. Der Protein NCS-basierte Struktur (PNS) Extender, identifiziert NCS-Relationen automatisch und nutzt diese für die Komplettierung von Strukturmodellen und als Restraints für das Strukturrefinement. FittOFF (Fitten von Fragmenten) identifiziert strukturelle Lücken in unvollständigen Strukturmodellen und füllt diese mit Strukturfragmenten aus der PDB auf. Durch die Integration beider Methoden in die ARP/ wARP Proteinmodellierung werden signifikante Verbesserungen erzielt. Der PNSextender ist in der Lage die Vollständigkeit von Strukturmodellen bei Auflösungen um 3.2 Å von 56% auf 72% zu verbessern. Des weiteren sind die resultierenden Strukturmodelle weniger fragmentiert und deutlich mehr Seitenketten werden erkannt. Mit FittOFF wird die Vollständigkeit von Strukturmodellen um bis zu 12% erhöht und die durchschnitte Länge aller Fragmente verdoppelt.
URL:	https://ediss.sub.uni-hamburg.de/handle/ediss/4620
URN:	urn:nbn:de:gbv:18-58394
Dokumenttyp:	Dissertation
Betreuer*in:	Torda, Andrew E. (Prof. Dr.)
Enthalten in den Sammlungen:	Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:

Datei	Beschreibung	Prüfsumme	Größe	Format
Dissertation.pdf		156cb2a4b67e7b93f31cd7d21dd53ec9	1.78 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

380

Letzte Woche

Letzten Monat

geprüft am 18.04.2024

Download(s)

63

Letzte Woche

Letzten Monat

geprüft am 18.04.2024

Werkzeuge

Google Scholar^TM

Prüfe

Dateien zu dieser Ressource:

Seitenansichten

Download(s)

Google ScholarTM

Google Scholar^TM