FAQ
© 2015 Staats- und Universitätsbibliothek
Hamburg, Carl von Ossietzky

Öffnungszeiten heute09.00 bis 24.00 Uhr alle Öffnungszeiten

Eingang zum Volltext in OPUS

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:gbv:18-74196
URL: http://ediss.sub.uni-hamburg.de/volltexte/2015/7419/


Development of Methods to analyze and represent Small-Angle Scattering Data from Interacting and Flexible Biological Macromolecules

Entwicklung von Methoden zur Analyse und Darstellung der Kleinwinkelstreudaten von interagierenden und flexiblen biologischer Makromolekülen

Kachala, Mikhail

pdf-Format:
 Dokument 1.pdf (4.601 KB) 


SWD-Schlagwörter: Kleinwinkelstreuung , Molekularbiologie , Datenanalyse
Freie Schlagwörter (Deutsch): Strukturbiologie
Freie Schlagwörter (Englisch): Small-angle scattering , structural biology , data analysis , structural bioinformatics , molecular biology
Basisklassifikation: 42.13 , 42.12
Institut: Chemie
DDC-Sachgruppe: Naturwissenschaften
Dokumentart: Dissertation
Hauptberichter: Svergun, Dmitri (Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 19.06.2015
Erstellungsjahr: 2015
Publikationsdatum: 28.07.2015
Kurzfassung auf Englisch: Small Angle Scattering (SAS) is a widely applied technique in structural biology and the number of its applications is rapidly increasing due to the advances in data collection and analysis methods. Simultaneously the systems that are characterized using this technique are becoming more diverse and complex and the amount of the experimental data is growing. This leads to the necessity for further development of advanced methods for data analysis and representation. In this thesis different aspects of SAS data processing and analysis as well as applications to various biological problems are covered. The first project is the formulation of the extension of a standard SAS archiving file definition in order to accommodate various type of data, required during SAS data analysis from a scattering curve to the final models. The second project is focused on the complex interacting systems, which are difficult for analysis, yet are important for a number of applications. The third project studies the capabilities of Ensemble Optimization Method, which is widely used in analysis of structural properties of intrinsically disordered proteins (IDPs).
Increasing number of SAS users and experiments caused an upsurge in the amount of experimental data and models based on it and has led to an introduction of the SAS databases. Currently there is no possibility to exchange information between the databases resulting in duplication and incompatibility of entries, limiting opportunities for the data driven research and creating others obstacles for the SAS data users. In this work, a solution based on the use of a widely adopted Crystallographic Information Format (CIF), is developed to resolve these issues and provide the universal exchange format for the community. An extension of a tailored sasCIF format was designed, which comprehensively describes the necessary experimental information including relevant metadata for the SAS data analysis process and for the deposition into a database. Processing tools for these files were developed and are available as standalone programs and integrated to the SASBDB database allowing export and import of the data entries as sasCIF files. The update of sasCIF and development of tools to process file of this format is an important step to standardize the way SAS data is presented and exchanged. Together with the introduction of SAS databases, it makes the method more accessible for users and promotes its application in the structural biology community.
Interparticle interactions are not rare in solution scattering and their presence makes conventional approaches of SAS data analysis not applicable. Scattering contributions arising from the interactions between particles can affect scattering curves even at relatively low protein concentrations making the determination of the distance distribution function, essential for SAS data analysis, complicated. To separate the scattering component caused by interparticle scattering (structure factor) from the scattering data containing information about the shape of the particles (form factor) a Monte-Carlo based approach was developed. The underlying idea is a simultaneous reconstruction of the structure factor and the distance distribution function by a global procedure involving random generation of sets of parameters defining these functions. The optimization of the parameters is driven by the fit to the experimental data and boundary conditions. The approach was tested on both synthetically generated and experimental SAS data and the obtained results show that it can quantify and reconstruct structure factor contributions and provide distance distribution functions in both cases.
Intrinsically disordered proteins and proteins are of great interest in structural biology today and SAS is widely used for study such molecules because of the technique ability to characterize unfolded structures in solution. The aim of the third project was to analyze the capabilities of Ensemble Optimization Method (EOM) – one of the most widely used methods for analysis of SAS data for disordered proteins. Although the current version of EOM 2.0 has been released, there were several aspects of its application to be investigated. Conducted tests have shown that EOM 2.0 is able to correctly represent properties of the unfolded proteins, resolve distinct conformations as well subpopulations of flexible structures and robust to the noise in scattering curves.
Besides data analysis methods development, several applications of SAS to biological problems are presented in this thesis. In the course of these projects, the entire palette of data analysis methods from basic data reduction to advanced techniques such as rigid body or multiphase ab initio modelling was applied. The results of collaborative projects with EMBL the beamline users become a part of the studies revealing structure and properties of the various proteins.
Kurzfassung auf Deutsch: Kleinwinkelstreuung (auf Englisch; small angle scattering, SAS) ist eine häufig angewandte Technik in der Strukturbiologie. Aufgrund des Fortschrittes in der Datenerfassung sowie in den Analysemethoden steigt die Anzahl der möglichen Anwendungen rapide an. Gleichzeitig sind die Systeme, die mit dieser Technik charakterisiert werden können, immer vielfältiger und komplexer, so dass die Menge an experimentellen Daten zunimmt. Dies hat zur Folge, dass die weitere Entwicklung von fortschrittlichen Methoden der Datenanalyse und -darstellung notwendig wird.
Die steigende Zahl von SAS Benutzern und Experimenten führte zu einer Zunahme von experimentellen Daten und Modelle, die auf SAS basieren. Dies machte die Einführung von SAS-Datenbanken erforderlich. Derzeit gibt es jedoch keine Möglichkeit, Informationen zwischen den einzelnen Datenbanken auszutauschen, was zu Mehrarbeit und Inkompatibilität der Einträge führt sowie zur Einschränkung der Möglichkeiten für datenorientierte Forschung als auch die Entstehung von weiteren Hindernissen für die SAS-Datennutzer. In dieser Arbeit wird eine Lösung beschrieben, die auf die Verwendung des weit verbreiteten Crystallographic Information Format (CIF) beruht, um diese Probleme zu lösen und um ein universelles Austauschformat für SAS Nutzer zu schaffen. Eine Erweiterung eines maßgeschneiderten sasCIF Formates wurde für die umfassende Beschreibung der erforderlichen experimentellen Informationen optimiert, einschließlich der relevanten Metadaten für die SAS-Datenanalyseprozesse sowie die Eintragung in einer Datenbank. Bearbeitungswerkzeuge wurden für diese Dateien entwickelt und als Standalone-Programme zur Verfügung getellt. Diese können in die SASBDB Datenbank integriert werden, was den Export und Import der Dateneinträge als sasCIF Dateien ermöglicht. Die Aktualisierung des sasCIF Formates und die Entwicklung von Werkzeugen, um dieses Dateiformat zu verarbeiten, sind wichtige Schritte auf den Weg zur Präsentation und dem Austausch von SAS Daten. Zusammen mit der Einführung von SAS Datenbanken wird der Umgang mit dieser Methode für die Nutzer erleichtert und deren Anwendung in der Gemeinschaft der Strukturbiologen gefördert.
Interaktionen zwischen mehreren Partikeln in Beugungsversuch mit biologischer Probenlösung häufig beobachtet und erschwert die SAS Datenanalyse, da viele der herkömmlichen Ansätzen in solchen Fällen nicht anwendbar sind. Streusignale, die von diesen Wechselwirkungen zwischen den Teilchen stammen, können die Streukurven schon bei relativ niedrigen Proteinkonzentrationen beeinflussen, was die Bestimmung der Verteilungsfunktion der Abstände erschwert, die jedoch für die SAS-Datenanalyse entscheidend sind. Um die Streukomponente, die von solchen inter-partikulären Streuung (Strukturfaktor) stammt von den Streudaten mit Informationen über die Form der Partikel (Formfaktor) zu unterscheiden, wurde ein Monte-Carlo-basierter Ansatz entwickelt. Die zugrunde liegende Idee, ist eine gleichzeitige Rekonstruktion des Strukturfaktors und der Verteilungsfunktion der Abstände durch ein globales Verfahren, welches bestimmte Sätze von Parametern für diese Funktionen zufällig erzeugt. Die Optimierung der Parameter wird durch die Anpassung an die experimentellen Daten und Randbedingungen angetrieben. Der Ansatz wurde an künstlich generieten sowie experimentellen SAS Daten getestet. Die Ergebnisse zeigen, dass eine Quantifizierung möglich ist und Beiträge für die Strukturfaktoren rekonstruiert werden können. Zudem konnten in beiden Fällen Verteilungsfunktionen der Abstände ermittelt werden.
Intrinsisch ungeordnete Proteinen stellen heutzutage in der Strukturbiologie eine besondere Herausforderung dar. Dabei wird SAS für die Studie solcher Moleküle sehr oft eingesetzt, da diese Technik die Charakterisierung von entfalteten Strukturen in Lösung erlaubt. Das Ziel des dritten Projekts war es, die Möglichkeiten der „Ensemble Optimierung Methode“ (EOM) zu analysieren, welches das am weitesten verbreitete Verfahren zur Analyse von SAS Daten von ungeordneten Proteinen ist. Obwohl die aktuelle Version des EOM 2.0 freigegeben wurde, benötigten mehrere Aspekte dieser Anwendung detaillierte Untersuchungen. Durchgeführte Tests haben gezeigt, dass EOM 2.0 in der Lage ist, richtige Eigenschaften der ungefalteten Proteinen darzustellen, Konformationen sowie Subpopulationen von flexiblen Strukturen zu lösen und verlässlich in Bezug auf das Rauschen der Streukurven ist.
Neben diesen Methoden der Datenanalyseentwicklung sind mehrere Anwendungen von SAS bezüglich biologischen Fragestellungen in dieser Arbeit behandelt. Im Rahmen dieser Projekte wurde die gesamte Palette der Methoden der Datenanalyse von Grunddatenreduktion zu fortgeschrittenen Techniken angewendet. Die Ergebnisse der Kooperationsprojekte mit EMBL-Beamline-Benutzern sind bezüglich der Analyse der drei-dimensionalen Struktur und den Eigenschaften der verschiedenen Proteine dargestellt.

Zugriffsstatistik

keine Statistikdaten vorhanden
Legende