FAQ
© 2015 Staats- und Universitätsbibliothek
Hamburg, Carl von Ossietzky

Öffnungszeiten heute09.00 bis 24.00 Uhr alle Öffnungszeiten

Eingang zum Volltext in OPUS

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:gbv:18-56333
URL: http://ediss.sub.uni-hamburg.de/volltexte/2012/5633/


The Development of Nearly Deterministic Methods for Optimising Protein Geometry

Die Entwicklung nahezu deterministischer Methoden zur Optimierung der Protein Geometrie

Schenk, Gundolf

pdf-Format:
 Dokument 1.pdf (6.663 KB) 


SWD-Schlagwörter: Bioinformatik
Freie Schlagwörter (Englisch): protein modelling , statistical scoring , structure prediction , sequence optimisation , self-consistent mean field , simulated annealing
Basisklassifikation: 35.05 , 35.79 , 42.10 , 30.03 , 54.99
Institut: Informatik
DDC-Sachgruppe: Naturwissenschaften
Dokumentart: Dissertation
Hauptberichter: Torda, Andrew (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 28.03.2012
Erstellungsjahr: 2011
Publikationsdatum: 07.05.2012
Kurzfassung auf Englisch: Proteins are long-chained biomolecules with distinctive functions, that take a
major role in all living systems. The function is defined by the protein structure,
which in turn is determined via a complicated mechanism based on the amino acid
sequence. The exact procedure is not fully understood. However, knowing the
structure is important for the pharmaceutical industry as well as bioengineering
and nanotechnology. Unfortunately, determining it experimentally is slow and
expensive. There is also much interest in being able to adapt the sequence to
make stable industrial enzymes or to form molecules with specialised shapes, e.g.
for biosensors.
Predicting a structure computationally from the sequence is a classic problem
in theoretical biochemistry, that has not been solved yet. In this work the emphasis
lies in methodological improvements, that avoid common chemical preconceptions.
A general method for building numerical models is developed and
analysed here. It is based on a statistical correlation scheme of sequence and
structure using ideas from self-consistent mean field (SCMF) optimisation. The
procedure is successfully applied to the structure prediction and sequence design
problems without using a Boltzmann formalism.
The statistical model is based on a mixture distribution of bivariate Gaussian and
20-way Bernoulli distributions. The Gaussian distributions model the continuous
variables of the structure (dihedral angles) and the Bernoulli distributions capture
the sequence propensities. Instead of treating the protein as a statistical unit,
easier to handle fragments are used. Several approaches to recombine them are
discussed. But the fragments form local statistical units that do not necessarily
agree with each other. A method suited to deal with such inconsistencies is SCMF
optimisation.
Mean field or SCMF methods optimise a system by treating all solution states at
the same time. In existing approaches, an energy potential was introduced that
reflects the pairwise mean interaction between subsystems. The state weights
of the subsystems were converted alternately into energies and probabilities by
applying the Boltzmann relation repeatedly until a self-consistent state for the
whole system is reached. With the approach presented here it is possible to
optimise the state probabilities directly. The Boltzmann distribution is essentially
an unnecessary assumption. Therefore, the method is also applicable to systems
with an unknown ensemble.
Kurzfassung auf Deutsch: Proteine sind langkettige Biomoleküle mit charakteristischen Funktionen, die eine
Hauptrolle in allen Lebewesen einnehmen. Diese Funktion ergibt sich aus der Proteinstruktur,
die wiederum durch einen komplizierten Mechanismus basierend auf
der Aminosäuresequenz bestimmt wird. Der genaue Vorgang ist nicht vollständig
verstanden, aber die Strukturen zu kennen ist wichtig f¨ur die pharmazeutische
Industrie, sowie für die Bio- und Nanotechnologie. Leider ist es langsam und teuer
sie experimentell zu bestimmen. Hohes Interesse besteht auch daran die Sequenz
anzupassen um stabile industrielle Enzyme zu machen oder um Moleküle mit
speziellen Formen herzustellen, z.B. für Biosensoren.
Eine Struktur am Computer anhand der Sequenz vorherzusagen ist ein klassisches
Problem der theoretischen Biochemie, welches bisher nicht gelöst wurde. In
dieser Arbeit liegt der Schwerpunkt auf methodologischen Verbesserungen, die
verbreitete chemische Annahmen vermeiden. Eine allgemeine Methode zur Erstellung
numerischer Modelle wird hier entwickelt und analysiert. Sie basiert auf
einem statistischen Korrelationsmodell von Sequenz und Struktur und benutzt
Ideen aus der selbst-konsistenten Mittelfeld (SCMF) Optimierung. Das Verfahren
lässt sich erfolgreich auf die Strukturvorhersage- und Sequenzdesignprobleme
anwenden ohne eine Boltzmann Statistik anzunehmen.
Das statistische Modell basiert auf einer Mischverteilung von bivariaten Gaußverteilungen
und 20-wege Bernoulliverteilungen. Die Gaußverteilungen modellieren
die kontinuierlichen Variablen der Proteinstruktur (Torsionswinkel) und die
Bernoulliverteilungen erfassen die Sequenzpräferenzen. Anstelle ein Protein als
statistische Einheit zu verstehen, werden hier leichter zu verarbeitende Fragmente
betrachtet. Mehrere Ansätze sie wieder zusammenzusetzen werden diskutiert.
Aber die Fragmente bilden lokale statistische Einheiten, die nicht notwendiger
Weise miteinander übereinstimmen. Ein passendes Verfahren solche Inkonsistenzen
zu behandeln, ist die SCMF Optimierung.
Mittelfeld oder SCMF Verfahren betrachten das zu optimierende System in allen
Lösungszuständen gleichzeitig. In bestehenden Ansätzen wurde dazu ein Energiepotential
erstellt, das gemittelte, paarweise Wechselwirkungen zwischen Untersystemen
abbildet. Die Zustandsgewichte der Untersysteme wurden durch wiederholte
Anwendung des Boltzmannverh¨altnisses alternierend in Energien und
Wahrscheinlichkeiten umgerechnet bis ein selbst-konsistenter Zustand des gesamten
Systems erreicht wird. Mit dem hier präsentierten Ansatz ist es möglich die
Zustandswahrscheinlichkeiten direkt zu optimieren. Die Boltzmannverteilung ist
keine notwendige Annahme. Daher ist die Methode auch auf Systeme mit unbekanntem
Ensemble anwendbar.

Zugriffsstatistik

keine Statistikdaten vorhanden
Legende