FAQ
© 2019 Staats- und Universitätsbibliothek
Hamburg, Carl von Ossietzky

Öffnungszeiten heute09.00 bis 24.00 Uhr alle Öffnungszeiten

Eingang zum Volltext in OPUS

Hinweis zum Urheberrecht

Dissertation zugänglich unter
URN: urn:nbn:de:gbv:18-98429
URL: http://ediss.sub.uni-hamburg.de/volltexte/2019/9842/


Identification of Peptides in Mass Spectrometric Proteomics Data with the PRIDE Cluster Spectral Library and a Neural-net-based Machine-learned Scoring Function

Identifizierung von Peptiden in massenspektrometrischen Proteomdaten mit der PRIDE-Cluster-Spektrenbibliothek und einer maschinengelernten Scoring-Funktion auf Basis neuronaler Netze

Wurlitzer, Marcus

pdf-Format:
 Dokument 1.pdf (2.776 KB) 


SWD-Schlagwörter: Massenspektrometrie , Proteomanalyse , Maschinelles Lernen , Neuronales Netz , Spektrenbibliothek
Basisklassifikation: 35.28
Institut: Chemie
DDC-Sachgruppe: Chemie
Dokumentart: Dissertation
Hauptberichter: Schlüter, Hartmut (Prof. Dr.)
Sprache: Englisch
Tag der mündlichen Prüfung: 17.05.2019
Erstellungsjahr: 2019
Publikationsdatum: 05.07.2019
Bemerkung: Tag der Disputation und Datum der Druckfreigabe identisch: 17.05.2019
Kurzfassung auf Englisch: Mass spectrometric proteomics data analysis can break new ground through the growing amount of data from proteomics studies that become publicly available in online repositories. By exploitation of the large-scale spectral libraries built from these repositories and application of state-of-the-art computational methods, spectral library searching can become a powerful alternative to conventional sequence database searching. The present work aims to advance spectral library searching as a fast, reliable and sensitive method for the identification of spectra from mass spectrometric proteomics data.
The PRIDE Cluster human spectral library, containing 789,745 spectra of 189,400 peptides, covering 25.5% of the human tryptic peptide sequences, was used to develop a spectral library search engine for the identification of peptides in proteomics datasets.
Precursor matching was performed in a narrow m/z range against the recalibrated precursor mass-to-charge ratios. Fragment spectra were recalibrated with an empirical recalibration function before vectorization into bins of 1 Th. Various methods of intensity transformation and scoring were tested for their ability to discriminate true from false spectrum-spectrum matches. The rank transformation of the top 150 signals combined with the ‘correlation similarity’ scoring function performed best.
Decoy spectra were generated with three different methods. The precursor shuffle was found to produce the best decoys. Unlike the intensity shuffle and m/z randomization methods, it does not rely on the manipulation of target spectra. Instead, it modifies precursor information in a way that effectively spectra from different peptides with similar precursor m/z values are presented as decoys. The decoy spectra produced by this method achieved very similar scores to the random hits and were used for hit validation and global false discovery rate (FDR) estimation.
A machine learning procedure was established to improve the scoring of spectrum-spectrum matches and hence the identification rate. A neural net was designed to fully replace the spectrum-spectrum scoring function (‘scoring net’). Another neural net was implemented to train the scoring net by taking all candidate spectra for a query spectrum as input (‘training net’). The scoring net learned two weight vectors that were used to create a ‘weighted correlation similarity’ (WCS) scoring function. The WCS function improved the spectrum scores by 24.3% and the identification rate after validation by 6.9% and 14% in the two HeLa datasets. The weight vectors themselves gave interesting insight on the discriminative power of signals at every m/z position for spectrum-spectrum matching.
The WCS search engine achieved an overall agreement in identifications with conventional sequence database searching of over 98% for the peptides present in the library. After validation of the hits by a conservative global false discovery estimation, 45% of the sequence database identifications were confirmed, and another 5% of additional peptide identifications were retrieved. While the number of validated peptide hits was lower than for sequence database search, the conservative method of hit validation with global FDR estimation strictly controlled the FDR at 1% without proneness to overfitting. The WCS search engine developed in this work yielded high quality identification results with the help of the PRIDE Cluster spectral library and achieved higher identification rates than the well-established spectral search engine SpectraST.
Kurzfassung auf Deutsch: Neue Möglichkeiten zur Analyse massenspektrometrischer Proteomdaten ergeben sich durch die immer größer werdende Zahl an Datensätzen von Proteomstudien, die durch Online-Datenbanken verfügbar werden. Mit Hilfe umfassender Spektrenbibliotheken, die aus den vielen Datensätzen generiert werden können, und modernen Methoden der Datenanalyse kann die Identifizierung von Peptide anhand von Spektrenbibliotheken (‚Spectral Library-Suche‘) eine effektive Alternative zur klassischen Sequenzdatenbanksuche werden. In dieser Arbeit soll die Spectral Library-Suche als eine Methode zur schnellen, zuverlässigen und sensitiven Identifizierung von Peptidespektren weiterentwickelt werden.
Die humane ‚PRIDE Cluster‘-Spektrenbibliothek umfasst 789,745 Spektren von 189,400 Peptiden und deckt damit 25.5% der tryptischen Peptide im bekannten menschlichen Proteom ab. Sie wurde für die Etablierung der Spectral Library-Suchmaschine genutzt.
Die Suche nach passenden Vorläuferionen (‚Precursor‘) wurde mit sehr kleiner Toleranz zu den rekalibrierten Masse-zu-Ladungs-Werten der Precursor in der Spektrenbibliothek durchgeführt. Die m/z-Werte der Fragmentspektren wurden zunächst mit einer empirisch ermittelten Rekalibrierungsfunktion rekalibriert und anschließend in Bins von 1 Th Breite vektorisiert. Mehrere Methoden zur Transformation der Intensitäten der Fragmentsignale und zum Scoring der Spektrenpaare wurden mit Hinblick auf deren Fähigkeit zur Unterscheidung von korrekten und falschen Spektrenpaaren getestet. Die Rank-Transformierung der 150 intensivsten Signale in Kombination mit der ‚correlation similarity‘ Scoring-Funktion erzielte die besten Ergebnisse.
Die Generierung von Decoy-Spektren wurden mit drei verschiedenen Methoden getestet. Die Precursor-shuffle-Methode erzeugte die besten Decoy-Spektren. Anders als bei der intensity shuffle- und der m/z randomization-Methode werden hierbei nicht die Spektren selbst verändert, sondern die Precursor-Masse-zu-Ladungs-Werte modifiziert, so dass effektiv Spektren anderer Peptide mit ähnlichen Precursor-Masse-zu-Ladungs-Werten als Decoy-Spektren verwendet werden. Die so generierten Decoy-Spektren erhielten sehr ähnliche Scores wie die Zufallstreffer, welche sie modellieren sollen. Sie wurden daher bei der anschließenden Validierung zur Abschätzung der Falsch-Positiv-Rate genutzt.
Um das Scoren von Spektrenpaaren und damit die Identifizierungsrate weiter zu verbessern, wurde maschinelles Lernen eingesetzt. Ein neuronales Netzwerk ersetzte dabei die Scoring-Funktion (‚Scoring-Netz‘). Ein weiteres neuronales Netzwerk diente als Trainings-Netz für das Scoring-Netz. Letzteres erlernte dabei zwei Vektoren mit Gewichten zur Etablierung einer gewichteten Scoring-Funktion (‚weighted correlation similarity‘, WCS). Das WCS-Scoring erzielte eine Verbesserung der Scores um 24.3% und der Identifizierungsrate nach Validierung um 6.9% bzw. 14.0% in den beiden HeLa-Datensätzen. Die Vektoren selbst lassen Rückschlüsse auf die Unterscheidungsgewalt von Fragmentsignalen an einzelnen m/z-Positionen zu.
Die WCS-Suchmaschine erreichte Übereinstimmungen von über 98% mit der Sequenzdatenbanksuche für Peptide, die in der Spektrenbibliothek zu finden waren. Nach Validierung durch konservative globale Abschätzung der Falsch-Positiv-Rate konnten 45% der Identifizierungstreffer bestätigt werden. Weitere 5% wurden nur durch die Spektrenbibliotheksuche gefunden. Die Zahl der validierten Peptid-Treffer war geringer als mit der klassischen Sequenzdatenbanksuche, allerdings konnte die Falsch-Positiv-Rate mit großer Sicherheit auf 1% begrenzt werden, da diese Methode nicht der Problematik des Überanpassens unterliegt. Die hier entwickelte WCS-Suchmaschine produzierte Identifizierungsergebnisse mit hoher Sicherheit an Hand der PRIDE Cluster-Spektrenbibliothek und erreichte höhere Identifizierungsraten als die etablierte Suchmaschine SpectraST.

Zugriffsstatistik

keine Statistikdaten vorhanden
Legende