Authors: Rieder, Vera
Title: Clustermethoden für Massenspektren in proteomweiten statistischen Analysen
Language (ISO): de
Abstract: Die Arbeit handelt von Clustermethoden für massenspektrometrische Analysen in der Biodiversitätsforschung. Alternativ zur Artenbestimmung mittels DNA-Barcoding wird die Analyse der Proteinzusammensetzung von Organismen verwendet. Die Mehrheit der Proteinanalytik basiert mittlerweile auf der sogenannten LC-MS/MS-Methode. Dabei wird eine Flüssigchromatographie (LC) als Trennmethode mit der Tandem-Massenspektrometrie (MS/MS) kombiniert. Tandem-Massenspektren, die aus detektierten Intensitäten von vorkommenden Massen bestehen, dienen zur Identifikation von Peptiden und Proteinen mittels Datenbanksuchalgorithmen. Neuartige unbekannte Peptide werden mittlerweile über fehleranfällige De-Novo-Peptidsequenzierungsalgorithmen detektiert. Alternativ zu Annotationsverfahren wird hier die direkte Clusteranalyse der Tandem-Massenspektren behandelt. Zwei Aspekte, die Clusteranalyse sogenannter Läufe, die tausende Spektren einer Proteinprobe umfasst, und die Clusteranalyse von einzelnen Tandem-Massenspektren werden untersucht. Eine Clusteranalyse sogenannter Läufe wird für mehrere reale Datensätze mithilfe der neuen Methode DISMS2 durchgeführt, die ohne Annotationen Distanzen zwischen MS/MS-Läufen bestimmt. Es handelt sich also um eine Alternative zum Vergleich von Peptidlisten, die auf der Identifikation von Spektren in Datenbanksuchen basieren. Die Parameter von DISMS2 sind frei wählbar, sodass die Auswahl der höchsten Peaks je Spektrum (topn), die Bingröße im Binning (bin), die Einschränkung bei dem Vergleich von Spektren auf zeitlich nahe Spektren (ret) mit ähnlicher Precursormasse (prec) und das Distanzmaß für Massenspektren (dist) mit einem frei wählbaren Schwellenwert (cdis) variieren. Zur Parameterwahl wird ein Vorgehen zur Optimierung angewandt, das das Bestimmtheitsmaß R2 eines nichtparametrischen Verfahrens zur Varianzanalyse verwendet. Zur Clusteranalyse von einzelnen Massenspektren wird ein bisher in der Literatur fehlender umfassender Vergleich von Algorithmen erstellt, die für Tandem-Massenspektren etabliert (CAST, MS-Cluster, PRIDE Cluster), für große Datensätze bekannt (hierarchische Clusteranalyse, DBSCAN, Zusammenhangskomponenten eines Graphen) oder neu (Neighbor Clustering) sind. Die Evaluierung basiert auf realen Daten und mehreren Gütemaßen.
Subject Headings: Clusteranalyse
LC-MS/MS
Massenspektrometrie
Proteomik
Subject Headings (RSWK): Cluster-Analyse
LC-MS
Massenspektrometrie
Proteomanalyse
URI: http://hdl.handle.net/2003/36839
http://dx.doi.org/10.17877/DE290R-18840
Issue Date: 2018
Appears in Collections:Statistische Methoden in der Genetik und Chemometrie

Files in This Item:
File Description SizeFormat 
Dissertation_Rieder.pdfDNB3.59 MBAdobe PDFView/Open


This item is protected by original copyright



This item is protected by original copyright rightsstatements.org