Authors: Ahrens, Maike
Title: Statistische Methoden zur Identifikation von Patientensubgruppen aus Hochdurchsatzdaten
Language (ISO): de
Abstract: Für die personalisierte Medizin ist die Entdeckung von bisher unbekannten molekularen Patientensubgruppen von großer Bedeutung, um neue maßgeschneiderte Therapien entwickeln zu können. Diese Subgruppen (SG) können auf verschiedenen Ebenen untersucht werden. Beispielsweise werden Daten zur Gen- oder Proteinexpression analysiert, die mithilfe von Microarrays oder RNA-Seq-Messungen erhoben wurden. Für die Detektion von Patientensubgruppen aus solchen hochdimensionalen Daten wurden in der Literatur bereits verschiedene univariate und multivariate Ansätze vorgeschlagen. Im ersten Teil dieser Arbeit wird eine ausführliche Simulationsstudie zum Vergleich einiger solcher univariater Methoden durchgeführt. Ferner wird die Eignung des Scores Fisher Sum (FS) zur Detektion insbesondere kleinerer SG in Simulationen und der Anwendung auf reale Daten demonstriert. Die entsprechenden Ergebnisse wurden bereits in [1] besprochen. Der zweite Teil der Arbeit behandelt multivariate Workflows zur SG-Detektion. Der FSOL-Workflow [2] und seine Variante FSJ werden vorgestellt und in Simulationen und Anwendungsbeispielen mit einer etablierten Methode verglichen. Der dreischrittige Workflow (allgemein FSx-Workflow) besteht aus der FS-basierten Selektion von potentiell SG-anzeigenden Variablen, die im folgenden Schritt entsprechend der angezeigten SG-Samples gruppiert werden. Bei FSOL wird dazu ein Ähnlichkeitsmaß basierend auf dem Ordered-List-Algorithmus [3] verwendet, alternativ wird in FSJ der Jaccardindex eingesetzt. Der letzte Schritt dient der Nominierung von Sample-SG bezüglich der gebildeten Variablengruppen. Als Referenzworkflow dient der Plaid-Algorithmus (BC) [4], ein Biclusterverfahren, das insbesondere für die Auswertung von Genexpressionsdaten gern verwendet wird. Die vierte betrachtete multivariate Methode FSBC verbindet die univariate FS-Selektion mit dem Biclustern. Durch die starke Dimensionsreduktion soll die Variabilität der Biclusterergebnisse gesenkt werden. In der Simulationsstudie zum Vergleich der vier Methoden wird der Einfluss verschiedener datensatzspezifischer Parameter untersucht, ebenso der von workflowspezifischen Parametern für FSx. Das Biclustern zeigt nur im Fall großer Anzahlen von Variablen, die auf eine Subgruppe hinweisen, die beste Detektionsgüte. Durch die Vorselektion bei FSBC kann die BC-Performanz erheblich gesteigert werden, allerdings wurden SG mit einem kleineren Shift weiterhin nicht erkannt. Für den Großteil der betrachteten Parameterkonstellationen zeigt FSJ bessere Ergebnisse als FSOL. Die vier Methoden werden auf zwei reale Datensätze angewendet und ihre Detektionsgüte bezüglich einer jeweils bekannten Subgruppe verglichen. Für die Bicluster-basierten Ansätze BC und FSBC wird mithilfe einfacher deskriptiver Methoden versucht, ein Konsensbicluster zu bestimmen. Nur mithilfe der FS-Selektion können in beiden Beispielen Hinweise auf die gesuchte SG gewonnen werden. Insgesamt werden mit FSOL und FSJ zwei Workflow-Varianten vorgestellt, die geeignet sind, um in hochdimensionalen Daten Hinweise auf unbekannte SG aufzudecken. Dies gilt insbesondere wenn der Shift der Beobachtungswerte der Subgruppe klein ist oder wenn nur eine geringe Anzahl von Variablen auf die Subgruppe hinweist. FSJ scheint der FSOL-Variante vorzuziehen zu sein: FSJ war in den Simulationen zumeist überlegen, ist gerade für klinische Anwender intuitiv verständlich, zudem ressourcenschonender und deterministisch. Die Performanz der etablierten Biclustermethode wird durch den Schritt univariater Vorselektion deutlich verbessert. Sie liefert jedoch im Gegensatz zu den FSx-Workflows mitunter sehr variable Ergebnisse, die eine weitere Kondensierung erfordern.
Subject Headings: Molekulare Subgruppen
Hochdurchsatzdaten
FSx
FSOL
Biclustering
Plaid
Subject Headings (RSWK): Versuchsplanung
Hochdurchsatzverfahren
Cluster-Analyse
URI: http://hdl.handle.net/2003/35820
http://dx.doi.org/10.17877/DE290R-17844
Issue Date: 2016
Appears in Collections:Statistische Methoden in der Genetik und Chemometrie

Files in This Item:
File Description SizeFormat 
Dissertation_Ahrens.pdfDNB3.71 MBAdobe PDFView/Open


This item is protected by original copyright



This item is protected by original copyright rightsstatements.org