Statistische Methoden zur Identifikation von Patientensubgruppen aus Hochdurchsatzdaten

Loading...
Thumbnail Image

Date

2016

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Für die personalisierte Medizin ist die Entdeckung von bisher unbekannten molekularen Patientensubgruppen von großer Bedeutung, um neue maßgeschneiderte Therapien entwickeln zu können. Diese Subgruppen (SG) können auf verschiedenen Ebenen untersucht werden. Beispielsweise werden Daten zur Gen- oder Proteinexpression analysiert, die mithilfe von Microarrays oder RNA-Seq-Messungen erhoben wurden. Für die Detektion von Patientensubgruppen aus solchen hochdimensionalen Daten wurden in der Literatur bereits verschiedene univariate und multivariate Ansätze vorgeschlagen. Im ersten Teil dieser Arbeit wird eine ausführliche Simulationsstudie zum Vergleich einiger solcher univariater Methoden durchgeführt. Ferner wird die Eignung des Scores Fisher Sum (FS) zur Detektion insbesondere kleinerer SG in Simulationen und der Anwendung auf reale Daten demonstriert. Die entsprechenden Ergebnisse wurden bereits in [1] besprochen. Der zweite Teil der Arbeit behandelt multivariate Workflows zur SG-Detektion. Der FSOL-Workflow [2] und seine Variante FSJ werden vorgestellt und in Simulationen und Anwendungsbeispielen mit einer etablierten Methode verglichen. Der dreischrittige Workflow (allgemein FSx-Workflow) besteht aus der FS-basierten Selektion von potentiell SG-anzeigenden Variablen, die im folgenden Schritt entsprechend der angezeigten SG-Samples gruppiert werden. Bei FSOL wird dazu ein Ähnlichkeitsmaß basierend auf dem Ordered-List-Algorithmus [3] verwendet, alternativ wird in FSJ der Jaccardindex eingesetzt. Der letzte Schritt dient der Nominierung von Sample-SG bezüglich der gebildeten Variablengruppen. Als Referenzworkflow dient der Plaid-Algorithmus (BC) [4], ein Biclusterverfahren, das insbesondere für die Auswertung von Genexpressionsdaten gern verwendet wird. Die vierte betrachtete multivariate Methode FSBC verbindet die univariate FS-Selektion mit dem Biclustern. Durch die starke Dimensionsreduktion soll die Variabilität der Biclusterergebnisse gesenkt werden. In der Simulationsstudie zum Vergleich der vier Methoden wird der Einfluss verschiedener datensatzspezifischer Parameter untersucht, ebenso der von workflowspezifischen Parametern für FSx. Das Biclustern zeigt nur im Fall großer Anzahlen von Variablen, die auf eine Subgruppe hinweisen, die beste Detektionsgüte. Durch die Vorselektion bei FSBC kann die BC-Performanz erheblich gesteigert werden, allerdings wurden SG mit einem kleineren Shift weiterhin nicht erkannt. Für den Großteil der betrachteten Parameterkonstellationen zeigt FSJ bessere Ergebnisse als FSOL. Die vier Methoden werden auf zwei reale Datensätze angewendet und ihre Detektionsgüte bezüglich einer jeweils bekannten Subgruppe verglichen. Für die Bicluster-basierten Ansätze BC und FSBC wird mithilfe einfacher deskriptiver Methoden versucht, ein Konsensbicluster zu bestimmen. Nur mithilfe der FS-Selektion können in beiden Beispielen Hinweise auf die gesuchte SG gewonnen werden. Insgesamt werden mit FSOL und FSJ zwei Workflow-Varianten vorgestellt, die geeignet sind, um in hochdimensionalen Daten Hinweise auf unbekannte SG aufzudecken. Dies gilt insbesondere wenn der Shift der Beobachtungswerte der Subgruppe klein ist oder wenn nur eine geringe Anzahl von Variablen auf die Subgruppe hinweist. FSJ scheint der FSOL-Variante vorzuziehen zu sein: FSJ war in den Simulationen zumeist überlegen, ist gerade für klinische Anwender intuitiv verständlich, zudem ressourcenschonender und deterministisch. Die Performanz der etablierten Biclustermethode wird durch den Schritt univariater Vorselektion deutlich verbessert. Sie liefert jedoch im Gegensatz zu den FSx-Workflows mitunter sehr variable Ergebnisse, die eine weitere Kondensierung erfordern.

Description

Table of contents

Keywords

Molekulare Subgruppen, Hochdurchsatzdaten, FSx, FSOL, Biclustering, Plaid

Citation