Ickstadt, KatjaFreis, Evgenia2014-11-102014-11-102014http://hdl.handle.net/2003/33680http://dx.doi.org/10.17877/DE290R-6823In Germany, breast cancer is the most common leading cause of cancer deaths in women. To gain insight into the processes related to the course of the disease, human genetic data can be used to identify associations between gene expression and prognosis. In the course of the several clinical studies and numerous microarray experiments, the enormous data volume is constantly generated. Its dimensionality reduction of thousands of genes to a smaller number is the aim of the so-called metagenes that aggregate the expression data of groups of genes with similar expression patterns and may be used for investigating complex diseases like breast cancer. Here, a cluster analytic approach for identification of potentially relevant metagenes is introduced. In a first step of the approach, gene expression patterns over time of receptor tyrosine kinase ErbB2 breast cancer MCF7 cell lines to obtain promising sets of genes for a metagene calculation were used. Three independent batches of MCF7/NeuT cells were exposed to doxycycline for periods of 0, 6, 12 and 24 hours as well as for 3 and 14 days in independent experiments, due to association of the oncogenic variant of ErbB2 overexpression in breast cancer with worse prognosis. With cluster analytic approaches DIB-C (difference-based clustering algorithm) and STEM (short time-series expression miner) as well as with the finite and infinite mixture models gene clusters with similar expression patterns were identified. Two non-model-based algorithms – k-means and PFP (penalized frame potential) – as well as the model-based procedure DIRECT were applied for the method comparisons. Potentially relevant gene groups were selected by promoter and Gene Ontology (GO) analysis. The verification of the applied methods was carried out with another short time-series data set. In the second step of the approach, this gene clusters were used to calculate metagenes of the gene expression data of 766 breast cancer patients from three breast cancer studies and Cox models were applied to determine the effect of the detected metagenes on the prognosis. Using this strategy, new metagenes associated with metastasis-free survival patients were identified.In Deutschland ist Brustkrebs die häufigste Krebserkrankung bei Frauen. Durch zahlreiche klinische Studien auf diesem Gebiet konnte festgestellt werden, dass die veränderten Gene zwar nicht zwangsläufig zum Ausbruch der Krankheit führen, deren Expressionen jedoch näher analysiert werden sollten, um das Karzinom rechtzeitig zu erkennen und dadurch bessere Therapien zu ermöglichen. Hierbei wird durch die Microarray-Experimente ein enormes Datenvolumen generiert, deren Dimensionsreduktion von mehreren Tausend Genen zu einer deutlich kleineren Anzahl angestrebt wird. Eine Möglichkeit bieten die sogenannten Metagene, zu denen Gene mit ähnlichen Expressionen zusammengefasst werden können und die sich als prognostische Faktoren für das Überleben der Patienten erwiesen haben. In der vorliegenden Arbeit wird ein neuer integrativer Ansatz zur Clusterung kurzer Expressionszeitreihen zur Identifizierung prognostisch relevanter Metagene vorgestellt. Der erste Teil des Ansatzes beruht auf der Analyse humaner Mammakarzinom-Zelllinien MCF7. Die onkogene Variante der Rezeptortyrosinkinase ErbB2, deren Überexpression mit einer schlechteren Prognose assoziiert ist, wurde in diesen MCF7-Zelllinien induziert und zu den Zeitpunkten 0, 6, 12 und 24 Stunden sowie und 3 und 14 Tagen nach der Induktion beobachtet. Mit den Clusteranalyseansätzen DIB-C (difference-based clustering algorithm) und STEM (short time-series expression miner) sowie mit den finiten und den infiniten Mischungsmodellen werden hier Gengruppen mit ähnlichen Expressionsverläufen identifiziert. Als Vergleichsmethoden werden die nicht-modellbasierten Algorithmen k-means und PFP (penalized frame potential) und das in R implementierte Tool DIRECT als modellbasierter Vergleich zur Analyse herangezogen. Mit der Gene Ontology (GO) - bzw. Promoteranalyse werden die biologisch interessantesten Cluster ermittelt. Zur Verifizierung der hier angewendeten Methoden wird ein weiterer Datensatz mit Expressionswerten kurzer Zeitreihen erfolgreich herangezogen. Im zweiten Teil des Ansatzes werden für diese Gruppen Metagene gebildet und auf ihre prognostische Relevanz in den Brustkrebsdaten von 766 Patientinnen mittels Überlebenszeitanalyse untersucht und so neue biologisch relevante Cluster aufgedeckt.deGenexpressionszeitreihenBrustkrebsdatenClusteranalyseInfinite MischungsmodelleMetagenÜberlebenszeitanalyseFinite Mischungsmodelle310Integrativer Ansatz zur Identifizierung neuer, prognostisch relevanter Metagene mittels ClusteranalyseText