Authors: | Hellwig, Birte |
Title: | Klassifikation von Brustkrebspatientinnen anhand vorausgewählter Gene mit charakteristischer Expressionsverteilung |
Language (ISO): | de |
Abstract: | Ziel der Arbeit ist es mit Hilfe von Genexpressionsdaten Klassifikatoren für Brustkrebspatientinnen zu erstellen, mit denen vorhergesagt werden soll, ob eine Patientin in den ersten fünf Jahren nach der Operation eine Fernmetastase bekommt oder metastasenfrei bleibt. Die Anforderungen an den Klassifikator sind dabei, dass er eine hohe prognostische Güte besitzt und gleichzeitig gut interpretierbar ist. Die Idee der Arbeit ist daher Gene mit Expressionsverteilungen zu identifizieren, die klar zwischen einer Gruppe mit niedriger und einer Gruppe mit hoher Expression unterscheiden, und diese dann zur Konstruktion von Klassifikatoren zu verwenden. Zur Identifikation von Genen mit charakteristischer Expressionsverteilung werden verschiedene Scores verwendet. Dabei gibt es verschiedene Ansätze, wie etwa das Verwenden von Clusterverfahren und Maßzahlen zur Beurteilung der Gruppeneinteilung. Alternative Ansätze sind das Definieren einer Ausreißergruppe oder der dip-Test auf Unimodalität. Die Bimodalitätsmaße werden auf die Expressionsdaten einer Kohorte von 200 nodal-negativen unbehandelten Brustkrebspatientinnen angewendet. Die Gene mit den auffälligsten Bimodalitäts-Scores werden dann zur Konstruktion von Klassifikationsbäumen und Random Forests verwendet. Bei beiden Ansätzen werden verschiedene Parametereinstellungen untersucht, wobei insbesondere in der Verwendung der genetischen Variablen unterschieden wird (stetig oder dichotomisiert). Abschließend werden Random Forests mit optimierten Parametern erzeugt, wobei auf eine Vorauswahl der Gene verzichtet wird. Zur Validierung der Modelle werden zwei unabhängige Kohorten von nodal-negativen unbehandelten Patientinnen verwendet. Als Referenz zur Beurteilung der Klassifikationsgüte der neuentwickelten Klassifikatoren dienen etablierte Gensignaturen. Einfache Klassifikationsbäume führen im Gegensatz zu Random Forests zu interpretierbaren Klassifikatoren, sind in Bezug auf die prognostische Güte aber leicht unterlegen. Random Forests mit vorausgewählten Genen führen zu Klassifikatoren mit akzeptabler Güte. Dabei ist es wichtig, dass die Expressionswerte eines vorausgewählten Gens anhand der Verteilung direkt dichotomisiert werden. Bei der Validierung zeigen die neuentwickelten Modelle eine Tendenz zum Overfitting, wodurch etablierte Klassifikatoren zum Teil überlegen sind. |
Subject Headings: | Klassifikation Genexpression Bimodalität |
Subject Headings (RSWK): | Klassifikation Genexpression Brustkrebs |
URI: | http://hdl.handle.net/2003/36676 http://dx.doi.org/10.17877/DE290R-18677 |
Issue Date: | 2018 |
Appears in Collections: | Statistische Methoden in der Genetik und Chemometrie |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Dissertation_Hellwig.pdf | 19.05 MB | Adobe PDF | View/Open |
This item is protected by original copyright |
This item is protected by original copyright rightsstatements.org