Fachgebiet Statistische Methoden in der Genetik und Ökologie
Permanent URI for this collection
Browse
Recent Submissions
Item Identification and quantification of peaks in spectrometric data(2008-11-06T10:53:51Z) Bader, Sabine; Urfer, Wolfgang; Weihs, ClausItem Microarray experiments to estimate heterosis(2007-12-03T15:06:28Z) Sarholz, Barbara; Rahnenführer, Jörg; Piepho, Hans-Peter; Urfer, WolfgangThe genetic causes for heterosis, i.e., the increased performance of a hybrid plant compared to the parental mean, may be assessed via microarrays. This thesis addresses design and analysis issues of cDNA-microarray experiments with regard to the estimation of heterosis. Standard microarray designs like the loop design or common reference design are not optimal when estimating heterosis. An optimality criterion is devised and two approaches to obtain a suitable design are shown: a rather intuitive one and an approach using simulated annealing. Data transformations are crucial before analysing microarray data. However, transformations may conceal interesting expression patterns. It is shown using a Box-Cox transformation that significance of a heterotic effect is largely influenced by the transformation parameter. Transformation of the linear predictor in a generalized linear model has a similar effect and heterotic effects may—at least partially—be removed by the transformation. For the estimation of linear contrasts between genotypes, a linear mixed model for each gene is fitted to the expression values. To improve variance estimates one may benefit from other genes’ information. Therefore, an empirical Bayes approach is developed that is capable of including more than one variance component in the model.Item Extensions of the partial least squares approach for the analysis of biomolecular interactions(2007-08-13T11:34:38Z) Kirschbaum, Nina; Urfer, W.; Trenkler, G.Item Comparative evaluation of different graphical models for the analysis of gene expression data(2006-08-28T09:24:50Z) Grzegorczyk, Marco; Urfer, Wolfgang; Weihs, ClausAn important problem in systems biology is to infer the architecture of gene regulatory networks and biochemical pathways from postgenomic data. Various reverse engineering methods have been developed and proposed in the Statistics and Bioinformatics literature, and it is important to understand their relative merits and shortcomings. To shed light onto this problem, the learning performances of three widely-used Machine Learning methodologies: Relevance Networks, Graphical Gaussian models, and Bayesian Networks are evaluated and compared on different real and synthetic test data sets taken from the RAF signalling network which describes the interactions between eleven phosphorylated proteins and phospholipids in human immune system cells.Item Contributions to statistical techniques for the analysis of gene and protein expression data(2006-08-10T13:36:55Z) Jung, Klaus; Urfer, Wolfgang; Ickstadt, KatjaItem The use of the correlated Weibull and logistic regression models in epidemiology(Universität Dortmund, 2003-08-11) Odai, Reginald Nii Otoo; Urfer, Wolfgang; Groß, JürgenItem Direkte EM- und Loglikelihood-Profil-Verfahren in Intervallkartierungsmodellen der Pflanzenzucht(Universität Dortmund, 2002-08-28) Emrich, Katharina; Urfer, Wolfgang; Hering, FranzIn der quantitativen Genetik versucht man, auf der Grundlage bekannter biologischer Zusammenhänge Aussagen über unbekannte Erbfaktoren zu treffen, welche kollektiv quantitative Eigenschaften hervorrufen. Exemplarisch zu nennen sind Resistenzmechanismen gegen den Maiszünsler, welcher in Mittel - und Südamerika für hohe Ernteausfälle von bis zu 80 % der Maisernte verantwortlich ist. Gelingt es, die Lage (und Ausprägung) der Gene quantitativer Eigenschaften festzustellen, so ermöglicht dies zielgerichtete Reaktionen auf den weltweiten Wandel in Kultur, Landwirtschaft und Klima. Neuere Verfahren der Intervallkartierung suchen das Genom von Pflanzen schrittweise nach Hinweisen auf vorhandene quantitative Gene ab. Für die Auswertung von Kreuzungsexperimenten werden Modelle auf der Basis gemischter Normalverteilungen gewählt, welche Verteilungsannahmen hinsichtlich der Segregation nicht beobachtbarer Genotypen quantitativer Eigenschaften modellieren. Verwendung finden Modelle mit zufälligen und Modelle mit zufälligen und festen Effekten. Der einfacher in Standardsoftware integrierbare Regressionsansatz wird oft verwendet, indem Mittelwerte der zufälligen Effekte integriert werden. Für die einfachste Form dieses Ansatzes erhält man sehr ähnliche Ergebnisse im Vergleich zu Maximum-Likelihood-Schätzern. In dieser Arbeit wird untersucht, inwieweit die Maximum-Likelihood-Schätzung der Parameter mit Hilfe von iterativen EM-Algorithmen zusätzliche, von den Regressionslösungen abweichende Schätzer liefert. Es muss betont werden, dass der iterative EM-Algorithmus als Funktion des Startwertes gerade keine eindeutigen Ergebnisse, sondern (als Funktion des Lageparameters des gesuchten Gens) mehrere Zweige einer Lösungsmannigfaltigkeit liefert und somit zusätzliche Information in Abhängigkeit von gewählten Startwerten resultiert. Die hier exemplarisch dargestellte Berechnung von EM- und EMV- Maximum-Likelihood-Schätzern der Parameter eines linearen Modells für die Nachkommen der zweiten Generation eines (Inzucht-) Kreuzungsexperimentes kann in jedes andere genetische lineare Modell integriert werden. Resultate: Hier ist zu betonen, dass zusätzlich zu den analog zur Regressionsanalyse auftretenden "Basislösungen" weitere Maximum-Likelihood-Schätzer gefunden wurden. Diese müssen auf ihre Praxistauglichkeit hin untersucht werden. Insbesondere die als "Kofaktorlösung" bezeichneten Maximum-Likelihood-Schätzer sind aller Wahrscheinlichkeit nach nicht spurios (wobei eine spuriose Lösung eine mathematische Lösung ist, die keine Entsprechung zu naturwissenschaftlichen oder sonstigen empirischen Daten hat) und legen nahe, im genetischen Modell alle Marker (oder aber: keine Marker) zu Kofaktoren zu machen, um Willkür, welche beispielsweise bei der Vorauswahl von Kofaktoren mit Regressionsansätzen stattfindet, auszuschließen.Item Estimating the functional form of the effect of a continuous covariate on survival time(Universität Dortmund, 2002-04-03) Holländer, Norbert; Schumacher, M.; Schach, Siegfried; Urfer, WolfgangBei der Analyse vieler medizinischer Studien geht man davon aus, dass der Effekt stetiger Kovariablen auf die Zielgröße linear ist. Diese Annahme ist aber nicht immer zutreffend. In dieser Dissertation werden verschiedene Methoden zur Schätzung der funktionalen Form des Effektes einer stetigen Kovariable im Rahmen des Cox'schen proportionalen Hazardmodells untersucht. Dabei werden datenunabhängige und datenabhängige Methoden verwendet. Datenunabhängigkeit bedeutet hier, dass die generelle funktionale Form vorgegeben ist (z.B. bei restricted cubic splines, bei der Kategorisierung der stetigen Kovariable an fest vorgegebenen Cutpoints). Aus den Daten werden lediglich die Parameter dieser Funktionen geschätzt. Bei den datenabhängigen Methoden (z.B. der Kategorisierung anhand Ergebnis-orientierter datenabhängiger Cutpoints, der Modellierung des Effektes durch fractional polynomials) wird zusätzlich die funktionale Form aus den Daten bestimmt. Dieser Prozess der Modellbildung kann zu einem gravierenden `Overfitting' führen. Anhand einer fest vorgegeben Funktion läßt sich dagegen der wahre Effekt möglicherweise nicht korrekt beschreiben. Um eine bessere Schätzung für die Risikofunktion zu erhalten und die negativen Auswirkungen der Modellbildung zu reduzieren habe ich alle Methoden erweitert, indem ich das von Breiman (1996) vorgeschlagene bootstrap aggregating (bagging) auf das vorliegende Problem übertragen habe. Bei diesem Ansatz wird die Risikofunktion in einer Menge von Bootstrap-Stichproben geschätzt, wobei jeweils die gleiche Methode angewendet wird wie in den Originaldaten. Durch Mittelung aller in den Bootstrap-Stichproben geschätzten Risikofunktionen erhält man dann einen neuen aggregierten Schätzer für die Risikofunktion. Zur Illustration aller Methoden wird der Effekt der stetigen Kovariable Alter hinsichtlich der rezidivfreien Überlebenszeit von Patientinnen mit Mammakarzinom modelliert. Beurteilt werden die Methoden anhand einer Simulationsstudie, bei der typische Risikofunktionen zugrundegelegt wurden. Es konnte gezeigt werden, dass bagging besonders dann zu einer Verbesserung der geschätzen Risikofunktion führt, wenn der Prozess der Modellbildung in den Originaldaten einen instabilen Schätzer liefert. Weitere Aspekte wie z.B. die Anwendung verschiedener Fehlermaße zur Beurteilung der Ergebnisse oder die Verwendung verschiedener Ansätze, Risikofunktionen vergleichbar zu machen, werden ebenfalls diskutiert.