Eldorado Collection:

Eldorado Collection: http://hdl.handle.net/2003/86 2024-08-16T20:35:18Z 2024-08-16T20:35:18Z Identification and quantification of peaks in spectrometric data Bader, Sabine http://hdl.handle.net/2003/25833 2015-08-12T23:46:36Z 2008-11-06T10:53:51Z

Title: Identification and quantification of peaks in spectrometric data Authors: Bader, Sabine

2008-11-06T10:53:51Z Microarray experiments to estimate heterosis Sarholz, Barbara http://hdl.handle.net/2003/24891 2015-08-12T20:58:33Z 2007-12-03T15:06:28Z

Title: Microarray experiments to estimate heterosis Authors: Sarholz, Barbara Abstract: The genetic causes for heterosis, i.e., the increased performance of a hybrid plant compared to the parental mean, may be assessed via microarrays. This thesis addresses design and analysis issues of cDNA-microarray experiments with regard to the estimation of heterosis. Standard microarray designs like the loop design or common reference design are not optimal when estimating heterosis. An optimality criterion is devised and two approaches to obtain a suitable design are shown: a rather intuitive one and an approach using simulated annealing. Data transformations are crucial before analysing microarray data. However, transformations may conceal interesting expression patterns. It is shown using a Box-Cox transformation that significance of a heterotic effect is largely influenced by the transformation parameter. Transformation of the linear predictor in a generalized linear model has a similar effect and heterotic effects may—at least partially—be removed by the transformation. For the estimation of linear contrasts between genotypes, a linear mixed model for each gene is fitted to the expression values. To improve variance estimates one may benefit from other genes’ information. Therefore, an empirical Bayes approach is developed that is capable of including more than one variance component in the model.

2007-12-03T15:06:28Z Extensions of the partial least squares approach for the analysis of biomolecular interactions Kirschbaum, Nina http://hdl.handle.net/2003/24584 2015-08-13T00:38:31Z 2007-08-13T11:34:38Z

Title: Extensions of the partial least squares approach for the analysis of biomolecular interactions Authors: Kirschbaum, Nina

2007-08-13T11:34:38Z Comparative evaluation of different graphical models for the analysis of gene expression data Grzegorczyk, Marco http://hdl.handle.net/2003/22855 2015-08-13T00:52:41Z 2006-08-28T09:24:50Z

Title: Comparative evaluation of different graphical models for the analysis of gene expression data Authors: Grzegorczyk, Marco Abstract: An important problem in systems biology is to infer the architecture of gene regulatory networks and biochemical pathways from postgenomic data. Various reverse engineering methods have been developed and proposed in the Statistics and Bioinformatics literature, and it is important to understand their relative merits and shortcomings. To shed light onto this problem, the learning performances of three widely-used Machine Learning methodologies: Relevance Networks, Graphical Gaussian models, and Bayesian Networks are evaluated and compared on different real and synthetic test data sets taken from the RAF signalling network which describes the interactions between eleven phosphorylated proteins and phospholipids in human immune system cells.

2006-08-28T09:24:50Z Contributions to statistical techniques for the analysis of gene and protein expression data Jung, Klaus http://hdl.handle.net/2003/22742 2015-08-12T22:56:30Z 2006-08-10T13:36:55Z

Title: Contributions to statistical techniques for the analysis of gene and protein expression data Authors: Jung, Klaus

2006-08-10T13:36:55Z Direkte EM- und Loglikelihood-Profil-Verfahren in Intervallkartierungsmodellen der Pflanzenzucht Emrich, Katharina http://hdl.handle.net/2003/2796 2015-08-13T00:10:27Z 2002-08-28T00:00:00Z

Title: Direkte EM- und Loglikelihood-Profil-Verfahren in Intervallkartierungsmodellen der Pflanzenzucht Authors: Emrich, Katharina Abstract: In der quantitativen Genetik versucht man, auf der Grundlage bekannter biologischer Zusammenhänge Aussagen über unbekannte Erbfaktoren zu treffen, welche kollektiv quantitative Eigenschaften hervorrufen. Exemplarisch zu nennen sind Resistenzmechanismen gegen den Maiszünsler, welcher in Mittel - und Südamerika für hohe Ernteausfälle von bis zu 80 % der Maisernte verantwortlich ist. Gelingt es, die Lage (und Ausprägung) der Gene quantitativer Eigenschaften festzustellen, so ermöglicht dies zielgerichtete Reaktionen auf den weltweiten Wandel in Kultur, Landwirtschaft und Klima. Neuere Verfahren der Intervallkartierung suchen das Genom von Pflanzen schrittweise nach Hinweisen auf vorhandene quantitative Gene ab. Für die Auswertung von Kreuzungsexperimenten werden Modelle auf der Basis gemischter Normalverteilungen gewählt, welche Verteilungsannahmen hinsichtlich der Segregation nicht beobachtbarer Genotypen quantitativer Eigenschaften modellieren. Verwendung finden Modelle mit zufälligen und Modelle mit zufälligen und festen Effekten. Der einfacher in Standardsoftware integrierbare Regressionsansatz wird oft verwendet, indem Mittelwerte der zufälligen Effekte integriert werden. Für die einfachste Form dieses Ansatzes erhält man sehr ähnliche Ergebnisse im Vergleich zu Maximum-Likelihood-Schätzern. In dieser Arbeit wird untersucht, inwieweit die Maximum-Likelihood-Schätzung der Parameter mit Hilfe von iterativen EM-Algorithmen zusätzliche, von den Regressionslösungen abweichende Schätzer liefert. Es muss betont werden, dass der iterative EM-Algorithmus als Funktion des Startwertes gerade keine eindeutigen Ergebnisse, sondern (als Funktion des Lageparameters des gesuchten Gens) mehrere Zweige einer Lösungsmannigfaltigkeit liefert und somit zusätzliche Information in Abhängigkeit von gewählten Startwerten resultiert. Die hier exemplarisch dargestellte Berechnung von EM- und EMV- Maximum-Likelihood-Schätzern der Parameter eines linearen Modells für die Nachkommen der zweiten Generation eines (Inzucht-) Kreuzungsexperimentes kann in jedes andere genetische lineare Modell integriert werden. Resultate: Hier ist zu betonen, dass zusätzlich zu den analog zur Regressionsanalyse auftretenden "Basislösungen" weitere Maximum-Likelihood-Schätzer gefunden wurden. Diese müssen auf ihre Praxistauglichkeit hin untersucht werden. Insbesondere die als "Kofaktorlösung" bezeichneten Maximum-Likelihood-Schätzer sind aller Wahrscheinlichkeit nach nicht spurios (wobei eine spuriose Lösung eine mathematische Lösung ist, die keine Entsprechung zu naturwissenschaftlichen oder sonstigen empirischen Daten hat) und legen nahe, im genetischen Modell alle Marker (oder aber: keine Marker) zu Kofaktoren zu machen, um Willkür, welche beispielsweise bei der Vorauswahl von Kofaktoren mit Regressionsansätzen stattfindet, auszuschließen.

2002-08-28T00:00:00Z The use of the correlated Weibull and logistic regression models in epidemiology Odai, Reginald Nii Otoo http://hdl.handle.net/2003/2797 2015-08-12T16:32:34Z 2003-08-11T00:00:00Z

Title: The use of the correlated Weibull and logistic regression models in epidemiology Authors: Odai, Reginald Nii Otoo

2003-08-11T00:00:00Z Estimating the functional form of the effect of a continuous covariate on survival time Holländer, Norbert http://hdl.handle.net/2003/2795 2015-08-13T00:05:24Z 2002-04-03T00:00:00Z

Title: Estimating the functional form of the effect of a continuous covariate on survival time Authors: Holländer, Norbert Abstract: Bei der Analyse vieler medizinischer Studien geht man davon aus, dass der Effekt stetiger Kovariablen auf die Zielgröße linear ist. Diese Annahme ist aber nicht immer zutreffend. In dieser Dissertation werden verschiedene Methoden zur Schätzung der funktionalen Form des Effektes einer stetigen Kovariable im Rahmen des Cox'schen proportionalen Hazardmodells untersucht. Dabei werden datenunabhängige und datenabhängige Methoden verwendet. Datenunabhängigkeit bedeutet hier, dass die generelle funktionale Form vorgegeben ist (z.B. bei restricted cubic splines, bei der Kategorisierung der stetigen Kovariable an fest vorgegebenen Cutpoints). Aus den Daten werden lediglich die Parameter dieser Funktionen geschätzt. Bei den datenabhängigen Methoden (z.B. der Kategorisierung anhand Ergebnis-orientierter datenabhängiger Cutpoints, der Modellierung des Effektes durch fractional polynomials) wird zusätzlich die funktionale Form aus den Daten bestimmt. Dieser Prozess der Modellbildung kann zu einem gravierenden `Overfitting' führen. Anhand einer fest vorgegeben Funktion läßt sich dagegen der wahre Effekt möglicherweise nicht korrekt beschreiben. Um eine bessere Schätzung für die Risikofunktion zu erhalten und die negativen Auswirkungen der Modellbildung zu reduzieren habe ich alle Methoden erweitert, indem ich das von Breiman (1996) vorgeschlagene bootstrap aggregating (bagging) auf das vorliegende Problem übertragen habe. Bei diesem Ansatz wird die Risikofunktion in einer Menge von Bootstrap-Stichproben geschätzt, wobei jeweils die gleiche Methode angewendet wird wie in den Originaldaten. Durch Mittelung aller in den Bootstrap-Stichproben geschätzten Risikofunktionen erhält man dann einen neuen aggregierten Schätzer für die Risikofunktion. Zur Illustration aller Methoden wird der Effekt der stetigen Kovariable Alter hinsichtlich der rezidivfreien Überlebenszeit von Patientinnen mit Mammakarzinom modelliert. Beurteilt werden die Methoden anhand einer Simulationsstudie, bei der typische Risikofunktionen zugrundegelegt wurden. Es konnte gezeigt werden, dass bagging besonders dann zu einer Verbesserung der geschätzen Risikofunktion führt, wenn der Prozess der Modellbildung in den Originaldaten einen instabilen Schätzer liefert. Weitere Aspekte wie z.B. die Anwendung verschiedener Fehlermaße zur Beurteilung der Ergebnisse oder die Verwendung verschiedener Ansätze, Risikofunktionen vergleichbar zu machen, werden ebenfalls diskutiert.; In the analysis of many medical studies the effect of a continuous covariate on an outcome variable is assumed to be linear. However, this assumption is not appropriate in all situations. In this thesis several methods for estimating the functional form of the effect of one continuous covariate are investigated in the framework of the Cox proportional hazards model. In particular, I consider data-independent and data-dependent methods: Using data-independent methods (e.g. restricted cubic splines, the categorisation of the continuous covariate by fix cutpoints) the general functional form is given in advance, the data are used for estimating the parameters of these functions only. With data-dependent methods (e.g. the categorisation by data-driven cutpoints, modeling the effect by fractional polynomials) the functional form is estimated from the data, too. This process of model building can lead to a drastic `overfitting' whereas a specific prespecified functional form may be not suitable to describe the true effect correctly. In order to obtain more appropriate risk functions and to correct for bias caused by model building I extend all methods by adapting a method called bootstrap aggregating (bagging) proposed by Breiman (1996). With this approach the risk function is estimated in a set of bootstrap samples using the same method as in the original data. An aggregated risk function is then obtained by averaging the functions over all bootstrap samples. All methods are illustrated by modeling the effect of the continuous covariate age with respect to recurrence free survival in patients with breast carcinoma. Considering typical risk functions a simulation study was performed in order to assess all methods. It could be shown that bagging is able to improve the estimation of risk functions, if the model selection process led to an unstabe risk function in the original data. Other topics concerning e.g. the use of different error measures for the assessment of the results or the comparison of methods for making risk functions comparable are also discussed. Breiman L (1996): Bagging predictors. Machine Learning, 26:123-140. 1

2002-04-03T00:00:00Z