Eldorado Collection:http://hdl.handle.net/2003/862024-03-28T23:32:21Z2024-03-28T23:32:21ZIdentification and quantification of peaks in spectrometric dataBader, Sabinehttp://hdl.handle.net/2003/258332015-08-12T23:46:36Z2008-11-06T10:53:51ZTitle: Identification and quantification of peaks in spectrometric data
Authors: Bader, Sabine2008-11-06T10:53:51ZMicroarray experiments to estimate heterosisSarholz, Barbarahttp://hdl.handle.net/2003/248912015-08-12T20:58:33Z2007-12-03T15:06:28ZTitle: Microarray experiments to estimate heterosis
Authors: Sarholz, Barbara
Abstract: The genetic causes for heterosis, i.e., the increased performance of a hybrid
plant compared to the parental mean, may be assessed via microarrays.
This thesis addresses design and analysis issues of cDNA-microarray experiments
with regard to the estimation of heterosis. Standard microarray
designs like the loop design or common reference design are not optimal
when estimating heterosis. An optimality criterion is devised and two approaches
to obtain a suitable design are shown: a rather intuitive one and
an approach using simulated annealing. Data transformations are crucial
before analysing microarray data. However, transformations may conceal
interesting expression patterns. It is shown using a Box-Cox transformation
that significance of a heterotic effect is largely influenced by the transformation
parameter. Transformation of the linear predictor in a generalized
linear model has a similar effect and heterotic effects may—at least
partially—be removed by the transformation. For the estimation of linear
contrasts between genotypes, a linear mixed model for each gene is fitted
to the expression values. To improve variance estimates one may benefit
from other genes’ information. Therefore, an empirical Bayes approach is
developed that is capable of including more than one variance component
in the model.2007-12-03T15:06:28ZExtensions of the partial least squares approach for the analysis of biomolecular interactionsKirschbaum, Ninahttp://hdl.handle.net/2003/245842015-08-13T00:38:31Z2007-08-13T11:34:38ZTitle: Extensions of the partial least squares approach for the analysis of biomolecular interactions
Authors: Kirschbaum, Nina2007-08-13T11:34:38ZComparative evaluation of different graphical models for the analysis of gene expression dataGrzegorczyk, Marcohttp://hdl.handle.net/2003/228552015-08-13T00:52:41Z2006-08-28T09:24:50ZTitle: Comparative evaluation of different graphical models for the analysis of gene expression data
Authors: Grzegorczyk, Marco
Abstract: An important problem in systems biology is to infer the architecture of gene regulatory networks and biochemical pathways from postgenomic data. Various reverse engineering methods have been developed and proposed in the Statistics and Bioinformatics literature, and it is important to understand their relative merits and shortcomings. To shed light onto this problem, the learning performances of three widely-used Machine Learning
methodologies: Relevance Networks, Graphical Gaussian models, and Bayesian Networks are
evaluated and compared on different real and synthetic test data sets taken from the RAF
signalling network which describes the interactions between eleven phosphorylated proteins and phospholipids in human immune system cells.2006-08-28T09:24:50ZContributions to statistical techniques for the analysis of gene and protein expression dataJung, Klaushttp://hdl.handle.net/2003/227422015-08-12T22:56:30Z2006-08-10T13:36:55ZTitle: Contributions to statistical techniques for the analysis of gene and protein expression data
Authors: Jung, Klaus2006-08-10T13:36:55ZDirekte EM- und Loglikelihood-Profil-Verfahren in Intervallkartierungsmodellen der PflanzenzuchtEmrich, Katharinahttp://hdl.handle.net/2003/27962015-08-13T00:10:27Z2002-08-28T00:00:00ZTitle: Direkte EM- und Loglikelihood-Profil-Verfahren in Intervallkartierungsmodellen der Pflanzenzucht
Authors: Emrich, Katharina
Abstract: In der quantitativen Genetik versucht man, auf der Grundlage bekannter biologischer Zusammenhänge Aussagen über unbekannte Erbfaktoren zu treffen, welche kollektiv quantitative Eigenschaften hervorrufen. Exemplarisch zu nennen sind Resistenzmechanismen gegen den Maiszünsler, welcher in Mittel - und Südamerika für hohe Ernteausfälle von bis zu 80 % der Maisernte verantwortlich ist. Gelingt es, die Lage (und Ausprägung) der Gene quantitativer Eigenschaften festzustellen, so ermöglicht dies zielgerichtete Reaktionen auf den weltweiten Wandel in Kultur, Landwirtschaft und Klima.
Neuere Verfahren der Intervallkartierung suchen das Genom von Pflanzen schrittweise nach Hinweisen auf vorhandene quantitative Gene ab. Für die Auswertung von Kreuzungsexperimenten werden Modelle auf der Basis gemischter Normalverteilungen gewählt, welche Verteilungsannahmen hinsichtlich der Segregation nicht beobachtbarer Genotypen quantitativer Eigenschaften modellieren. Verwendung finden Modelle mit zufälligen und Modelle mit zufälligen und festen Effekten. Der einfacher in Standardsoftware integrierbare Regressionsansatz wird oft verwendet, indem Mittelwerte der zufälligen Effekte integriert werden. Für die einfachste Form dieses Ansatzes erhält man sehr ähnliche Ergebnisse im Vergleich zu Maximum-Likelihood-Schätzern. In dieser Arbeit wird untersucht, inwieweit die Maximum-Likelihood-Schätzung der Parameter mit Hilfe von iterativen EM-Algorithmen zusätzliche, von den Regressionslösungen abweichende Schätzer liefert. Es muss betont werden, dass der iterative EM-Algorithmus als Funktion des Startwertes gerade keine eindeutigen Ergebnisse, sondern (als Funktion des Lageparameters des gesuchten Gens) mehrere Zweige einer Lösungsmannigfaltigkeit liefert und somit zusätzliche Information in Abhängigkeit von gewählten Startwerten resultiert. Die hier exemplarisch dargestellte Berechnung von EM- und EMV- Maximum-Likelihood-Schätzern der Parameter eines linearen Modells für die Nachkommen der zweiten Generation eines (Inzucht-) Kreuzungsexperimentes kann in jedes andere genetische lineare Modell integriert werden.
Resultate: Hier ist zu betonen, dass zusätzlich zu den analog zur Regressionsanalyse auftretenden "Basislösungen" weitere Maximum-Likelihood-Schätzer gefunden wurden. Diese müssen auf ihre Praxistauglichkeit hin untersucht werden. Insbesondere die als "Kofaktorlösung" bezeichneten Maximum-Likelihood-Schätzer sind aller Wahrscheinlichkeit nach nicht spurios (wobei eine spuriose Lösung eine mathematische Lösung ist, die keine Entsprechung zu naturwissenschaftlichen oder sonstigen empirischen Daten hat) und legen nahe, im genetischen Modell alle Marker (oder aber: keine Marker) zu Kofaktoren zu machen, um Willkür, welche beispielsweise bei der Vorauswahl von Kofaktoren mit Regressionsansätzen stattfindet, auszuschließen.2002-08-28T00:00:00ZThe use of the correlated Weibull and logistic regression models in epidemiologyOdai, Reginald Nii Otoohttp://hdl.handle.net/2003/27972015-08-12T16:32:34Z2003-08-11T00:00:00ZTitle: The use of the correlated Weibull and logistic regression models in epidemiology
Authors: Odai, Reginald Nii Otoo2003-08-11T00:00:00ZEstimating the functional form of the effect of a continuous covariate on survival timeHolländer, Norberthttp://hdl.handle.net/2003/27952015-08-13T00:05:24Z2002-04-03T00:00:00ZTitle: Estimating the functional form of the effect of a continuous covariate on survival time
Authors: Holländer, Norbert
Abstract: Bei der Analyse vieler medizinischer Studien geht man davon aus, dass der Effekt stetiger Kovariablen auf die Zielgröße linear ist. Diese Annahme ist aber nicht immer zutreffend. In dieser Dissertation werden verschiedene Methoden zur Schätzung der funktionalen Form des Effektes einer stetigen Kovariable im Rahmen des Cox'schen proportionalen Hazardmodells untersucht. Dabei werden datenunabhängige und datenabhängige Methoden verwendet. Datenunabhängigkeit bedeutet hier, dass die generelle funktionale Form vorgegeben ist (z.B. bei restricted cubic splines, bei der Kategorisierung der stetigen Kovariable an fest vorgegebenen Cutpoints). Aus den Daten werden lediglich die Parameter dieser Funktionen geschätzt. Bei den datenabhängigen Methoden (z.B. der Kategorisierung anhand Ergebnis-orientierter datenabhängiger Cutpoints, der Modellierung des Effektes durch fractional polynomials) wird zusätzlich die funktionale Form aus den Daten bestimmt. Dieser Prozess der Modellbildung kann zu einem gravierenden `Overfitting' führen. Anhand einer fest vorgegeben Funktion läßt sich dagegen der wahre Effekt möglicherweise nicht korrekt beschreiben. Um eine bessere Schätzung für die Risikofunktion zu erhalten und die negativen Auswirkungen der Modellbildung zu reduzieren habe ich alle Methoden erweitert, indem ich das von Breiman (1996) vorgeschlagene bootstrap aggregating (bagging) auf das vorliegende Problem übertragen habe. Bei diesem Ansatz wird die Risikofunktion in einer Menge von Bootstrap-Stichproben geschätzt, wobei jeweils die gleiche Methode angewendet wird wie in den Originaldaten. Durch Mittelung aller in den Bootstrap-Stichproben geschätzten Risikofunktionen erhält man dann einen neuen aggregierten Schätzer für die Risikofunktion. Zur Illustration aller Methoden wird der Effekt der stetigen Kovariable Alter hinsichtlich der rezidivfreien Überlebenszeit von Patientinnen mit Mammakarzinom modelliert. Beurteilt werden die Methoden anhand einer Simulationsstudie, bei der typische Risikofunktionen zugrundegelegt wurden. Es konnte gezeigt werden, dass bagging besonders dann zu einer Verbesserung der geschätzen Risikofunktion führt, wenn der Prozess der Modellbildung in den Originaldaten einen instabilen Schätzer liefert. Weitere Aspekte wie z.B. die Anwendung verschiedener Fehlermaße zur Beurteilung der Ergebnisse oder die Verwendung verschiedener Ansätze, Risikofunktionen vergleichbar zu machen, werden ebenfalls diskutiert.; In the analysis of many medical studies the effect of a continuous covariate on an outcome variable is assumed to be linear. However, this assumption is not appropriate in all situations. In this thesis several methods for estimating the functional form of the effect of one continuous covariate are investigated in the framework of the Cox proportional hazards model. In particular, I consider data-independent and data-dependent methods: Using data-independent methods (e.g. restricted cubic splines, the categorisation of the continuous covariate by fix cutpoints) the general functional form is given in advance, the data are used for estimating the parameters of these functions only. With data-dependent methods (e.g. the categorisation by data-driven cutpoints, modeling the effect by fractional polynomials) the functional form is estimated from the data, too. This process of model building can lead to a drastic `overfitting' whereas a specific prespecified functional form may be not suitable to describe the true effect correctly. In order to obtain more appropriate risk functions and to correct for bias caused by model building I extend all methods by adapting a method called bootstrap aggregating (bagging) proposed by Breiman (1996). With this approach the risk function is estimated in a set of bootstrap samples using the same method as in the original data. An aggregated risk function is then obtained by averaging the functions over all bootstrap samples. All methods are illustrated by modeling the effect of the continuous covariate age with respect to recurrence free survival in patients with breast carcinoma. Considering typical risk functions a simulation study was performed in order to assess all methods. It could be shown that bagging is able to improve the estimation of risk functions, if the model selection process led to an unstabe risk function in the original data. Other topics concerning e.g. the use of different error measures for the assessment of the results or the comparison of methods for making risk functions comparable are also discussed. Breiman L (1996): Bagging predictors. Machine Learning, 26:123-140. 12002-04-03T00:00:00Z