Eldorado Collection:http://hdl.handle.net/2003/782024-03-28T19:27:24Z2024-03-28T19:27:24ZCompressing data for generalized linear regressionOmlor, Simonhttp://hdl.handle.net/2003/418412023-06-26T22:13:02Z2022-01-01T00:00:00ZTitle: Compressing data for generalized linear regression
Authors: Omlor, Simon
Abstract: In this thesis we work on algorithmic data and dimension reduction techniques to solve scalability issues and to allow better analysis of massive data. For our algorithms we use the sketch and solve paradigm as well as some initialization tricks. We will analyze a tradeoff between accuracy, running time and storage. We also show some lower bounds on the best possible data reduction factors. While we are focusing on generalized linear regression mostly, logistic and p-probit regression to be precise, we are also dealing with two layer Rectified Linear Unit (ReLU) networks with logistic loss which can be seen as an extension of logistic regression, i.e. logistic regression on the neural tangent kernel. We present coresets via sampling, sketches via random projections and several algorithmic techniques and prove that our algorithms are guaranteed to work with high probability.
First, we consider the problem of logistic regression where the aim is to find the parameter beta maximizing the likelihood. We are constructing a sketch in a single pass over a turnstile data stream. Depending on some parameters we can tweak size, running time and approximation guarantee of the sketch. We also show that our sketch works for other target functions as well.
Second, we construct an epsilon-coreset for p-probit regression, which is a generalized version of probit regression. Therefore, we first compute the QR decomposition of a sketched version of our dataset in a first pass. We then use the matrix R to compute an approximation of the l_p-leverage scores of our data points which we use to compute sampling probabilities to construct the coreset. We then analyze the negative log likelihood of the p-generalized normal distribution to prove that this results in an epsilon-coreset.
Finally, we look at two layer ReLU networks with logistic loss. Here we show that using a coupled initialization we can reduce the width of the networks to get a good approximation down from gamma^(-8) (Ji and Telgarsky, 2020) to gamma^(-2) where gamma is the so called separation margin. We further give an example where we prove that a width of gamma^(−1) is necessary to get less than constant error.2022-01-01T00:00:00ZSpatial and spatio-temporal regression modelling with conditional autoregressive random effects for epidemiological and spatially referenced dataDjeudeu-Deudjui, Dany-Armandhttp://hdl.handle.net/2003/410062022-08-17T05:31:09Z2022-01-01T00:00:00ZTitle: Spatial and spatio-temporal regression modelling with conditional autoregressive random effects for epidemiological and spatially referenced data
Authors: Djeudeu-Deudjui, Dany-Armand
Abstract: Regression models are suitable to analyse the association between health outcomes and environmental exposures. However, in urban health studies where spatial and temporal changes are of importance, spatial and spatio-temporal variations are usually neglected. This thesis develops and applies regression methods incorporating latent random effects terms with Conditional Autoregressive (CAR) structures in classical regression models to account for the spatial effects for cross-sectional analysis and spatio-temporal effects for longitudinal analysis. The thesis is divided into two main parts.
Firstly, methods to analyse data for which all variables are given on an areal level are considered. The longitudinal Heinz Nixdorf Recall Study is used throughout this thesis for application. The association between the risk of depression and greenness at the district level is analysed. A spatial Poisson model with a latent CAR structured-Random effect is applied for selected time points. Then, a sophisticated spatio-temporal extension of the Poisson model results to a negative association between greenness and depression. The findings also suggest strong temporal autocorrelation and weak spatial effects. Even if the weak spatial effects are suggestive of neglecting them, as in the case of this thesis, spatial and spatio-temporal random effects should be taken into account to provide reliable inference in urban health studies.
Secondly, to avoid ecological and atomic fallacies due to data aggregation and disaggregation, all data should be used at their finest spatial level given. Multilevel Conditional Autoregressive (CAR) models help to simultaneously use all variables at their initial spatial resolution and explain the spatial effect in epidemiological studies. This is especially important where subjects are nested within geographical units. This second part of the thesis has two goals. Essentially, it further develops the multilevel models for longitudinal data by adding existing random effects with CAR structures that change over time. These new models are named MLM tCARs. By comparing the MLM tCARs to the classical multilevel growth model via simulation studies, we observe a better performance of MLM tCARs in retrieving the true regression coefficients and with better fits. The models are comparatively applied on the analysis of the association between greenness and
depressive symptoms at the individual level in the longitudinal Heinz Nixdorf Recall Study. The results show again negative association between greenness and depression and a decreasing linear individual time trend for all models. We observe once more very weak spatial variation and moderate temporal autocorrelation.
Besides, the thesis provides comprehensive decision trees for analysing data in epidemiological
studies for which variables have a spatial background.2022-01-01T00:00:00ZRiver-mediated dynamic environmental factors and perinatal data analysisRathjens, Jonathanhttp://hdl.handle.net/2003/405842021-12-02T23:12:44Z2021-01-01T00:00:00ZTitle: River-mediated dynamic environmental factors and perinatal data analysis
Authors: Rathjens, Jonathan
Abstract: Perfluorooctanoic acid (PFOA) and related per- and polyfluoroalkyl substances, a group of man-made persistent organic chemicals employed for many products, are widely distributed in the environment. Adverse health effects may occur even at low exposure levels. A large-scale PFOA contamination of drinking water resources, especially of the river Ruhr, was detected in North Rhine-Westphalia, Germany, in summer 2006. Subsequent measurements are available from the water supply stations along the river and elsewhere. The first state-wide environmental-epidemiological study on the general population analyses these secondary data together with routinely collected perinatal registry data, to estimate possible developmental-toxic effects of PFOA exposure, especially regarding birth weight (BW).
Drinking water data are temporally and spatially modelled to assign estimated exposure values to the residents. A generalised linear model with an inverse link deals with the steeply decreasing temporal data pattern at mainly affected stations. Confirmed by a river-wide joint model, the river's segments between the main junctions are the most important factor to explain the spatial structure, besides local effects. Deductions from stations to areal units are made possible via estimated supply proportions.
Regression of perinatal data with BW as response usually includes the gestational age (GA) as an important covariate in polynomial form. However, bivariate modelling of BW and GA is recommended to distinguish effects on each, on both, and between them. Bayesian distributional copula regression is applied, where the marginals for BW and GA as well as the copula representing their dependence structure are fitted independently and all parameters are estimated conditional on covariates. While a Gaussian is suitable for BW, the skewed GA data are better modelled by the three-parametric Dagum distribution. The Clayton copula performs better than the Gumbel and the symmetric Gaussian copula, although the lower tail dependence is weak. A non-linear trend of BW on GA is detected by the standard polynomial model. Linear effects of biometric and obstetric covariates and also of maternal smoking on BW mean are similar in both models, while the distributional copula regression also reveals effects on all other parameters.
The local PFOA exposure is spatio-temporally assigned to the perinatal data of the most affected town of Arns\-berg and so included in the regression models. No significant effect results and a relatively high amount of noise remains. Perspectively and for larger regions, this can be dealt with by exposure modelling on area level using dependence information, by allowing further asymmetry in the bivariate distribution of BW and GA, and by respecting geographical structures in birth data.2021-01-01T00:00:00ZSpatial and temporal analyses of perfluorooctanoic acid in drinking water for external exposure assessment in the Ruhr metropolitan area, GermanyRathjens, JonathanBecker, EvaKolbe, ArthurIckstadt, KatjaHölzer, Jürgenhttp://hdl.handle.net/2003/401202021-03-30T22:10:25Z2020-12-04T00:00:00ZTitle: Spatial and temporal analyses of perfluorooctanoic acid in drinking water for external exposure assessment in the Ruhr metropolitan area, Germany
Authors: Rathjens, Jonathan; Becker, Eva; Kolbe, Arthur; Ickstadt, Katja; Hölzer, Jürgen
Abstract: Perfluorooctanoic acid (PFOA) and related chemicals among the per- and polyfluoroalkyl substances are widely distributed in the environment. Adverse health effects may occur even at low exposure levels. A large-scale contamination of drinking water resources, especially the rivers Möhne and Ruhr, was detected in North Rhine-Westphalia, Germany, in summer 2006. As a result, concentration data are available from the water supply stations along these rivers and partly from the water network of areas supplied by them. Measurements started after the contamination’s discovery. In addition, there are sparse data from stations in other regions. Further information on the supply structure (river system, station-to-area relations) and expert statements on contamination risks are available. Within the first state-wide environmental-epidemiological study on the general population, these data are temporally and spatially modelled to assign estimated exposure values to the resident population. A generalized linear model with an inverse link offers consistent temporal approaches to model each station’s PFOA data along the river Ruhr and copes with a steeply decreasing temporal data pattern at mainly affected locations. The river’s segments between the main junctions are the most important factor to explain the spatial structure, besides local effects. Deductions from supply stations to areas and, therefore, to the residents’ risk are possible via estimated supply proportions. The resulting potential correlation structure of the supply areas is dominated by the common water supply from the Ruhr. Other areas are often isolated and, therefore, need to be modelled separately. The contamination is homogeneous within most of the areas.2020-12-04T00:00:00ZStreaming statistical models via Merge & ReduceGeppert, Leo N.Ickstadt, KatjaMunteanu, AlexanderSohler, Christianhttp://hdl.handle.net/2003/400912021-03-22T23:10:22Z2020-06-12T00:00:00ZTitle: Streaming statistical models via Merge & Reduce
Authors: Geppert, Leo N.; Ickstadt, Katja; Munteanu, Alexander; Sohler, Christian
Abstract: Merge & Reduce is a general algorithmic scheme in the theory of data structures. Its main purpose is to transform static data structures—that support only queries—into dynamic data structures—that allow insertions of new elements—with as little overhead as possible. This can be used to turn classic offline algorithms for summarizing and analyzing data into streaming algorithms. We transfer these ideas to the setting of statistical data analysis in streaming environments. Our approach is conceptually different from previous settings where Merge & Reduce has been employed. Instead of summarizing the data, we combine the Merge & Reduce framework directly with statistical models. This enables performing computationally demanding data analysis tasks on massive data sets. The computations are divided into small tractable batches whose size is independent of the total number of observations n. The results are combined in a structured way at the cost of a bounded O(logn) factor in their memory requirements. It is only necessary, though nontrivial, to choose an appropriate statistical model and design merge and reduce operations on a casewise basis for the specific type of model. We illustrate our Merge & Reduce schemes on simulated and real-world data employing (Bayesian) linear regression models, Gaussian mixture models and generalized linear models.2020-06-12T00:00:00ZStatistical modeling of protein-protein interaction networksFermin Ruiz, Yessica Yuliethhttp://hdl.handle.net/2003/382022019-09-05T01:40:46Z2018-01-01T00:00:00ZTitle: Statistical modeling of protein-protein interaction networks
Authors: Fermin Ruiz, Yessica Yulieth
Abstract: Understanding how proteins bind to each other in a cell is the key in molecular biology to determine how experts can repair anomalies in cells. The major challenge in the prediction of protein-protein interactions is the cell-to-cell heterogeneity within a sample, due to genetic and epigenetic variabilities. Most studies about protein-protein interaction carry out their analysis without awareness of the underlying heterogeneity. This situation can lead to the identification of invalid interactions. As part of the solution to this problem, we proposed in this thesis two aspects of analysis, one for snapshot data, where different samples of ten proteins were taken by toponome imaging and another for the analysis of time correlated data that guarantees a better approximation to the prediction of protein-protein interactions. The latter represents an advance in the analysis of data with high temporal resolution, such as that obtained through the quantification technique known as multicolor live cell imaging. The thesis here presented is divided into two parts: The first part called "Revealing relationships among proteins involved in assembling focal adhesions" consists of the development of a methodology based on frequentist methods, such as machine learning and meta-analysis, for the prediction of protein-protein interaction on six different toponome imaging datasets. This methodology presents an advance in the analysis of highly heterogeneous snapshot data. Our aim here focused on the formulation of a single model capable of identifying the relationship among different samples by summing is common results over them concerning their random variation. This methodology leads to a set of common models over the six datasets hierarchized by their predictive power, where the researcher can choose the model according to its accuracy in the prediction or according to its parsimony. The developing of this part is in Chapters 1-7 â this part published in Harizanova et al. (2016).
The second part is called "Modelling of temporal networks with a nonparametric mixture of dynamic Bayesian networks". The content of this part contemplates the advance of a Bayesian methodology regarding temporal networks that successfully enables to identify subpopulations in heterogeneous cell populations as well as at the same time reconstructing the protein interaction network associated with each subpopulation. This method extends the nonparametric Bayesian networks (NPBNs) (Ickstadt et al., 2011) for the analysis of time-correlated data by using Gaussian dynamic Bayesian Networks (GDBNs). We evaluate our model based on the variation of specific parameters such as the underlying number of subpopulations, network density, intra-subpopulation variability among others. On the other hand, a comparative analysis with existing clustering methods such as NPBNs and hierarchical agglomerative clustering (Hclust), shows that the inclusion of temporal correlations in the classification of multivariate time series is relevant for an improvement in the classification. The classic Hclust method using the dynamic time warping distances (T-Hclust) was found to be similar in precision to our Bayesian method here proposed. On the other hand, a comparative analysis with the GDBNs shows the lack of adjustment of the GDBNs to reconstruct temporal networks in heterogeneous cell populations through a single model, while our method, as well as the joint use of the T-Hclust classifications with the GDBNs (T-Hclust+), show a high adequacy in the prediction of temporal networks in a mixture. The developing of this part is in Chapters 8-16.2018-01-01T00:00:00ZSubgroup analyses and investigations of treatment effect heterogeneity in clinical dose-finding trialsThomas, Mariushttp://hdl.handle.net/2003/379482019-07-17T08:56:56Z2019-01-01T00:00:00ZTitle: Subgroup analyses and investigations of treatment effect heterogeneity in clinical dose-finding trials
Authors: Thomas, Marius
Abstract: Identifying subgroups, which respond differently to a treatment is an important part of drug development. Exploratory subgroup analyses, which have the aim to identify subgroups of
patients with differential treatment effects are thus common in many randomized clinical trials.
Statistically these analyses are known to be challenging the number of possible subgroups is often large, which leads to multiplicity issues. Often such subgroup analyses are also performed for early phase clinical trials, where an additional challenge is the small sample size.
In recent years several statistical approaches to these problems have been proposed, employing for example tree-based recursive partitioning algorithms, which are well-suited for handling interactions, penalized regression methods, which can be used to prevent overfitting when explicitly modeling a large number of covariate effects or Bayesian approaches, which allow incorporating uncertainty and can be used to make optimal decisions with regard to subgroups. The available literature focuses however on two-arm clinical trials, where patients are randomized to the experimental treatment or a control (e.g. current standard of care or placebo).
A particular focus of this cumulative thesis is the development of statistical methodology for identification of subgroups in dose-finding trials, in which patients are administered several doses of a new drug. Dose-finding trials play a key role in the drug development process, since
they provide valuable information about the effect of the dose on efficacy and safety.
For identifying subgroups in this setting we consider the treatment effect to be a function of the dose and then try to identify relevant covariate effects on this treatment effect curve. These identified covariates can then be used to define subgroups with higher treatment effects but also subgroups, which require a different dose of the treatment. We propose two different approaches for this purpose. Firstly, a tree-based recursive partitioning algorithm, which detects covariate effects on the parameters of dose-response models and builds a tree of subgroups with different dose-response curves. Secondly, a Bayesian hierarchical model, which makes use of shrinkage priors to prevent overfitting in the considered settings with low sample sizes and a large number of considered covariates.
In addition to approaches for subgroup identification we also consider the problem of testing a prespecified subgroup in addition to the full population in dose-finding trials. In a dose-finding setting contrast tests are often used to test for a significant dose-response signal, while taking the underlying dose-response relationship into account. Optimal contrast tests can be derived, when the underlying dose-response model is known, however often there is uncertainty about this underlying model. Testing procedures, which allow for uncertainty with regard to the underlying model and perform multiple contrast tests are therefore popular approaches in such settings. As a part of this thesis we extend such approaches to settings with multiple populations, in particular the situation, in which a prespecified subgroup is considered in addition to the full population.
A last part of this cumulative thesis focuses on treatment effect estimation in identified subgroups. Naive treatment effect estimates in subgroups will often suffer from selection bias, especially when the number of considered subgroups is large. Several approaches to obtain adjusted treatment effect estimates in such situations have been proposed, using resampling, model averaging or penalized regression. We compare these approaches in an extensive simulation study for a large range of scenarios, in which such analyses are performed.2019-01-01T00:00:00ZBayesian and frequentist regression approaches for very large data setsGeppert, Leo Nikolaushttp://hdl.handle.net/2003/379462019-03-20T02:40:44Z2018-01-01T00:00:00ZTitle: Bayesian and frequentist regression approaches for very large data sets
Authors: Geppert, Leo Nikolaus
Abstract: This thesis is concerned with the analysis of frequentist and Bayesian regression models for data sets with a very large number of observations. Such large data sets pose a challenge when conducting regression analysis, because of the memory required (mainly for frequentist regression models) and the running time of the analysis (mainly for Bayesian regression models). I present two different approaches that can be employed in this setting.
The first approach is based on random projections and reduces the number of observations to manageable level as a first step before the regression analysis. The reduced number of observations depends on the number of variables in the data set and the desired goodness of the approximation. It is, however, independent of the number of observations in the original data set, making it especially useful for very large data sets. Theoretical guarantees for Bayesian linear regression are presented, which extend known guarantees for the frequentist case. The fundamental theorem covers Bayesian linear regression with arbitrary normal distributions or non-informative uniform distributions as prior distributions. I evaluate how close the posterior distributions of the original model and the reduced data set are for this theoretically covered case as well as for extensions towards hierarchical models and models using q-generalised normal distributions as prior.
The second approach presents a transfer of the Merge & Reduce-principle from data structures to regression models. In Computer Science, Merge & Reduce is employed in order to enable the use of static data structures in a streaming setting. Here, I present three possibilities of employing Merge & Reduce directly on regression models. This enables sequential or parallel analysis of subsets of the data set. The partial results are then combined in a way that recovers the regression model on the full data set well. This approach is suitable for a wide range of regression models. I evaluate the performance on simulated and real world data sets using linear and Poisson regression models.
Both approaches are able to recover regression models on the original data set well. They thus offer scalable versions of frequentist or Bayesian regression analysis for linear regression as well as extensions to generalised linear models, hierarchical models, and q-generalised normal distributions as prior distribution. Application on data streams or in distributed settings is also possible. Both approaches can be combined with multiple algorithms for frequentist or Bayesian regression analysis.2018-01-01T00:00:00ZStatistische Analyse und Modellierung von Clusterphänomenen bei Signalproteinen in der PlasmamembranSiebert, Sabrinahttp://hdl.handle.net/2003/358162017-02-16T07:02:44Z2016-01-01T00:00:00ZTitle: Statistische Analyse und Modellierung von Clusterphänomenen bei Signalproteinen in der Plasmamembran
Authors: Siebert, Sabrina
Abstract: In der vorliegenden Arbeit wurde sich mit Clusterphänomenen von Signalproteinen beschäftigt. Diese Proteine sind dabei in der Plasmamembran lokalisiert und für die Kommunikation und den Stoffaustausch der Zelle zuständig. Die Daten wurden mit Hilfe von Fluoreszenzmikroskopie am Max-Planck-Institut für molekulare Physiologie in Dortmund in der Arbeitsgruppe von Dr. Peter J. Verveer erhoben.
Um die Clusterphänomene zu untersuchen, können unterschiedliche Blickwinkel und Fragestellungen betrachtet werden. In dieser Arbeit wurde eine zeitliche, eine räumliche und eine zeitlich-räumliche Analyse entsprechender Daten vorgenommen.
In der zeitlichen Analyse wurden Proteinzeitreihen untersucht. Die Proteinzeitreihe ergibt sich aus der Messung der Lichtintensität eines Spots, d.h. eines Proteinclusters, über die Zeit hinweg. Das Ziel ist hier die Segmentierung eben dieser Proteinzeitreihe. Hier wurde ein Bayessches hierarchisches Modell zur Segmentierung genutzt. Dieses lieferte dabei sinnvolle Ergebnisse, wobei jedoch zu beachten war, dass die Anzahl an Segmenten stets als fest angesehen wurde. Um diese Einschränkung aufzuheben, wurde ein Reversible Jump Schritt in das Modell aufgenommen. Mit dieser Erweiterung konnten nun sinnvolle Ergebnisse mit einer höheren Flexibilität für den Anwender erreicht werden.
In der räumlichen Analyse wurde ein Pixelbild aus einer Messung einer lebenden Zelle mit Hilfe von TIRF-Mikroskopie untersucht. Ziel war hier die räumliche Clusterstruktur zu untersuchen, wobei sich auf den Anteil an Proteinen in Clustern beschränkt wurde. Dafür wurden zunächst unterschiedliche Methoden auf einer simulierten Region untersucht. Mit Hilfe dieser Ergebnisse konnte ein Anwendungsschema zur effizienten Kombination eben dieser Methoden aufgestellt werden. Dieses wurde abschließend auf einen experimentellen Datensatz sowie auf eine Dual Colour Simulation angewendet. Es zeigte sich, dass durch das Vorgehen des Schemas die Parameterwahl für einige Methoden vereinfacht wurde und sinnvolle Ergebnisse berechnet werden konnten.
Abschließend wurden in der räumlich-zeitlichen Analyse Proteintracks untersucht. Diese Proteintracks geben den Weg eines Proteins in der Zellmembran über die Zeit hinweg an. Diese Messung wurde simultan für zwei Proteinarten durchgeführt, sodass hier erneut der Dual Colour Fall vorliegt. Ziel war die Bestimmung von Zusammenhängen zweier Proteintracks unterschiedlicher Proteinarten. Um den Zusammenhang bestmöglich berechnen zu können, wurde zunächst diskutiert, welche Eigenschaften einen hohen Zusammenhang repräsentieren. Anschließend wurden diese Eigenschaften zu einem Zusammenhangsmaß zusammen gefügt. Mit diesem Maß wurden zum einen ein simuliertes Beispiel und zum anderen experimentelle Daten analysiert. Es zeigte sich, dass Abhängigkeitsstrukturen durch das Maß gut widergespiegelt wurden und mit Hilfe von Cutoffs eine Auswahl entsprechender Proteintracks erfolgen konnte. Durch diese Auswahl konnten weiter interessante Regionen sowie Cluster identifiziert werden.
Description: Die CD mit den Dateien "BayesschesHierarchischesModell.R" und "KorrelationsanalyseProteintracks.R" ist nur in der Printausgabe, TU Dortmund, Signatur DissDo 2017/7 enthalten.2016-01-01T00:00:00ZBayesian prediction for stochastic process models in reliabilityHermann, Simonehttp://hdl.handle.net/2003/357562017-01-20T03:00:13Z2016-01-01T00:00:00ZTitle: Bayesian prediction for stochastic process models in reliability
Authors: Hermann, Simone2016-01-01T00:00:00ZUnimodal spline regression and its use in various applications with single or multiple modesKöllmann, Claudiahttp://hdl.handle.net/2003/352272016-10-10T08:41:23Z2016-01-01T00:00:00ZTitle: Unimodal spline regression and its use in various applications with single or multiple modes
Authors: Köllmann, Claudia
Abstract: Research in the field of non-parametric shape constrained regression has been extensive and there is need for such methods in various application areas, since shape constraints can reflect prior knowledge about the underlying relationship. This thesis develops semi-parametric spline regression approaches to unimodal regression.
However, the prior knowledge in different applications is also of increasing complexity and data shapes may vary from few to plenty of modes and from piecewise unimodal to accumulations of identically or diversely shaped unimodal functions. Thus, we also go beyond unimodal regression in this thesis and propose to capture multimodality by employing piecewise unimodal regression or deconvolution models based on unimodal peak shapes.
More explicitly, this thesis proposes unimodal spline regression methods that make use of Bernstein-Schoenberg-splines and their shape preservation property. To achieve unimodal and smooth solutions we use penalized splines, and extend the penalized spline approach towards penalizing against general parametric functions, instead of using just difference penalties. For tuning parameter selection under a unimodality constraint a restricted maximum likelihood and an alternative Bayesian approach for unimodal regression are developed. We compare the proposed methodologies to other common approaches in a simulation study and apply it to a dose-response data set. All results suggest that the unimodality constraint or the combination of unimodality and a penalty can substantially improve estimation of the functional relationship.
A common feature of the approaches to multimodal regression is that the response variable is modelled using several unimodal spline regressions. This thesis examines mixture models of unimodal regressions, piecewise unimodal regression and deconvolution models with identical or diverse unimodal peak shapes. The usefulness of these extensions of unimodal regression is demonstrated by applying them to data sets from three different application areas: marine biology, astroparticle physics and breath gas analysis.
The proposed methodologies are implemented in the statistical software environment R and the implementations and their usage are explained in this thesis as well.2016-01-01T00:00:00ZEntmischung und Inferenz biomolekularer NetzwerkeWieczorek, Jakob Janhttp://hdl.handle.net/2003/345062016-02-13T03:00:10Z2015-01-01T00:00:00ZTitle: Entmischung und Inferenz biomolekularer Netzwerke
Authors: Wieczorek, Jakob Jan
Abstract: In dieser Arbeit werden neue statistische Konzepte zur Erkennung
und Analyse von Interaktionsmustern vorgestellt. Diese werden
sowohl an simulierten Daten aus dem Erk-Signalübertragungsnetzwerk
als auch an experimentellen Daten des mating pathways der Hefe mit
Erfolg zur Anwendung gebracht.
Methodisch kann die Arbeit in zwei Themenschwerpunkte eingeteilt
werden. Den Hauptschwerpunkt bildet das aus den Bayesschen
Netzwerken entwickelte Verfahren der Nichtparametrischen
Bayesschen Netzwerke. Dieses ist, so weit bekannt, als einzige
Netzwerkinferenzmethode in der Lage, Subgruppen innerhalb der
Daten zu erkennen und die Beobachtungen zu partitionieren. Weiter
gelingt es in dieser Arbeit, neben dem Dirichlet-Prozess den
Pitman-Yor-Prozess als a priori Verteilung der Clusterstruktur zu
adaptieren. Beide Varianten des Verfahrens werden bezüglich ihrer
Leistungsfähigkeit bei der Entmischung von Beobachtungen
untersucht. Den zweiten Schwerpunkt der Arbeit bildet die
Entwicklung einer Methode zur Schätzung von
Proteinkonzentrationen, dem Komplexeschätzer. Mit ihm ist es
möglich, aus Fluoreszenzkorrelationsspektroskopiemessungen (FCS)
nicht wie bisher nur feste Gruppen von Proteinen zu
quantifizieren, sondern gezielt einzelne Proteine und beliebige
vom Anwender ausgewählte Gruppen von Proteinen zu bestimmen. Dies
stellt eine deutliche Verbesserung zum gegenwärtigen Standard dar
und erhöht den Informationsgewinn durch FCS-Messungen
entscheidend. Mit Hilfe dieser Methode konnte eine in der Biologie
bisher unbekannte Rückkopplung im Hefe mating pathway gefunden
werden. Im Rahmen der Arbeit wird außerdem ein Konzept zum
Clustern von gerichteten azyklischen Graphen (DAGs) entwickelt. Im
Gegensatz zu den in der Literatur vorgeschlagenen Verfahren werden
an die Daten keine speziellen Anforderungen gestellt. Es müssen
lediglich DAGs eines festen Zeitpunkts verwendet werden. Konkret
wird ein Distanzbegriff für DAGs entwickelt, welcher die
Eigenschaften einer Semimetrik erfüllt. Mit ihm ist es möglich
eine sinnvolle Ähnlichkeitsmatrix aufzustellen, welche zum
Clustern benutzt werden kann.2015-01-01T00:00:00ZFinite Bayesian mixture models with applications in spatial cluster analysis and bioinformaticsSchäfer, Martinhttp://hdl.handle.net/2003/343922015-12-08T02:40:30Z2015-01-01T00:00:00ZTitle: Finite Bayesian mixture models with applications in spatial cluster analysis and bioinformatics
Authors: Schäfer, Martin
Abstract: In many statistical applications, one encounters populations that form homogenous subgroups regarding one or several characteristics. Across the subgroups, however, heterogeneity may often be found. Mixture distributions are a natural means to model data from such applications.
This PhD thesis is based on two projects that focus on such applications. In the first project, spatial nanoscale clusters formed by Ras proteins in the cell membrane are investigated. Such clusters play a crucial role in intracellular communication and are thus of interest in cancer research. In this case, the subgroups are clustered and non-clustered proteins.
In the second project, epigenomic data obtained from sequencing experiments are integrated with another genomic or epigenomic input, aiming, e.g., to detect genes that contribute to the development of cancer. Here, the subgroups are defined by a) genes presenting congruent (epi)genomic aberrations in both considered variables, b) genes presenting incongruent aberrations, and c) genes lacking aberrations in at least one of the variables.
Employing a Bayesian framework, objects are classified in both projects by fitting finite univariate mixture distributions with a small fixed number of components to values from a score summarizing relevant information about the research question. Such mixture distributions have favorable characteristics in terms of interpretation and present little sensitivity to label switching in Markov Chain Monte Carlo analyses. Mixtures of gamma distributions are considered for Ras proteins, while mixtures of normal and exponential or gamma distributions are a focus for the bioinformatic analysis. In the latter, classification is the primary goal, while in the Ras protein application, estimating key parameters of the spatial clustering is of more interest.
The results of both projects are presented in this thesis. For both applications, the methods have been implemented in software and their performance is compared with competing approaches on experimental as well as on simulated data. To warrant an appropriate simulation of Ras protein patterns, a new cluster point process model called the double Matérn cluster process is developed and described in this thesis.2015-01-01T00:00:00ZIntegrativer Ansatz zur Identifizierung neuer, prognostisch relevanter Metagene mittels ClusteranalyseFreis, Evgeniahttp://hdl.handle.net/2003/336802015-08-13T01:36:25Z2014-01-01T00:00:00ZTitle: Integrativer Ansatz zur Identifizierung neuer, prognostisch relevanter Metagene mittels Clusteranalyse
Authors: Freis, Evgenia
Abstract: In Germany, breast cancer is the most common leading cause of cancer deaths in women. To gain insight into the processes related to the course of the disease, human genetic data can be used to identify associations between gene expression and prognosis. In the course of the several clinical studies and numerous microarray experiments, the enormous data volume is constantly generated. Its dimensionality reduction of thousands of genes to a smaller number is the aim of the so-called metagenes that aggregate the expression data of groups of genes with similar expression patterns and may be used for investigating complex diseases like breast cancer. Here, a cluster analytic approach for identification of potentially relevant metagenes is introduced. In a first step of the approach, gene expression patterns over time of receptor tyrosine kinase ErbB2 breast cancer MCF7 cell lines to obtain promising sets of genes for a metagene calculation were used. Three independent batches of MCF7/NeuT cells were exposed to doxycycline for periods of 0, 6, 12 and 24 hours as well as for 3 and 14 days in independent experiments, due to association of the oncogenic variant of ErbB2 overexpression in breast cancer with worse prognosis. With cluster analytic approaches DIB-C (difference-based clustering algorithm) and STEM (short time-series expression miner) as well as with the finite and infinite mixture models gene clusters with similar expression patterns were identified. Two non-model-based algorithms – k-means and PFP (penalized frame potential) – as well as the model-based procedure DIRECT were applied for the method comparisons. Potentially relevant gene groups were selected by promoter and Gene Ontology (GO) analysis. The verification of the applied methods was carried out with another short time-series data set. In the second step of the approach, this gene clusters were used to calculate metagenes of the gene expression data of 766 breast cancer patients from three breast cancer studies and Cox models were applied to determine the effect of the detected metagenes on the prognosis. Using this strategy, new metagenes associated with metastasis-free survival patients were identified.; In Deutschland ist Brustkrebs die häufigste Krebserkrankung bei Frauen. Durch zahlreiche klinische Studien auf diesem Gebiet konnte festgestellt werden, dass die veränderten Gene zwar nicht zwangsläufig zum Ausbruch der Krankheit führen, deren Expressionen jedoch näher analysiert werden sollten, um das Karzinom rechtzeitig zu erkennen und dadurch bessere Therapien zu ermöglichen. Hierbei wird durch die Microarray-Experimente ein enormes Datenvolumen generiert, deren Dimensionsreduktion von mehreren Tausend Genen zu einer deutlich kleineren Anzahl angestrebt wird. Eine Möglichkeit bieten die sogenannten Metagene, zu denen Gene mit ähnlichen Expressionen zusammengefasst werden können und die sich als prognostische Faktoren für das Überleben der Patienten erwiesen haben. In der vorliegenden Arbeit wird ein neuer integrativer Ansatz zur Clusterung kurzer Expressionszeitreihen zur Identifizierung prognostisch relevanter Metagene vorgestellt. Der erste Teil des Ansatzes beruht auf der Analyse humaner Mammakarzinom-Zelllinien MCF7. Die onkogene Variante der Rezeptortyrosinkinase ErbB2, deren Überexpression mit einer schlechteren Prognose assoziiert ist, wurde in diesen MCF7-Zelllinien induziert und zu den Zeitpunkten 0, 6, 12 und 24 Stunden sowie und 3 und 14 Tagen nach der Induktion beobachtet. Mit den Clusteranalyseansätzen DIB-C (difference-based clustering algorithm) und STEM (short time-series expression miner) sowie mit den finiten und den infiniten Mischungsmodellen werden hier Gengruppen mit ähnlichen Expressionsverläufen identifiziert. Als Vergleichsmethoden werden die nicht-modellbasierten Algorithmen k-means und PFP (penalized frame potential) und das in R implementierte Tool DIRECT als modellbasierter Vergleich zur Analyse herangezogen. Mit der Gene Ontology (GO) - bzw. Promoteranalyse werden die biologisch interessantesten Cluster ermittelt. Zur Verifizierung der hier angewendeten Methoden wird ein weiterer Datensatz mit Expressionswerten kurzer Zeitreihen erfolgreich herangezogen. Im zweiten Teil des Ansatzes werden für diese Gruppen Metagene gebildet und auf ihre prognostische Relevanz in den Brustkrebsdaten von 766 Patientinnen mittels Überlebenszeitanalyse untersucht und so neue biologisch relevante Cluster aufgedeckt.2014-01-01T00:00:00ZEnrichment design and sensitivity preferred classificationAgueusop, Inoncenthttp://hdl.handle.net/2003/336352015-08-13T00:39:27Z2014-10-06T00:00:00ZTitle: Enrichment design and sensitivity preferred classification
Authors: Agueusop, Inoncent2014-10-06T00:00:00ZAdaption und Vergleich evolutionärer mehrkriterieller Algorithmen mit Hilfe von VariablenwichtigkeitsmaßenCasjens, Swaantje Wiardahttp://hdl.handle.net/2003/304312015-08-12T19:20:11Z2013-07-22T00:00:00ZTitle: Adaption und Vergleich evolutionärer mehrkriterieller Algorithmen mit Hilfe von Variablenwichtigkeitsmaßen
Authors: Casjens, Swaantje Wiarda
Abstract: Bei der Herleitung eines Klassifikationsmodells ist neben der Vorhersagegüte auch die Güte der Variablenauswahl ein wichtiges Kriterium. Bei Einflussvariablen mit unterschiedlichen Kosten ist eine kostensensitive Klassifikation erstrebenswert, bei der ein Kompromiss aus hoher Vorhersagegüte und geringen Kosten getroffen werden kann. Werden konfliktäre Ziele, wie etwa hier die Vorhersagegüte und die Kosten, gleichzeitig optimiert, entsteht ein mehrkriterielles Optimierungsproblem, für das keine einzelne sondern eine Menge unvergleichbarer Lösungen existieren.
Für das Auffinden der unvergleichbaren Lösungen sind evolutionäre mehrkriterielle Optimierungsalgorithmen (EMOAs) gut geeignet, da sie unter anderem nach verschiedenen Lösungen parallel suchen können und unabhängig von der zugrunde liegenden Datenverteilung sind. Häufig werden EMOAs für die Lösung mehrkriterieller Klassifikationsprobleme in Form von Wrapper-Ansätzen verwendet, wobei die EMOA-Individuen als binäre Zeichenketten (Bitstrings) codiert sind und jedes Bit die Verfügbarkeit der entsprechenden Einflussvariable beschreibt. Basierend auf diesen Variablenteilmengen und gegebenen Daten erstellt der umhüllte (wrapped) Klassifikationsalgorithmus ein Klassifikationsmodell, mit dem Ziel die Vorhersagegüte zu optimieren. Erst nach der Konstruktion des Klassifikationsmodells können weitere Zielkriterien, wie etwa die Kosten der selektierten Variablen, ausgewertet werden. Damit entsteht eine Hierarchie der zu optimierenden Zielkriterien mit Vorteil für die Vorhersagegüte, sodass durch einen mehrkriteriellen Wrapper-Ansatz keine nicht-hierarchischen Lösungen gefunden werden können. Diese Hierarchie der Zielfunktionen wird erstmals in Rahmen dieser Arbeit beschrieben und untersucht.
Als Alternative zum mehrkriteriellen Wrapper-Ansatz wird in dieser Arbeit ein nicht-hierarchischer evolutionärer mehrkriterieller Optimierungsalgorithmus mit Baum-Repräsentation (NHEMOtree) entwickelt, um mehrkriterielle Optimierungsprobleme mit gleichberechtigten Optimierungszielen zu lösen. NHEMOtree basiert auf einem EMOA mit Baum-Repräsentation, der ohne internen Klassifikationsalgorithmus die Variablenselektion vollzieht und ohne Hierarchie in den Zielfunktionen mehrkriteriell optimierte binäre Entscheidungsbäume erstellt. Des Weiteren werden ein auf mehrkriteriellen Variablenwichtigkeitsmaßen (VIMs) basierter Rekombinationsoperator für NHEMOtree und eine NHEMOtree-Version mit lokaler Cutoff-Optimierung entwickelt.
In dieser Arbeit werden erstmalig die Lösungen einer mehrkriteriellen Optimierung durch einen mehrkriteriellen Wrapper-Ansatz und durch einen EMOA mit Baum-Repräsentation (NHEMOtree) miteinander verglichen. Die Bewertung der Lösungen erfolgt dabei sowohl mittels der bekannten S-Metrik als auch durch den hier entwickelten Dominanzquotienten. Die Güte des VIM-basierten Rekombinationsoperators wird im Vergleich zum Standard-Rekombinationsoperator für EMOAs mit Baum-Repräsentation untersucht. Die mehrkriteriellen Optimierungsansätze und Operatoren werden auf medizinische und simulierte Daten angewendet.
Die Ergebnisse zeigen, dass NHEMOtree bessere Lösungen als der mehrkriterielle Wrapper-Ansatz findet. Die Verwendung des VIM-basierten Rekombinationsoperators führt im Gegensatz zum Standard-Operator zu nochmals besseren Lösungen des mehrkriteriellen Optimierungsproblems und zu einer schnelleren Konvergenz des NHEMOtrees.2013-07-22T00:00:00ZDiscovering genetic interactions based on natural genetic variationAckermann, Marithttp://hdl.handle.net/2003/296572015-08-12T21:54:36Z2012-10-05T00:00:00ZTitle: Discovering genetic interactions based on natural genetic variation
Authors: Ackermann, Marit
Abstract: Complex traits can be attributed to the effect of two or more genes and their interaction with each other as well as the environment. Unraveling the genetic cause of these traits, especially with regard to disease etiology, is a major goal of current research in statistical genetics. Much effort has been invested in the development of methods detecting genetic loci that are linked to variation of disease traits or intermediate molecular phenotypes such
as gene expression levels.
A very important aspect to be considered in the modeling of genotype-phenotype associations is that genes often interact with each other in a non-additive fashion, a phenomenon called epistasis. A special case of an epistatic interaction is an allele incompatibility, which is characterized by the inviability of all individuals carrying a certain combination of alleles at two distinct loci in the genome. The relevance and distribution of allele incompatibilities
has not been investigated on a genome-wide scale in mammals.
In this thesis, I propose a method for inferring allele incompatibilities that is exclusively based on DNA sequence information. We make use of genome-wide SNP data of parent-child trios and inspect 3×3 contingency tables for detecting pairs of alleles from different genomic positions that are under-represented in the population. Our method detected substantially
more imbalanced allele pairs than what we got in simulations assuming no interactions. We could validate a significant number of the interactions with external data and we found that interacting loci are enriched for genes involved in developmental processes.
Genes do not only interact with one another, their regulatory activity also depends on
the environment or cellular context. The impact of genetic variation on gene expression will therefore also depend on cell types or on the cellular state. This aspect has long been neglected in the inference of genetic loci that are linked to gene expression variation (expression
quantitative trait loci, eQTL). There is thus a need to develop methods for analyzing the variation of eQTL between different cell types and to assess the impact of genetic variation on expression dynamics rather than just static expression levels.
In the second part of this thesis, I show that defining and detecting eQTL regulating
expression dynamics is non-trivial. I propose to distinguish “static”, "conditional” and “dynamic” eQTL and suggest new strategies for mapping these eQTL classes. By using murine mRNA expression data from four stages of hematopoiesis, we demonstrate that eQTL from the above three classes yield associations with different modes of expression regulation. Intriguingly,
dynamic and conditional eQTL complement one another although they are based on integration of the same expression data. We reveal substantial effects of individual genetic variation on cell state specific expression regulation.2012-10-05T00:00:00ZEinfluss von Dialysemodalitäten auf die MortalitätSchaller, Mathiashttp://hdl.handle.net/2003/295692015-08-12T18:57:19Z2012-08-01T00:00:00ZTitle: Einfluss von Dialysemodalitäten auf die Mortalität
Authors: Schaller, Mathias
Abstract: In dieser Arbeit werden die Daten von Dialysepatienten benutzt, um Behandlungsparameter zu identifizieren, die das Überleben von Dialysepatienten beeinflussen. Dazu wird ein Cox Proportional Hazard Modell erstellt, das zeitveränderliche und nichtlineare Einflüsse sowie Zentrumsfrailtyeffekte berücksichtigt. Bei der Überprüfung der Modellannahmen werden acht Einflussfaktoren ermittelt, bei denen die Modellannahmen nicht erfüllt sind. Für diese Parameter wird mit Hilfe einer stückweise Variation des Risikos über die Zeit oder einer zeitliche Aktualisierung der Werte ein Modell mit proportionalem Risiko erstellt. Weiterhin wird bei fünf der stetigen Einflussfaktoren festgestellt, dass der Einfluss nicht linear ist. Bei diesen Einflussfaktoren können fraktionale Polynome und Polynome 4. Grades die Nichlinearität erfassen. Die zufälligen Zentrumseffekte lassen sich mit einer Log-t)Verteilung am besten anpassen. Schliesslich wird eine Variablenselektion durchgeführt, in der elf Einflussfaktoren eliminiert werden, die die Modellgüte nicht verbessern. Die im Modell verbleibenden Einflüsse weisen darauf hin, dass ein Teil des Mortalitätsrisikos vom Patienten aufgrund seiner Demographie mitgebracht wird. Ein anderer Teil geht allerdings auf unter der Dialyse beeinflussbare Parameter zurück. Diese beschreiben verschiedene Behandlungsansätze die unter der Dialyse beachtet werden müssen. Weiterhin wird das Modell mit Hilfe des Loglikelihood Ansatzes und eines bayesianischen MCMC Verfahrens geschätzt. Die dabei geschätzten Parameter sind einander sehr ähnlich. Lediglich die Varianzen der Schätzer des bayesianischen Verfahrens sind kleiner als die des Likelihood Ansatzes. Dies wird darauf zurückgeführt, dass im bayesianischen Modell neben den Schätzern auch die Baselinehazardfunktion spezifiziert wird. Weiterhin wird eine sequentielle bayesianische Analyse durchgeführt. Das Einfügen weiterer Daten führt hierbei zu einer Verbesserung der Ergebnisse in Form geringerer Varianzen der Parameterschätzer. Ein Vorteil gegenüber einem Ein-Schritt-Verfahren konnte nicht festgestellt werden. Dies wird darauf zurückgeführt, dass in der sequentiellen Analyse zwischen den Schritten keine Adaption der a-priori Verteilungen stattgefunden hat.2012-08-01T00:00:00ZAssessment of time-varying long-term effects of therapies and prognostic factorsBuchholz, Anikahttp://hdl.handle.net/2003/273422015-08-13T00:01:06Z2010-08-09T00:00:00ZTitle: Assessment of time-varying long-term effects of therapies and prognostic factors
Authors: Buchholz, Anika2010-08-09T00:00:00ZBayesian mixtures for cluster analysis and flexible modeling of distributionsFritsch, Arnohttp://hdl.handle.net/2003/272922015-08-13T02:29:08Z2010-07-02T00:00:00ZTitle: Bayesian mixtures for cluster analysis and flexible modeling of distributions
Authors: Fritsch, Arno
Abstract: Finite mixture models assume that a distribution is a combination of several parametric distributions. They offer a compromise between the interpretability of parametric models and the flexibility of nonparametric models. This thesis considers a Bayesian approach to these models, which has several advantages. For example, using only weak prior information, it can solve problems with unbounded likelihood functions, that can occur in mixture models. The Bayesian approach also allows an elegant extension of finite to (countable) infinite mixture models. Depending on the application, the components of mixture models can either be viewed as just a means to the flexible modeling of a distribution or as defining subgroups of a population with different parametric distributions. Regarding the former case consistency results for Bayesian mixtures are stated. An example concerning the flexible modeling of a random effects distribution in a logistic regression is also given. The application considers the goalkeeper's effect in saving a penalty. In the latter case mixture models can be used for clustering. Bayesian mixtures then allow the estimation of the number of clusters at the same time as the cluster-specific parameters. For cluster analysis the standard approach for fitting Bayesian mixtures, Markov Chain Monte Carlo (MCMC), unfortunately leads to inferential difficulties. The labels associated with the clusters can change during the MCMC run, a phenomenon called label-switching. The problem gets severe, if the number of clusters is allowed to vary. Existing methods to deal with label-switching and a varying number of components are reviewed and new approaches are proposed for both situations. The first consists of a variant of the relabeling algorithm of Stephens (2000). The variant is more general, as it applies to drawn clusterings and not drawn parameter values. Therefore it does not depend on the specific form of the component distributions. The second approach is based on pairwise posterior probabilities and is an improvement of a commonly used loss function due to Binder (1978). Minimization of this loss is shown to be equivalent to maximizing the posterior expected Rand index with the true clustering. As the adjusted Rand index is preferable to the raw index, the maximization of the posterior expected adjusted Rand is proposed. The new approaches are compared to the previous methods on simulated and real data. The real data used for cluster analysis are two gene expression data sets and Fisher's iris data.2010-07-02T00:00:00ZLocal analysis of high dimensional genetic data considering interaction effectsMüller, Tinahttp://hdl.handle.net/2003/269972015-08-12T16:30:39Z2010-03-24T09:58:51ZTitle: Local analysis of high dimensional genetic data considering interaction effects
Authors: Müller, Tina2010-03-24T09:58:51ZOn Nonparametric Bayesian Analysis under Shape Constraints with Applications in BiostatisticsBornkamp, Björnhttp://hdl.handle.net/2003/265502015-08-12T20:32:38Z2009-12-14T13:10:19ZTitle: On Nonparametric Bayesian Analysis under Shape Constraints with Applications in Biostatistics
Authors: Bornkamp, Björn2009-12-14T13:10:19ZComparing models for variables given on disparate spatial scalesSturtz, Sibyllehttp://hdl.handle.net/2003/249522015-08-12T16:59:31Z2008-01-17T10:06:23ZTitle: Comparing models for variables given on disparate spatial scales
Authors: Sturtz, Sibylle
Abstract: Die räumliche Epidemiologie beschäftigt sich mit der Beschreibung und der Modellierung der räumlichen Variation von Krankheiten und anderen räumlichen Prozessen. Bekannte Methoden sind das Markov random field (MRF) Modell, das Conditional Auto-Regressive (CAR) Terme verwendet und konjugierte hierarchische Poisson-Gamma Modelle. Häufig werden auch Cluster- Algorithmen verwendet. Bei der Modellierung der Daten wird in diesen Modellen davon ausgegangen, dass Daten und Kovariablen in der selben räumlichen Auflösung vorliegen. Tatsächlich unterscheiden sich die Messskalen in der Regel. Durch die Verwendung von Punktprozessen in Poisson-Gamma random field Modellen, die eine Verallgemeinerung der konjugierten hierarchischen Poisson-Gamma Modelle darstellen, können räumliche Daten in ihrer tatsächlichen räumlichen Auflösung modelliert werden. Zusätzlich ergibt sich die Möglichkeit, Kovariablen als Exzess- oder relative Risikofaktoren einzubeziehen, was eine unterschiedliche Interpretation nach sich zieht. Im Rahmen der Dissertation wird die Klasse der Poisson-Gamma random field Modelle untersucht. Dazu wird eine Simulationsstudie durchgeführt. Das Design der Studie wird so gewählt, dass die Eignung der Modelle für verschiedene räumliche Muster untersucht werden kann. Außerdem werden Kovariablen sowohl als additive Exzess- als auch als multiplikative relative Risikofaktoren einbezogen. Weiterhin werden latente, d.h. nicht beobachtete Risikofaktoren sowohl in der Generation als auch der Modellierung der Daten berücksichtigt. Außer Poisson-Gamma random field Modellen werden auch andere räumliche Modelle wie das MRF-Modell und ein Cluster-Ansatz in den Modellvergleich miteinbezogen. Es zeigt sich, dass Poisson-Gamma random field Modelle gut geeignet sind, die verschiedenen räumlichen Strukturen zu identifizieren. Dabei ist es notwenidig zwischen den möglichen Interpretationen von Kovariablen zu unterscheiden. Die Modellgüten werden mit Hilfe des mittleren quadratischen Fehlers und eines Informationskriteriums, dem sogenannten Deviance Information Criterion, überprüft. Im Rahmen der Dissertation wurden Poisson-Gamma random field Modelle in die Software WinBUGS implementiert. Die mitentwickelten R Packete R2WinBUGS und BRUGS, die die automatisierte Nutzung von WinBUGS erleichtern, werden vorgestellt. Bei der Modellierung der beobachteten Leukämiefälle werden Benzolemissionen sowie ein Deprivationsindex als Kovariablen verwendet. Es zeigt sich, dass mit steigendem Benzollevel das relative Risko, an Benzol zu erkranken steigt. Gleichzeitig steigt das Risiko mit steigendem Wohlstand. Beide Variablen können dabei als relative Risikofaktoren angesehen werden.2008-01-17T10:06:23ZStatistical analysis of genotype and gene expression dataSchwender, Holgerhttp://hdl.handle.net/2003/233062015-08-12T20:44:54Z2007-02-26T14:15:15ZTitle: Statistical analysis of genotype and gene expression data
Authors: Schwender, Holger
Abstract: A common and important goal in cancer research is the identification of genetic markers such as genes or genetic variations that enable to determine if a person has a particular type of cancer, or lead to a higher risk of developing cancer. In recent years, many biotechnologies for measuring these markers have been developed. The most prominent examples are microarrays that can be used to, e.g., measure the expression levels of tens of thousands of genes simultaneously.
The most widely used type of microarrays is the Affymetrix GeneChip on which each gene is represented by eleven pairs of probes. The corresponding probe intensities have to be preprocessed, i.e. summarized to one expression value per gene, before variable selection and classification methods can be applied to the gene expression data.
This thesis is based on two projects: The goals of the first project are to identify the preprocessing method for Affymetrix microarrays that leads to the most efficient data reduction, and to provide a software enabling to apply this procedure to the data from studies comprising hundreds of Affymetrix GeneChips. The results of this project are presented in this thesis.
The second project is concerned with SNPs (Single Nucleotide Polymorphisms), i.e. variations at a single base-pair position in the genome. While a vast number of papers on the analysis of gene expression data have been published, only a few variable selection and classification methods dealing with the specific needs of the analysis of SNP data have been proposed. One of the exceptions is logic regression. In this thesis, it is shown how approaches for the analysis of gene expression data can be adapted to SNP data, and a procedure based on a bagging version of logic regression is proposed that enables the detection of SNP interactions explanatory for a higher cancer risk. Furthermore, two measures for quantifying the importance of each of these interactions for prediction are presented, and compared with existing measures.2007-02-26T14:15:15ZVector autoregressive time series models with spatial dependenceSchach, Ulrikehttp://hdl.handle.net/2003/27762015-08-13T00:06:10Z2002-08-21T00:00:00ZTitle: Vector autoregressive time series models with spatial dependence
Authors: Schach, Ulrike2002-08-21T00:00:00ZFallzahladjustierung im Rahmen von klinischen StudienHennig, Michaelhttp://hdl.handle.net/2003/27752015-08-13T00:05:33Z2002-07-23T00:00:00ZTitle: Fallzahladjustierung im Rahmen von klinischen Studien
Authors: Hennig, Michael
Abstract: In dieser Arbeit wird auf einen sehr wesentlichen Planungsaspekt bei klinischen Studien eingegangen: die möglichst genaue Abschätzung der benötigten Fallzahl. Zur Fallzahlplanung werden Vorinformationen über die Zielvariable, wie z.B. deren Streuung benötigt. Mit Hilfe von Fallzahladjustierungsverfahren ist es möglich, die Power einer Studie abzusichern, falls diese Vorinformationen nicht zutreffen. Die Verfahren lassen sich grob in zwei Kategorien einteilen: Verfahren, die eine Entblindung der Studiendaten benötigen vs. Verfahren, die ohne Entblindung arbeiten. In dieser Arbeit werden Verfahren zur Fallzahladjustierung bei klinischen Studien zum Nachweis der Überlegenheit einer Therapie gegenüber gestellt, weiter entwickelt und abschließend bewertet. Neben den klassischen Beurteilungskriterien wie Signifikanzniveau und Power werden mit der Verteilung der Fallzahl und der Weite des Konfidenzintervalls zwei zusätzliche wichtige Indikatoren vorgestellt und bei der Bewertung berücksichtigt. Auf der Basis von theoretischen Überlegungen und von umfangreichen Simulationsstudien werden für verschiedene Vergleichstypen die jeweiligen Adjustierungsmethoden hinsichtlich ihrer Eigenschaften verglichen. Dazu werden eine Reihe von relevanten Szenarien betrachtet, die einen differenzierten Vergleich zwischen den Methoden ermöglichen. Es stellt sich heraus, dass insbesondere 'unblinde' Verfahren zu einer leichten Inflation des Signifikanzniveaus führen, während bei 'blinden' Verfahren dieses Manko nicht auftritt. Dabei wird der Inflationsfaktor auch von dem Zeitpunkt der Fallzahladjustierung beeinflusst. Alle Verfahren sind in der Lage, die angestrebte Absicherung der Power im Wesentlichen zu gewährleisten - auch wenn es gewisse Situationen gibt, bei denen die geplante Power nicht ganz erreicht wird, oder aber bei weitem übertroffen wird.Beim Vergleich von Mittelwerten genügt die adjustierte Fallzahl einer gestutzten Chi-Quadrat-Verteilung. Adjustierungsverfahren, die die Fallzahl nur nach oben anpassen, liefern verzerrte Schätzungen der Fallzahl. Ebenso wirkt sich ein früher Adjustierungszeitpunkt negativ auf die Verteilung von N aus. Beim Vergleich von Ereignisraten zeigt ein etabliertes Verfahren eine unnötig große Streuung der Fallzahl. Eine notwendige Korrektur wird vorgestellt und beurteilt. Die Weite des Konfidenzintervalls zur Schätzung des Unterschiedes zwischen den Gruppen hängt insbesondere von der adjustierten Fallzahl ab - so dass Verfahren, die die Fallzahl stark nach oben korrigieren hinsichtlich dieses Beurteilungskriteriums am besten abschneiden.Für Repeated-Measurements-Designs gibt es in der Literatur erst einen Vorschlag für Adjustierungsverfahren. Motiviert von einer konkreten Phase-III-Studie wird hierzu eine neue Methode unter Berücksichtigung von wesentlichen logistischen Studienaspekten entwickelt und ebenfalls mittels einer Simulationsstudie bewertet. Eine Fallzahladjustierung, die auf die Entblindung der Daten angewiesen ist, hat immer einen Zwischenauswertungscharakter, da Unterschiede zwischen den Gruppen quantifiziert werden. Wenn also schon zu einem Zwischenzeitpunkt entblindet wird, so liegt es nahe, eine Zwischenauswertung durchzuführen. Aus dieser Motivation heraus sind Adjustierungsverfahren, die ohne Entblindung arbeiten, besonders interessant. In dieser Arbeit wird gezeigt, dass sowohl für den Vergleich von Mittelwerten als auch für den Vergleich von Ereignisraten leistungsfähige 'blinde' Methoden zur Fallzahladjustierung existieren.2002-07-23T00:00:00ZRegression and residual analysis in linear models with interval censored dataTopp, Rebekkahttp://hdl.handle.net/2003/27742015-08-12T16:43:15Z2002-07-22T00:00:00ZTitle: Regression and residual analysis in linear models with interval censored data
Authors: Topp, Rebekka
Abstract: Meine Arbeit besteht aus zwei Teilen, die beide mit der Regressionsanalyse im Zusammenhang mit intervallzensierten Daten zu tun haben. Intervallzensierte Daten x sind solche Daten, die man nicht genau beobachten kann, sondern nur deren Intervalle [xL,xR], die mit Wahrscheinlichkeit 1 den wahren Wert von x enthalten.Im ersten Teil entwickle ich eine Schätztheorie für die Regressionsparameter im linearen Modell, wenn sowohl die abhängige als auch die unabhängige Variable intervallzensiert ist. Dabei benutze ich einen semiparametrischen Maximum Likelihood Ansatz, der die Schätzer für die Regressionsparameter durch die Maximierung der Likelihood Funktion bestimmt. Das Problem, das hierbei in meinem Kontext auftritt ist, dass die bei der Likelihoodmaximierung benötigte Dichtefunktion der Kovariante durch die Intervallzensierung nicht bekannt ist. Deswegen löse ich das Maximierungsproblem mit einem Algorithmus, der gleichzeitig die unbekannte Dichte der Kovariante bestimmt, und danach die dann vollständig bestimmte Likelihoodfunktion maximiert. Die Bestimmung der Kovariantendichte ist eine Modifikation des Ansatzes von Turnbull (1976), der eine nichtparametrische Schätztheorie vorschlägt. Die Maximierung der Likelihoodfunktion erfolgt dann wie normal durch Nullsetzen der Scorefunktion. Ich berechne die resultierenden Parameterschätzer für die Fälle, dass der Fehlerterm aus einer Verteilung der Exponentialfamilie oder der Weibullverteilung stammt. Ausserdem erweitere ich die Schätztheorie für den Fall, dass man ausser der intervallzensierten Kovariate noch zusätzlich einen unzensierten Kovariatenvektor im Modell hat. Da theoretische statistische Eigenschaften für die Schätzer nur schwer hergeleitet werden können, habe ich Simulationen durchgeführt, um die Güte der Schätzer bestimmen zu können. Für die gewählten Simulationsszenarien waren die mit meiner Methode geschätzten Werte für die Regressionsparameter immer sehr nah an den wahren Werten. Abschließend diskutiere ich noch zwei alternative Schätzmethoden für dieses Regressionsproblem.Im zweiten Teil meiner Arbeit beschäftige ich mich mit der Residualanalyse im linearen Modell wenn nur die Kovariante intervallzensiert ist, die abhängige Variable aber unzensiert ist. In diesem Fall stellt sich heraus, dass die zugehörigen Fehler des Modells, und damit auch die Residuen, intervallzensiert sind, und es tritt das Problem auf, dass die Residuen nicht direkt beobachtbar sind. Mein Ansatz zur Lösung dieses Problem ist der folgende: Da die Modellannahme N(0,s2)-verteilte Fehler vorsieht, ist die Verteilung der hier intervallzensierten Fehler eine durch das Fehlerintervall gestutzte Normalverteilung. Entsprechend ist die Verteilung der Residuen die -Verteilung gestutzt im zugehörigen Residualintervall. Die Fehlervarianz schätze ich dabei mit der Methode von Gómez et al. (2002). In einer Simulationsstudie vergleiche ich das Verhalten der so konstruierten Residuen mit dem der Residuen von Gómez et al. (2002) und einem naiven Typ von Residuen, die den Intervallmittelpunkt als das beobachtete Residuum annehmen. Dabei untersuche ich deren Verhalten sowohl im korrekt spezifizierten Modell, als auch für Fälle, in denen Modellverletzungen, wie zum Beispiel nichtkonstante Fehlervarianz oder eine falsch spezifizierte Regressionsgleichung, vorliegen. Die Resultate zeigen, dass meine Residuen in den meisten Szenarien für die Modellevaluierung benutzt werden könne, während das bei den anderen beiden Resiudaltypen nicht der Fall ist. Zum Schluß wende ich meine Residualtheorie auf einen Datensatz einer klinischen Studie an.2002-07-22T00:00:00ZEin funktionaler Kernschätzer mit verallgemeinerter BandbreitePflüger, Rafaelhttp://hdl.handle.net/2003/27732015-08-12T23:11:17Z2001-03-20T00:00:00ZTitle: Ein funktionaler Kernschätzer mit verallgemeinerter Bandbreite
Authors: Pflüger, Rafael
Abstract: Ausgehend von der Bedeutung der Hazardrate und deren Schätzung in klinischen Über- lebenszeitstudien beschäftigte sich die vorliegende Arbeit allgemein mit der nichtparame- trischen Kernschätzung von Funktionalen. Es konnte eine Formulierung entwickelt werden, welche die Hazardraten- und die Dichteschätzung für unzensierte und (rechts-)zensierte Be- obachtungen umfasst. Die Bandbreite wurde dabei so allgemein formuliert, dass sie die fixe und verschiedene variable daten-adaptive Bandbreitendefinitionen, wie zum Beispiel die der nächste-Nachbarn Bandbreite, enthält. Für diesen neuen Funktionalschätzer mit verallgemeinerter Bandbreitendefinition wurde die Konsistenz im Sinne der fast sicheren Konvergenz bezüglich der L1-Norm gezeigt. Das Thema der Bandbreitenwahl unterteilte sich nach den Prinzipien der Optimalität bezüg- lich der L1-Norm Konvergenz und der Praktikabilität. Die Konvergenz hatte eine optimale Bandbreitenwahl mit Plug-in Verfahren zur Folge wohingegen sich als schnell mögliche ob- jektive Bandbreitenwahl eine etablierte Daumenregel für die fixe Bandbreitenwahl bei der Dichteschätzung auf den verallgemeinerten Schätzer sinnvollübertrug. Es wurden die Spezifikationen der Dichteschätzung mit fixer Bandbreite ohne Zensierung und die der Hazardratenschätzung mit variabler nächste-Nachbarn Bandbreite bei einer (Rechts-)Zensierung untersucht. Als Implikation der asymptotisch optimalen Bandbreitenwahl stellte sich bei der Dich- teschätzung heraus, dass die Konvergenzraten für Bias und Varianz eine andere Balancierung erfahren als bei der Bandbreitenwahl, die den zu erwartenden integrierten quadratischen Feh- ler asymptotisch minimiert. Der Bias muss für die Bandbreitenwahl, die den gleichmäßigen Verlust asymptotisch minimiert, schneller gegen Null gehen als für die das integrierte qua- dratische Risiko minimierende. Die Anwendung auf die Hazardratenschätzung bei zensierten Daten wurde anhand eines bio- metrischen Beispiels und einer umfangreichen Simulationsstudie untersucht. Hierbei stellte sich die als Spezifikation aus der allgemeinen Daumenregel resultierende Daumenregel zur Wahl der Anzahl nächster Nachbarn als praktikable Bandbreitenwahl dar. Die Vorteile im Vergleich zur optimalen Bandbreitenwahl bezüglich des gleichmäßig absoluten Fehlers lagen in der Einfachheit der Darstellung und der Schätzung sowie in der wesentlich schnelleren computer-technischen Ermittelbarkeit, da bei ihr im Gegensatz zur optimalen Bandbrei- tenwahl keine Plug-in Schätzungen benötigt werden. Die Daumenregel konnte sich auch gegen eine weitere optimale und rechenintensive Bandbreitenwahl, bei der asymptotisch das Kullback-Leibler Risiko minimiert wird, behaupten, in dem Sinne, dass die Ergebnisse bei der Verzerrung gleich gut waren, allerdings die Variabilität, die als Nachteil der Kreuz- Validierungs Bandbreitenwahlen bekannt ist, stark verringert wird.2001-03-20T00:00:00ZDas fQ-SystemScheffner, Axelhttp://hdl.handle.net/2003/27722015-08-13T00:36:54Z1999-05-10T00:00:00ZTitle: Das fQ-System
Authors: Scheffner, Axel
Abstract: Für univariate stetige Zufallsvariablen kommt vor allem im Rahmen der nichtparametrischen Statistik der DichteQuantilfunktion fQ(x)=f(F Aussagen herangezogen. In der Praxis ist man jedoch mit dem Problem konfrontiert, dass die Schätzung der fQFunktion aufgrund von empirischen Daten mit der bisher verwendeten Methode der Kernschätzung lediglich zu einer nichtparametrischen Darstellung von fQ(x) führt, die weitere parametrische Untersuchungen erschwert. Eine Lösung für dieses Problem stellt das hier vorgestellte fQSystem FQ dar, mit dem ein mehrparametrisches System von unimodalen Verteilungen definiert wird, wobei hier zur charakterisierenden Darstellung gerade die fQFunktion herangezogen wird. In der Arbeit werden zunächst im theoretischen Teil die grundsätzliche Eigenschaften des fQSystems (z. B. die Existenz von Momenten) hergeleitet und zugleich Algorithmen zur Lösung der numerischen Probleme bei der Darstellung der Quantil und Verteilungsfunktion vorgestellt. Die Vorstellung von Ordnungsbegriffen, Metriken und Kennmaßen auf FQ sowie ein ausführliches Kapitel über die Schätzmethode für die fQParameter beschließen dieses Kapitel. Im zweiten Teil der Arbeit werden anhand einiger Beispiele folgende Anwendungen des fQSystems vorgestellt: Approximation unimodaler Verteilungen, Erwartungswerte von Ordnungsstatistiken, LSchätzer mit dem fQSystem,
Dichteschätzungen unimodaler Verteilungen. Im einem abschließenden Abschnitt sind Anmerkungen zu weiteren Anwendungen zu finden.1999-05-10T00:00:00Z