Extending the distributional regression framework
Loading...
Date
2025
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Alternative Title(s)
Treatment effects, mixed responses and data-driven variable selection
Abstract
This thesis develops distributional regression methods tailored to the estimation of treatment effects as well as joint modelling of multivariate non-commensurable responses, all based on the Generalised Additive Models for Location Scale and Shape (GAMLSS) approach. In addition, it postulates methods for data-driven variable selection for the aforementioned model class. These developments are introduced across four contributed articles and are implemented in the statistical programming software R.
In the first article, we derive treatment effects on the entire conditional response distribution via an instrumental variable estimation approach based on GAMLSS. Our approach allows to model all parameters of possibly complex outcome distributions as well as non-linear relationships between explanatory variables, instrument and outcome of interest. This demonstrates the potential of using distributional regression in instrumental variable regression both to account for endogeneity and estimate treatment effects beyond the mean.
The second article introduces flexible copula-based statistical models for bivariate responses comprised of non-commensurate (i.e. mixed) variables whose components are a right-censored time-to-event response and a non-time-to-event outcome. The copula approach allows for separate specification of the dependence structure between the margins and their individual distribution functions. The model of the time-to-event margin is constructed via discrete-time-to-event or piecewise-exponential methods using the correspondence of their likelihood of the aforementioned approaches with well-known univariate distributions.
The last two articles tackle the issue of data-driven variable selection for copula-based distributional regression models. In the third article we devise a gradient boosting estimation algorithm adapted to accommodate copula models with arbitrary marginal distributions suited for bivariate binary, count and non-commensurable mixed outcomes. The last article further extends these methods to bivariate right-censored time-to-event responses. This dramatically streamlines the model-building process for a wide range of response structures.
The versatility of the proposed methods is demonstrated through the analysis of various synthetic and real data structures from labour economics, transportation, genetic epidemiology, healthcare utilisation, childhood undernutrition and ovarian cancer.
Diese Dissertation beschƤftigt sich mit der Entwicklung von verteilungsregressionsbasierten Methoden, welche zur SchƤtzung von Treatment-Effekten sowie auf die gemeinsame Modellierung multivariater gemischter ZielgrƶĆen geeignet sind. Alle entwickelten Methoden basieren auf dem Ansatz der Generalised Additive Models for Location Scale and Shape (GAMLSS). Darüber hinaus werden Verfahren zur Variablenselektion für diese Modellklasse entwickelt. Die neuen Verfahren werden in vier wissenschaftlichen Artikeln vorgestellt und in der statistischen Programmiersprache R implementiert. Im ersten Artikel werden Treatment-Effekte für die gesamte bedingte Verteilung hergeleitet. Dies erfolgt unter Verwendung eines Instrumentalvariablen-SchƤtzansatzes basierend auf GAMLSS. Unser Ansatz ermƶglicht es, alle Parameter mƶglicher komplexer Verteilungen sowie nichtlineare Beziehungen zwischen erklƤrenden Variablen, Instrumentalvariablen und die ZielgrƶĆe zu modellieren. Dies zeigt die Vorteile, Verteilungsregression in der Instrumentalvariablenregression zu nutzen, um EndogenitƤt zu berücksichtigen und Treatment-Effekte über den Mittelwert hinaus zu schƤtzen. Der zweite Artikel führt flexible copula-basierte statistische Modelle für bivariate ZielgrƶĆen ein, die aus gemischten RƤndern bestehen. Die Komponenten dieser ZielgrƶĆen bestehen aus einer rechtszensierten Ereigniszeit und einer nicht-Ereigniszeit Variable. Der Copula-Ansatz ermƶglicht eine separate Spezifikation der AbhƤngigkeitsstruktur zwischen den RƤndern und ihren individuellen Verteilungsfunktionen. Das Modell der Ereigniszeitkomponente wird mittels discrete time oder piecewise-exponential Verfahren unter Verwendung der Ćbereinstimmung ihrer Likelihood mit den bekannten univariaten Verteilungen der genannten AnsƤtze gebildet. Die letzten zwei Artikel beschƤftigen sich mit der Variablenselektion für Copula-basierte Verteilungsregressionsmodelle. Im dritten Artikel wird ein Gradient Boosting-SchƤtzungsalgorithmus entwickelt. Dieser ist für Copula-Modelle mit beliebigen marginalen Verteilungen angepasst und für bivariate binƤre, zƤhl und gemischte ZielgrƶĆen geeignet. Der vierte Artikel erweitert diese Verfahren auf bivariate rechtszensierte Ereigniszeiten. Die VielfƤltigkeit der Methoden wird durch die Analyse von synthetischen und realen Daten aus verschiedenen Anwendungsgebieten demonstriert.
Diese Dissertation beschƤftigt sich mit der Entwicklung von verteilungsregressionsbasierten Methoden, welche zur SchƤtzung von Treatment-Effekten sowie auf die gemeinsame Modellierung multivariater gemischter ZielgrƶĆen geeignet sind. Alle entwickelten Methoden basieren auf dem Ansatz der Generalised Additive Models for Location Scale and Shape (GAMLSS). Darüber hinaus werden Verfahren zur Variablenselektion für diese Modellklasse entwickelt. Die neuen Verfahren werden in vier wissenschaftlichen Artikeln vorgestellt und in der statistischen Programmiersprache R implementiert. Im ersten Artikel werden Treatment-Effekte für die gesamte bedingte Verteilung hergeleitet. Dies erfolgt unter Verwendung eines Instrumentalvariablen-SchƤtzansatzes basierend auf GAMLSS. Unser Ansatz ermƶglicht es, alle Parameter mƶglicher komplexer Verteilungen sowie nichtlineare Beziehungen zwischen erklƤrenden Variablen, Instrumentalvariablen und die ZielgrƶĆe zu modellieren. Dies zeigt die Vorteile, Verteilungsregression in der Instrumentalvariablenregression zu nutzen, um EndogenitƤt zu berücksichtigen und Treatment-Effekte über den Mittelwert hinaus zu schƤtzen. Der zweite Artikel führt flexible copula-basierte statistische Modelle für bivariate ZielgrƶĆen ein, die aus gemischten RƤndern bestehen. Die Komponenten dieser ZielgrƶĆen bestehen aus einer rechtszensierten Ereigniszeit und einer nicht-Ereigniszeit Variable. Der Copula-Ansatz ermƶglicht eine separate Spezifikation der AbhƤngigkeitsstruktur zwischen den RƤndern und ihren individuellen Verteilungsfunktionen. Das Modell der Ereigniszeitkomponente wird mittels discrete time oder piecewise-exponential Verfahren unter Verwendung der Ćbereinstimmung ihrer Likelihood mit den bekannten univariaten Verteilungen der genannten AnsƤtze gebildet. Die letzten zwei Artikel beschƤftigen sich mit der Variablenselektion für Copula-basierte Verteilungsregressionsmodelle. Im dritten Artikel wird ein Gradient Boosting-SchƤtzungsalgorithmus entwickelt. Dieser ist für Copula-Modelle mit beliebigen marginalen Verteilungen angepasst und für bivariate binƤre, zƤhl und gemischte ZielgrƶĆen geeignet. Der vierte Artikel erweitert diese Verfahren auf bivariate rechtszensierte Ereigniszeiten. Die VielfƤltigkeit der Methoden wird durch die Analyse von synthetischen und realen Daten aus verschiedenen Anwendungsgebieten demonstriert.
Description
Table of contents
Keywords
Distributional regression, Dependence modelling, Gradient boosting, Time-to-event analysis
Subjects based on RSWK
Verallgemeinertes Regressionsmodell, Ereignisdatenanalyse, SchƤtzung