Extending the distributional regression framework

Loading...
Thumbnail Image

Date

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Alternative Title(s)

Treatment effects, mixed responses and data-driven variable selection

Abstract

This thesis develops distributional regression methods tailored to the estimation of treatment effects as well as joint modelling of multivariate non-commensurable responses, all based on the Generalised Additive Models for Location Scale and Shape (GAMLSS) approach. In addition, it postulates methods for data-driven variable selection for the aforementioned model class. These developments are introduced across four contributed articles and are implemented in the statistical programming software R. In the first article, we derive treatment effects on the entire conditional response distribution via an instrumental variable estimation approach based on GAMLSS. Our approach allows to model all parameters of possibly complex outcome distributions as well as non-linear relationships between explanatory variables, instrument and outcome of interest. This demonstrates the potential of using distributional regression in instrumental variable regression both to account for endogeneity and estimate treatment effects beyond the mean. The second article introduces flexible copula-based statistical models for bivariate responses comprised of non-commensurate (i.e. mixed) variables whose components are a right-censored time-to-event response and a non-time-to-event outcome. The copula approach allows for separate specification of the dependence structure between the margins and their individual distribution functions. The model of the time-to-event margin is constructed via discrete-time-to-event or piecewise-exponential methods using the correspondence of their likelihood of the aforementioned approaches with well-known univariate distributions. The last two articles tackle the issue of data-driven variable selection for copula-based distributional regression models. In the third article we devise a gradient boosting estimation algorithm adapted to accommodate copula models with arbitrary marginal distributions suited for bivariate binary, count and non-commensurable mixed outcomes. The last article further extends these methods to bivariate right-censored time-to-event responses. This dramatically streamlines the model-building process for a wide range of response structures. The versatility of the proposed methods is demonstrated through the analysis of various synthetic and real data structures from labour economics, transportation, genetic epidemiology, healthcare utilisation, childhood undernutrition and ovarian cancer.
Diese Dissertation beschäftigt sich mit der Entwicklung von verteilungsregressionsbasierten Methoden, welche zur Schätzung von Treatment-Effekten sowie auf die gemeinsame Modellierung multivariater gemischter Zielgrößen geeignet sind. Alle entwickelten Methoden basieren auf dem Ansatz der Generalised Additive Models for Location Scale and Shape (GAMLSS). Darüber hinaus werden Verfahren zur Variablenselektion für diese Modellklasse entwickelt. Die neuen Verfahren werden in vier wissenschaftlichen Artikeln vorgestellt und in der statistischen Programmiersprache R implementiert. Im ersten Artikel werden Treatment-Effekte für die gesamte bedingte Verteilung hergeleitet. Dies erfolgt unter Verwendung eines Instrumentalvariablen-Schätzansatzes basierend auf GAMLSS. Unser Ansatz ermöglicht es, alle Parameter möglicher komplexer Verteilungen sowie nichtlineare Beziehungen zwischen erklärenden Variablen, Instrumentalvariablen und die Zielgröße zu modellieren. Dies zeigt die Vorteile, Verteilungsregression in der Instrumentalvariablenregression zu nutzen, um Endogenität zu berücksichtigen und Treatment-Effekte über den Mittelwert hinaus zu schätzen. Der zweite Artikel führt flexible copula-basierte statistische Modelle für bivariate Zielgrößen ein, die aus gemischten Rändern bestehen. Die Komponenten dieser Zielgrößen bestehen aus einer rechtszensierten Ereigniszeit und einer nicht-Ereigniszeit Variable. Der Copula-Ansatz ermöglicht eine separate Spezifikation der Abhängigkeitsstruktur zwischen den Rändern und ihren individuellen Verteilungsfunktionen. Das Modell der Ereigniszeitkomponente wird mittels discrete time oder piecewise-exponential Verfahren unter Verwendung der Übereinstimmung ihrer Likelihood mit den bekannten univariaten Verteilungen der genannten Ansätze gebildet. Die letzten zwei Artikel beschäftigen sich mit der Variablenselektion für Copula-basierte Verteilungsregressionsmodelle. Im dritten Artikel wird ein Gradient Boosting-Schätzungsalgorithmus entwickelt. Dieser ist für Copula-Modelle mit beliebigen marginalen Verteilungen angepasst und für bivariate binäre, zähl und gemischte Zielgrößen geeignet. Der vierte Artikel erweitert diese Verfahren auf bivariate rechtszensierte Ereigniszeiten. Die Vielfältigkeit der Methoden wird durch die Analyse von synthetischen und realen Daten aus verschiedenen Anwendungsgebieten demonstriert.

Description

Table of contents

Keywords

Distributional regression, Dependence modelling, Gradient boosting, Time-to-event analysis

Subjects based on RSWK

Verallgemeinertes Regressionsmodell, Ereignisdatenanalyse, SchƤtzung

Citation