Autor(en): Rieger, Jonas
Titel: Reliability evaluation and an update algorithm for the latent Dirichlet allocation
Sprache (ISO): en
Zusammenfassung: Modeling text data is becoming increasingly popular. Topic models and in particular the latent Dirichlet allocation (LDA) represent a large field in text data analysis. In this context, the problem exists that running LDA repeatedly on the same data yields different results. This lack of reliability can be improved by repeated modeling and a reasonable choice of a representative. Further, updating existing LDA models with new data is another common challenge. Many dynamic models, when adding new data, also update parameters of past time points, thus do not ensure the temporal consistency of the results. In this cumulative dissertation, I summarize in particular my methodological papers from the two areas of improving the reliability of LDA results and updating LDA results in a temporally consistent manner for use in monitoring scenarios. For this purpose, I first introduce the state of research for each of the two areas. After explaining the idea of the corresponding method, I give examples of applications in which the method has already been used and explain the implementation as an R package. Finally, for both fields I provide an outlook on potential further research.
Die Modellierung von Textdaten erfährt wachsende Popularität. Einen großen Bereich in der Textdatenanalyse bilden Topic Modelle und dabei im Speziellen das Modell latent Dirichlet allocation (LDA). Dabei existiert die Problematik, dass sich bei einer wiederholten Ausführung der LDA auf denselben Daten verschiedene Resultate ergeben. Dieser Mangel an Reliabilität lässt sich durch eine wiederholte Modellierung und eine sinnvolle Wahl eines Repräsentanten verbessern. Eine weitere Herausforderung stellt das Aktualisieren von bestehenden LDA-Modellen anhand neuer Daten dar. Viele dynamische Modelle aktu- alisieren im Falle einer Hinzunahme neuer Daten auch Parameter vergangener Zeitpunkte und verletzen damit die zeitliche Konsistenz der Ergebnisse. In dieser kumulativen Dissertation fasse ich insbesondere meine methodischen Paper aus den beiden Themenbereichen der Verbesserung der Reliabilität von LDA-Ergebnissen und der zeitlich konsistenten Aktualisierung von LDA-Ergebnissen zur Nutzung in Monitoring- Szenarien zusammen. Dafür stelle ich zunächst jeweils den Forschungsstand dar. Nach einer Erläuterung der Idee der Methode, werden jeweils Beispiele gegeben, in denen die Methode bereits Anwendung fand und die Implementierung als R Paket erläutert. Zuletzt gebe ich für beide Themenbereiche einen Ausblick auf mögliche weitere Forschung.
Schlagwörter (RSWK): Textmining
Cluster-Analyse
Simulation
R <Programm>
URI: http://hdl.handle.net/2003/41102
http://dx.doi.org/10.17877/DE290R-22949
Erscheinungsdatum: 2022-07
Enthalten in den Sammlungen:Institut für Wirtschafts- und Sozialstatistik

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
Dissertation_mit_DOI.pdfDNB6.89 MBAdobe PDFÖffnen/Anzeigen


Diese Ressource ist urheberrechtlich geschützt.



Diese Ressource ist urheberrechtlich geschützt. rightsstatements.org