Authors: Koppers, Lars
Title: Statistische Methoden zur Validierung von Inhaltsanalysen
Language (ISO): de
Abstract: Auch in den Geistes- und Sozialwissenschaften hat sich die Analyse von großen Textkorpora inzwischen durchgesetzt. Mit den Digital Humanity ist dort ein komplett neues Forschungsfeld entstanden. Damit wurde es zum ersten mal möglich große Textkorpora systematisch auszuwerten und nicht nur Stichproben daraus zu untersuchen. Am Dortmund Center für Datenbasierte Medienanalyse (DoCMA) wird Journalismusforschung anhand von Medienkorpora betrieben. Ein Hauptaugenmerk liegt dabei auf die Entwicklung Themen in Medienerzeugnissen. Als zentrale Methode wurde dabei mit der Latent Dirichlet Allocation (LDA; Blei, Ng u.a. 2003) gearbeitet, ein generatives Themenmodell, das aus Textkorpora Themen identifiziert, bei denen sowohl die Themenverteilung, als auch die Wortverteilung, die ein Thema definiert als latent hinter dem Text liegend angenommen werden. Die vorliegende Arbeit hat sich drei verschiedene Aspekte in diesem Themenbereich vorgenommen: Ein R-Paket für die Vorverarbeitung und Analyse der Textkorpora, mit einem Schwerpunkt auf Grafikvisualisierungen, die die zeitliche Komponente der Korpora in den Mittelpunkt stellt, ein effektiveres Sampling bei der Validierung von Subkorpora und eine Analyse der Topic Coherence für die Modellwahl. Beim Textmining von Medienkorpora fallen immer wieder die gleichen Vorverarbeitungsschritte wie z.B. das Tokenisieren, das Entfernen von Stopwörtern und Umlauten an, bis eine LDA durchgeführt werden kann. Sowohl für die LDA. als auch für die Vorverarbeitung konnte dabei auf bestehende R-Pakete zurückgegriffen werden. Das R-Paket tosca liefert wrapper, die eine Vorverarbeitung übersichtlicher gestalten. Darüber hinaus bietet tosca einige auf die angebotene Analysepipeline abgestimmte Grafikfunktionen, die es ermöglichen ohne viel Aufwand zeitliche Verläufe von Themen und Wörtern zu erhalten. Im Bereich der Validierung wurden die von Blei vorgeschlagenen Intruder Words und Intruder Topics für R implementiert. Für Inhaltsanalysen ist meistens nicht der ganze Korpus, sondern nur Teile davon relevant. Diese können über Wortfilter oder Themen der LDA identifiziert werden. Da die Qualität der Analyse von der Qualität des erzeugten Subkorpusses abhängt, muss dieser validiert werden, was über menschliche Kodierer*innen erfolgt. Oft braucht es mehrere Versuche, bis die Auswahlkriterien für den Subkorpus so optimiert wurden, dass seine Qualität ausreichend ist. In dieser Arbeit wird ein Verfahren vorgestellt, mit dem nicht zufällig aus dem gesamten Korpus Texte zur Validierung gezogen werden, sondern abhängig von dem bereits bestehenden Wissen aus frühreren Durchläufen aus den Schnittmengen der Subkorpora gezogen wird, die die Gesamtunsicherheit am stärksten reduzieren. Die LDA hat das Problem, dass mathematisch optimierte Modelle für Anwender*innen oft nicht die inhaltlich besten Ergebnisse liefern. Gleichzeitig ist eine manuelle Modellwahl aus Kapazitätsgründen nur begrenzt möglich. In dieser Arbeit wird die Topic Coherence (Mimno u.a. 2011) als eine der vorgeschlagenen Maßzahlen zur Modellwahl untersucht. Während der Modellvergleich über Modelle mit verschiedenen Parametern nicht möglich ist, bietet diese Maßzahl die Möglichkeit unter wiederholten Läufen ein Modell auszusuchen. Darauf basierend wird ein Vorgehen vorgestellt, wie ein optimales Modell ausgesucht werden kann, wenn bereits von Anwender*innen für ihre Forschungsfrage optimale Themen aus anderen Läufen identifiziert wurden.
Subject Headings: Statistik
Textmining
Journalismusforschung
Themenmodelle
Latent Dirichlet Allocation
Subject Headings (RSWK): Textmining
Inhaltsanalyse
Simulation
R <Programm>
URI: http://hdl.handle.net/2003/42361
http://dx.doi.org/10.17877/DE290R-24198
Issue Date: 2023
Appears in Collections:Statistische Methoden in der Genetik und Chemometrie

Files in This Item:
File Description SizeFormat 
Statistische Methoden zur Validierung von Inhaltsanalysen.pdfDNB3.43 MBAdobe PDFView/Open


This item is protected by original copyright



This item is protected by original copyright rightsstatements.org