1 research outputs found
Reliability evaluation and an update algorithm for the latent Dirichlet allocation
Modeling text data is becoming increasingly popular. Topic models and in particular
the latent Dirichlet allocation (LDA) represent a large field in text data analysis. In
this context, the problem exists that running LDA repeatedly on the same data yields
different results. This lack of reliability can be improved by repeated modeling and a
reasonable choice of a representative. Further, updating existing LDA models with new
data is another common challenge. Many dynamic models, when adding new data, also
update parameters of past time points, thus do not ensure the temporal consistency of the
results.
In this cumulative dissertation, I summarize in particular my methodological papers from
the two areas of improving the reliability of LDA results and updating LDA results in a
temporally consistent manner for use in monitoring scenarios. For this purpose, I first
introduce the state of research for each of the two areas. After explaining the idea of the
corresponding method, I give examples of applications in which the method has already
been used and explain the implementation as an R package. Finally, for both fields I
provide an outlook on potential further research.Die Modellierung von Textdaten erfĂ€hrt wachsende PopularitĂ€t. Einen groĂen Bereich
in der Textdatenanalyse bilden Topic Modelle und dabei im Speziellen das Modell latent
Dirichlet allocation (LDA). Dabei existiert die Problematik, dass sich bei einer wiederholten
AusfĂŒhrung der LDA auf denselben Daten verschiedene Resultate ergeben. Dieser Mangel
an ReliabilitÀt lÀsst sich durch eine wiederholte Modellierung und eine sinnvolle Wahl
eines ReprÀsentanten verbessern. Eine weitere Herausforderung stellt das Aktualisieren
von bestehenden LDA-Modellen anhand neuer Daten dar. Viele dynamische Modelle aktu-
alisieren im Falle einer Hinzunahme neuer Daten auch Parameter vergangener Zeitpunkte
und verletzen damit die zeitliche Konsistenz der Ergebnisse.
In dieser kumulativen Dissertation fasse ich insbesondere meine methodischen Paper aus
den beiden Themenbereichen der Verbesserung der ReliabilitÀt von LDA-Ergebnissen und
der zeitlich konsistenten Aktualisierung von LDA-Ergebnissen zur Nutzung in Monitoring-
Szenarien zusammen. DafĂŒr stelle ich zunĂ€chst jeweils den Forschungsstand dar. Nach
einer ErlÀuterung der Idee der Methode, werden jeweils Beispiele gegeben, in denen die
Methode bereits Anwendung fand und die Implementierung als R Paket erlÀutert. Zuletzt
gebe ich fĂŒr beide Themenbereiche einen Ausblick auf mögliche weitere Forschung