Bachelorarbeit: Multi-Label Klassifikation am Beispiel sozialwissenschaftlicher Texte
in publications :: #thesisde | en
Einem Text kann in der Regel mehr als ein Label zugeordnet werden. Nahezu alle Klassifikationsverfahren sind allerdings nur in der Lage ein Label pro Dokument zu verarbeiten.
In dieser Arbeit geht es um eine Evaluation zwischen Naive Bayes, Support Vector Machine (SVM), den binären Klassifikationsverfahren und Supervised Latent Dirichlet Allocation (SLDA), einem multiclass Klassifikationsverfahren. Um eine Vergleichbarkeit zu erreichen wurde der C++-SLDA in Java implementiert werden.
Damit binäre Klassifikationsverfahren in der Lage sind Multi-Label Klassifikationen durchzuführen, benötigt es eine Reihe von Transformationen. Für die benutzten binären Klassifikationsverfahren Naive Bayes und SVM wurde die Transformation RAkEL verwendet. Für den SLDA wurde ein eigener Topic Modell Multi-Label Learner entwickelt und verwendet.
Zur Klassifikation wird der Reuters-21578 Korpus verwendet. Da nicht alle enthaltenen Texte Labels haben und nicht alle vorkommenden Labels in ausreichender Häufigkeit vorliegen, wurde eine Auswahl der Texte getroffen. Am Ende werden zwei verschiedene Korpus erzeugt, die für die Klassifikation benutzt wurden.
Die Ergebnisse der Klassifikation zeigen, dass die SVM die besten Ergebnisse lieferte und Naive Bayes und SLDA in etwa gleich gut sind. Der Nachteil des SLDA liegt vor allem in dessen langer Laufzeit.