Bachelorarbeit: Multi-Label Klassifikation am Beispiel sozialwissenschaftlicher Texte

Saturday, 04. February 2017 in publications :: #thesis
de | en

Einem Text kann in der Regel mehr als ein Label zugeordnet werden. Nahezu alle Klassiﬁkationsverfahren sind allerdings nur in der Lage ein Label pro Dokument zu verarbeiten.

In dieser Arbeit geht es um eine Evaluation zwischen Naive Bayes, Support Vector Machine (SVM), den binären Klassiﬁkationsverfahren und Supervised Latent Dirichlet Allocation (SLDA), einem multiclass Klassiﬁkationsverfahren. Um eine Vergleichbarkeit zu erreichen wurde der C++-SLDA in Java implementiert werden.

Damit binäre Klassiﬁkationsverfahren in der Lage sind Multi-Label Klassiﬁkationen durchzuführen, benötigt es eine Reihe von Transformationen. Für die benutzten binären Klassiﬁkationsverfahren Naive Bayes und SVM wurde die Transformation RAkEL verwendet. Für den SLDA wurde ein eigener Topic Modell Multi-Label Learner entwickelt und verwendet.

Zur Klassiﬁkation wird der Reuters-21578 Korpus verwendet. Da nicht alle enthaltenen Texte Labels haben und nicht alle vorkommenden Labels in ausreichender Häuﬁgkeit vorliegen, wurde eine Auswahl der Texte getroﬀen. Am Ende werden zwei verschiedene Korpus erzeugt, die für die Klassiﬁkation benutzt wurden.

Die Ergebnisse der Klassiﬁkation zeigen, dass die SVM die besten Ergebnisse lieferte und Naive Bayes und SLDA in etwa gleich gut sind. Der Nachteil des SLDA liegt vor allem in dessen langer Laufzeit.

BibTex | PDF