Benutzerspezifische Werkzeuge

Sentimentanalyse

Michaela Geierhos (unter Mitarbeit von Frederik S. Bäumer)

Bei der Sentimentanalyse (auch Stimmungserkennung) werden individuelle Meinungstexte hinsichtlich der positiven oder negativen Haltung ihres Verfassers gegenüber Produkten, Leistungen und Erlebnissen maschinell klassifiziert.

Als Untergebiet des Text Minings ist die Sentimentanalyse als binäres Klassifikationsproblem zu verstehen. Ob auf Dokumenten-, Satz- oder Objekt- und Eigenschaftsebene zwischen positiver oder negativer Meinung unterschieden wird, hängt vom jeweiligen Anwendungsfall ab (Liu, 2012). Während auf Dokumentebene für z. B. einen Bewertungskommentar (ein sogenanntes Dokument) eine Gesamtentscheidung getroffen werden muss, ob dieser als positiv oder als negativ klassifiziert wird, ist das Analyseresultat auf Satzebene wesentlich differenzierter. Da Dokumente sowohl positive als auch negative Äußerungen in Sätzen enthalten können, ermöglicht dieser Granularitätsgrad ein ganzheitlicheres Stimmungsbild. Noch facettenreicher gestaltet sich die Sentimentanalyse auf Objekt- und Eigenschaftsebene, wofür die bewerteten Aspekte von Produkten, Leistungen oder Erlebnissen zusammen mit ihren wertenden Ausdrücken mittels Text Mining Methoden extrahiert werden, bevor sie nach positiven oder negativen Eigenschaften gruppiert werden.

Ansätze der Sentimentanalyse

Dabei haben sich zwei grundlegende Vorgehensweisen zur Textklassifikation etabliert: Lexikonbasierte Ansätze und/oder Maschinelles Lernen.

Im Gegensatz zur Emotionsanalyse (hinsichtlich Wut, Freude, etc.) geht es bei der Sentimentanalyse nur um eine Polaritätserkennung. Es wird lediglich zwischen positiver, negativer und evtl. neutraler Stimmung unterschieden. Hierfür müssen Indikatoren im Text identifiziert werden, welche Rückschlüsse auf das sogenannte Sentiment zulassen. Dabei handelt es sich um sprachspezifische Ausdrücke, die aufgrund ihrer Wortbedeutung bereits positiv oder negativ vorbelegt sind. Diese Information lässt sich sogenannten Sentimentlexika der jeweiligen Sprachen entnehmen. In Ergänzung zum elektronischen Standardlexikon einer bestimmten Sprache werden stimmungstragende Ausdrücke - häufig Adjektive - als solche gekennzeichnet. Meist wird von deren kontextunabhängigen Polaritätsausprägung ausgegangen, die binär (positiv/negativ bzw. +/-) oder verhältnisskaliert (z. B. SentiWordNet) kodiert wird. Dabei berücksichtigen lexikonbasierte Verfahren selten die Kontext- oder Domänenabhängigkeit wertender Ausdrücke, die kontextsensitiv ihre Polarität umkehren können (z. B. "gruselig" ist per se negativ konnotiert, aber ist für einen Horrorfilm ein positives Werturteil). In Kombination mit entsprechenden sprachspezifischen Regeln zur Verstärkung (z. B. "sehr" + gut), Abschwächung (z. B. "weniger"+ gut) und Negation (z. B. "nicht" + gut) von Aussagen lassen sich detaillierte Meinungsbilder automatisiert aus Texten ableiten.

Im Unterschied zum Maschinellen Lernen können lexikonbasierte Verfahren für Bereiche eingesetzt werden, für die keine Trainingsdaten existieren (Kennedy und Inkpen, 2006). Auch können hierbei kontextbedingte Ambivalenzen und andere sprachliche Konstrukte leichter berücksichtigt werden, da linguistische Aspekte eines Textes in Betracht gezogen werden können (Brooke et al., 2009). Da es sich bei der Sentimentanalyse um die Lösung eines Klassifikationsproblems handelt, kommt fast jeder (un)überwachte oder semi-überwachte Maschinelle Lernansatz in Frage, der bereits als sogenannter Textklassifikator erfolgreich eingesetzt wurde. Methoden des maschinellen Lernens sind in der Sentimentanalyse im Hinblick auf die Genauigkeit und Präzision der Klassifizierung meist effektiver als die lexikonbasierten Ansätze (Kennedy und Inkpen, 2006). Bei den Methoden des maschinellen Lernens ist es allerdings schwierig, Verbesserungen durch konkrete Berücksichtigung von kontextbedingten Ambivalenzen zu erreichen, da diese zu einem gewissen Grad schon in den Funktionen des Klassifikators enthalten sind. Dieser Effekt kann auftreten, wenn in den Trainingsdaten Kombinationen von Wörtern enthalten sind, welche kontextsensitiv bipolar sind.

Literatur

Brooke, J.; Tofiloski, M.; Taboada, M.: Crosslinguistic sentiment analysis: From english to spanish. In: Proceedings of the 7th International Conference on Recent Advances in Natural Language Processing, Borovets, Bulgaria, 2009, S. 50–54.

Kennedy, A.; Inkpen, D.: Sentiment Classification of Movie and Product Reviews Using Contextual Valence Shifters. In: Computational Intelligence 22 (2006), Nr. 2, S. 110–125.

Liu, B.: Sentiment Analysis and Opinion Mining. In: Synthesis Lectures on Human Language Technologies 5 (2012), Nr. 1, S. 1–167.

Pang, B.; Lee, L.; Vaithyanathan, S. (2002). "Thumbs up? Sentiment Classification using Machine Learning Techniques". Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). S. 79–86.

Taboada, M.; Brooke, J.; Tofiloski, M.; Voll, K.; Stede, M. (2011): Lexicon-Based Methods for Sentiment Analysis. Computational linguistics, 37(2), 267-307.

Turney, P. (2002). "Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews". Proceedings of the Association for Computational Linguistics. S. 417–424.

Autor


 

Jun.-Prof. Dr. Michaela Geierhos, Universität Paderborn, Heinz-Nixdorf-Institut, Wirtschaftsinformatik, insb. CIM, Fürstenallee 11, 33102 Paderborn

Autoreninfo


Zuletzt bearbeitet: 12.12.2016 16:29
Letzter Abruf: 26.04.2017 15:37
Artikelaktionen