Direkt zum Hauptbereich

Sentiment Analysis mit Twitter-Daten über Fracking: Ein misslungener Versuch



Das Problem

In einem Projekt am FoKoS versuchen wir, Twittermeldungen zum Thema "fracking" (eine kontrovers diskutierte Fördertechnik für Erdgas) zu analysieren. Pro Woche gibt es in etwa 20.000 solcher Tweets.
Wir würden gerne wissen, welche Meldungen pro oder contra fracking sind. Morry hat versucht, dies über eine Sentiment-Analyse zu ermitteln und beschreibt im Folgenden die Methode:

Measuring semantics of a sentence or expression…

The idea comes from the availability of WordNet Dictionary[i]. Within this dictionary the definition of each adjective includes all its synonyms. So, it is possible to measure the distance of two adjectives as the number of the synonyms between two different adjectives. It is expected the more similar the adjectives are the less distance between them would exist. As example the distance between words “honest” and “good” is just two words, but the distance between “honest” and “bad” is 6.

Jaap Kamps[ii] developed this idea to measure the positivity, potency and activeness of an adjective as below:

Where d(word1 , word2) stands for the distance between two words on WordNet dictionary. Thease measurements range from -1 to +1 and the greater the measurement, the closer the adjective is to either good/bad, strong/weak, or active/passive.
So we extend this idea to measure the semantic of the expressions. In an expression there are some few words. We want to evaluate all the words in an expression and take an average to measure the expression in an algorithmic way. Take these two samples,
“My life is nice and pretty”:

“I have always been unlucky and sinister”
The drawback of this method is that it cannot capture the negative meanings like “I have never been unlucky and sinister”.
We used this method to check if this is useful to tag the Tweets on Twitter about  “fracking”. We tagged 500 Tweets manually and then tried to see if this method is useful to measure the semantic of the Tweets as we tagged. We separated negative tagged Tweets (Tweets opposing fracking) from positive tagged Tweets (Tweets supporting fracking). Then we plotted the distributions of the three measurements. We expected to find some significant difference between the two tagged groups of Tweets. From the plots below you see we did not manage to do this, as the Tweets are more complex and they contain ambiguous expressions and negative tenses which this method cannot distinguish.
ACT plot of positive tagged Tweets and negative tagged Tweets
EVA plot of positive tagged Tweets and negative tagged Tweets
POT plot of positive tagged Tweets and negative tagged Tweets
Morteza Shahrezaye



[i] http://wordnet.princeton.edu/
[ii] http://dare.uva.nl/document/154122

Was lief schief?

Der Datensatz enthält Tweets wie: 
"US Fracking Boom Creating Crisis of Illegal Toxic Dumping http://t.co/J4vXYSBwrc"
"Fracking Foes Cringe as Unions Back Drilling Boom http://t.co/htrynwJMTG"
"#HumanRightsHere's What #Fracking Can Do to Your #Health"
Ob die Sprache eher negativ oder positiv ist, ist daher kein Indikator für die Haltung des Sprechers gegenüber Fracking. Außerdem enthalten viele Tweets gar keine Adjektive...

Kommentare

Beliebte Posts aus diesem Blog

Der Nutzerismus: Eine Ideologie mit totalitärem Potential

Ich glaube, dass wir derzeit den Aufstieg einer Ideologie erleben, die ich Nutzerismus nennen möchte. Hannah Arendt hat darauf hingewiesen, dass jede Ideologie zu einem totalitaristischen Regime führen kann und es gibt ernste Anzeichen, dass dies auch für den Nutzerismus gilt.  Was ist der Nutzerismus? Wie bei jeder Ideologie ist der Kerngedanke sehr einfach: Im Prinzip gibt es für alle gesellschaftlichen Probleme eine technische Lösung. Leider wenden die Menschen die richtigen Technologien nicht an. Sie nehmen ihre Rolle als Nutzer nicht wahr. Es geht dem Nutzerismus also um das Zusammenspiel von Mensch und Technik, allerdings immer wieder aus der gleichen Perspektive. Die Technik kommt vor als potentielle Lösung eines gesellschaftlichen Problems. Eventuell fehlt die perfekte Lösung noch, aber das ist dann als Auftrag an die Wissenschaft und die Ingenieure zu verstehen. Dieser Technikglaube hat etwas sehr Naives. Er abstrahiert zum Beispiel von allen Interessen, für die Technolog...

Was man an der COVID-Politik über Faschismus lernen kann

Kritiker der Corona-Politik führen immer häufiger den Begriff Faschismus im Munde, um die politischen Maßnahmen zu beschreiben. Einerseits ist damit natürlich eine polemische Ablehnung verbunden: Wer will schon für Faschismus sein? Generell ist der moralische Vorwurf, etwas sei faschistisch oder faschistoid in der demokratischen Auseinandersetzung durchaus geläufig. Dabei wird jedoch meist auf etwas verwiesen, was zum demokratischen Staat dazu gehört und gerade keinen Faschismus begründet: Die Polizei, die das Gewaltmonopol durchsetzt, ist keine faschistische Organisation, ein Parlament, welches Bürgerrechte einschränkt, ist kein Beleg für die faschistische Aufhebung des Rechtsstaats und ein Medienartikel, der dazu aufruft, Bürger sollen Straftäter anzeigen, ist keine faschistische Propaganda, usw. All dies sind Beispiele für das Leben in demokratischen Gemeinwesen. Anstatt die Demokratie also immer gleich auf dem Weg in den Faschismus zu wähnen, wäre es angebracht, sich zu fragen, war...

Kritik an dem Science-Artikel der Priesemann-Gruppe „Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions“

Der Science-Artikel von Dehning et al. (2020) gilt als Beleg für die Effektivität der Corona-Maßnahmen in Deutschland im März 2020. Wir glauben, dass der Artikel gravierende Fehler enthält und daher nichts darüber aussagt, ob insbesondere das Kontaktverbot vom 23.03.2020, irgendeinen Effekt hatte. Unsere Kritik haben wir bei Science eingereicht und sie ist hier zu finden: https://science.sciencemag.org/content/369/6500/eabb9789/tab-e-letters Im folgenden übersetze ich unseren Beitrag und gehe anschließend auf die Frage ein, wie Wissenschaft unter COVID-19-Bedingungen funktioniert und was daran bedenklich ist. Eine Kritik an ‘Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions’ Wir haben den Artikel ‘Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions’ analysiert und dabei gravierende Unstimmigkeiten im Design der Studie festgestellt: Anstatt das Datum der Wendepunkte (wann sich die COVID-19-Entwicklung i...