Social media bieden een gemakkelijk platform om de eigen mening en gevoelens real-time uit te drukken. Daardoor bieden social media data ook een alternatieve manier om blijheid (happiness) te meten op basis van het sentiment dat uitgedrukt wordt in deze data. In dit project meten we de tijdelijke verandering in blijheid in Nederlandstalige tweets waarbij we gebruik maken van een woordenlijst die opgesteld is door Mechanical Turk (labMT) en waarop de blijheid van alle uitdrukkingen een score heeft.

Dataverzameling en -cleaning

We verzamelen via een zogenaamde streaming API de Nederlandstalige tweets per uur. Bij ruwe tweets is er vaak sprake van inconsistenties. Daarom moeten deze ruwe tweets gecleaned en bewerkt worden voordat ze gebruikt kunnen worden.

Methode

Eerst extraheren we de zogenaamde termfrequentie van individuele woorden (monogram model), dus hoe vaak een bepaalde term gebruikt is in de bewerkte tweets. Vervolgens berekenen we het gewogen gemiddelde blijheidsniveau van alle bewerkte termen gebaseerd op de gemiddelde score van elk woord in de labMT woordenlijst. Op die manier kunnen we de blijheidsscore van alle Nederlandstalige tweets per uur berekenen. Naast deze score laat het algoritme ook zien welke woorden met een hoge frequentie elk uur verschijnen in de tweets. Op basis van deze informatie kunnen we correlaties vinden tussen de verandering in blijheid in tweets, de op social media geuite publieke mening en eventuele gebeurtenissen.

Referentie

http://hedonometer.org/words.html