Der Unterschied von Rohdaten und repräsentativen Ergebnissen

Das Problem nicht-repräsentativer Online-Umfragen

Einfache Klicktools im Internet haben häufig das Problem, dass sie nicht alle Bevölkerungsgruppen in Deutschland gleichermaßen erreichen. Wenn eine bestimmte Nachrichtenseite eine Umfrage startet, dann beantworten häufig nur die Menschen diese Umfrage, die die entsprechende Seite auch lesen. Auf einer Internetseite, die eher jüngere Menschen anspricht, werden weniger ältere Menschen abstimmen und auf einer Online-Seite, die vor allem Nachrichten aus Bayern abdeckt (wie z. B. die Augsburger Allgemeine) werden voraussichtlich weniger Menschen aus Norddeutschland abstimmen. Würde man die Ergebnisse der jeweiligen Seite einfach nur aufaddieren, würde man Verzerrungen feststellen: die Stimmen von bestimmten Bevölkerungsgruppen fallen mehr ins Gewicht als die Stimmen von anderen. Solche Ergebnisse geben ein Stimmungsbild über Besucher einer Website, die bereit sind, zu einem bestimmten Thema abzustimmen, wider. Sie können allerdings nicht aussagekräftig für eine größere Gruppe, wie beispielsweise alle Wahlberechtigten in Deutschland sein.

Civey Rohdaten können verzerrt sein

Mit diesem Problem sind auch Civey-Umfragen konfrontiert. Unsere Umfragen sind zwar jeden Tag auf über 12.500 Websites eingebunden, damit sich möglichst viele unterschiedliche Menschen an unseren Umfragen beteiligen, aber auch hier kann es sein, dass eine bestimmte Frage eine Bevölkerungsgruppe eher anspricht und sich diese deshalb in absoluten Zahlen stärker daran beteiligt als andere. Wenn es um die Legalisierung von Drogen geht z. B. werden vermutlich mehr jüngere Menschen die Frage beantworten als ältere, wohingegen eine Frage nach der Rente möglicherweise häufiger von älteren Menschen beantwortet wird (Self Selection Bias). Die Ergebnisse der entsprechenden Frage sind dann verzerrt. Solche Verzerrungen zeigen sich in den Rohdaten. Aus den Rohdaten kann man ablesen, wie die Menschen in der Vergangenheit in absoluten Zahlen an unserer Umfrage abgestimmt haben, da sie die absoluten Klicks auf eine Umfrage wiedergeben. Sie zeigen also, wie oft eine Umfrage insgesamt beantwortet wurde, unabhängig davon, ob einzelne Menschen mehrfach abgestimmt haben oder bestimmte Bevölkerungsgruppen über- oder unterrepräsentiert sind, also zu stark oder zu schwach vertreten sind.

Nur Teilnehmer, die persönliche Angaben machen, werden berücksichtigt

Damit eine Umfrage aussagekräftig für die gesamte Bevölkerung sein kann, müssen wir sicherstellen, dass alle Bevölkerungsgruppen in Deutschland gemäß ihrem Anteil an der Gesamtbevölkerung berücksichtigt werden. Diesen Anteil bestimmen wir anhand bestimmter Merkmale, wie z. B. Alter, Geschlecht, Region, Bildungsstand und politische Orientierung. Die Informationen, wie groß die jeweiligen Bevölkerungsgruppen in Deutschland sind, beziehen wir zum Beispiel aus offiziellen Angaben des statistischen Bundesamtes. Dafür fragen wir unsere Nutzer bei der Registrierung nach ihren sogenannten Stammdaten (Alter, Geschlecht, Postleitzahl). Durch diese Angaben weiß unser System dann, wie stark die jeweilige Stimme berücksichtigt werden muss. Das heißt: für die repräsentativen Ergebnisse berücksichtigen wir nur die Stimmen von Teilnehmern, die persönliche Angaben gemacht haben. 

Repräsentative Ergebnisse durch die richtige Stichprobe

Ein einfaches Beispiel: Bei einer Umfrage beteiligen sich 80 Prozent Männer und nur 20 Prozent Frauen. Da in Deutschland das Geschlechterverhältnis relativ ausgeglichen ist (50:50), können die Ergebnisse dadurch verzerrt sein. Das passiert dann, wenn Männer bei dem Thema anderer Meinung sind als Frauen. Damit die Ergebnisse die Realität abbilden, müssen die Stimmen der Frauen in der Umfrage entsprechend stärker „ins Gewicht“ fallen und die der Männer entsprechend weniger. Dafür zieht unser System aus den Stimmen aller registrierten Teilnehmer eine Stichprobe, deren Merkmale im Kleinen den Merkmalen der Gesamtbevölkerung möglichst exakt entsprechen. Die Stichprobe besteht also im Idealfall aus genauso vielen Männern wie Frauen. Anschließend werden die Stimmen aus der Stichprobe nach Wertehaltungen und weiteren soziodemografischen Faktoren der Abstimmenden nachgewichtet, um letzte mögliche Verzerrungen zu korrigieren. Welche Gewichtungsvariablen wir verwenden, hängt von der jeweiligen Fragekategorie ab. Zum Einsatz kommen dabei unter anderem politische Einstellungen, Bevölkerungsdichte, Bildungsstand oder Kaufkraft. 

Nur repräsentative Ergebnisse sind aussagekräftig

Die einzig verlässlichen Ergebnisse sind also die repräsentativen (gewichteten) Ergebnisse, da nur sie aussagekräftig für die wahlberechtigte Bevölkerung sind. Die Rohdaten sind häufig verzerrt. Wenn die Rohdaten stark von den repräsentativen Ergebnissen abweichen, dann kann das unter anderem daran liegen, dass die Meinungen verschiedener Bevölkerungsgruppen bei dem entsprechenden Thema stark voneinander abweichen. Wenn sich eine oder mehrere Bevölkerungsgruppen (z. B. AfD-Wähler oder Menschen über 50) sehr oft an der entsprechenden Umfrage beteiligen – und zwar öfter als sie tatsächlich in der gesamten deutschen Bevölkerung vertreten sind – während andere Bevölkerungsgruppen (z. B. jüngere Deutsche oder CDU-Wähler) weniger oft abstimmen, dann führt dies dazu, dass die Rohdaten stärker von den repräsentativen Ergebnissen abweichen. Eine solche Verzerrung fällt weniger stark ins Gewicht, wenn es sich um weniger kontroverse Themen handelt.

FacebookTweet

Andere aktuelle Beiträge