Online-Umfragen wird regelmäßig vorgehalten, sie könnten keine repräsentativen Aussagen über die Gesamtbevölkerung geben, weil nicht alle Personen über einen Internetzugang verfügen (World Bank Data, 2016) und somit Verzerrungen entstünden. Um Umfragen anzubieten, deren Ergebnisse einem wissenschaftlichen Mindestanspruch genügen, setzen wir uns intensiv damit auseinander, solche potentiellen Verzerrungen durch eine nachträgliche Gewichtung zu korrigieren. Da dies wissenschaftlich wie technologisch anspruchsvoll ist, haben wir uns parallel auch angeschaut, wie andere Institute nachträglich gewichten und nehmen euch auf diese Reise mit!

Was tun, wenn die Eigenschaften der Stichprobe von denen in der Grundgesamtheit abweichen?

Um die Stichprobe in ihren relevanten demographischen Merkmalen proportional an die Verteilung in der Grundgesamtheit anzupassen, eignet sich als nachträgliches Gewichtungsverfahren die Poststratifizierung durch Zell-Gewichtung. In diesem Verfahren fließen die Stimmenanteile aller Gruppen genau so stark in die Analyse ein wie sie es aufgrund der Bevölkerungstruktur sollten. Theoretisch macht diese Eigenschaft die Poststratifizierung zu einem sehr geeigneten Gewichtungs-Verfahren. Insbesondere hat die Zell-Gewichtung den Vorteil, dass Interaktionen der vorliegenden Variablen abgebildet werden. Ein Beispiel: Wir schauen uns alle Variablen unserer Teilnehmer getrennt an. Dabei stellen wir fest, dass in unserer Stichprobe ältere Menschen und Männer unterrepräsentiert scheinen. Schauen wir uns jetzt aber die vorliegenden Variablen zusammen “in Interaktion” an, können wir durchaus feststellen, dass Männer lediglich in jüngeren Altersgruppen unterrepräsentiert sind. Diesen Interaktionseffekt kann man bei Poststratifizierung mittels Zell-Gewichtung präzise darstellen. Bei einem Näherungsverfahren, wie beispielsweise dem Raking, bleibt die tatsächliche Stärke der Interaktion zwischen den Variablen unbekannt.

Herausforderungen in der Umsetzung

Wenn in der Praxis nach vielen Variablen gewichtet werden soll, wird Poststratifizierung schnell kompliziert: Dann entstehen durch die Kombination aller Merkmale der zu gewichtenden Variablen sehr viele Gruppen, die oft nur sehr wenige oder gar keine Personen aus der Stichprobe enthalten. Bei sehr kleinen Gruppen wird einzelnen Umfrageteilnehmern schnell ein derart großes Gewicht zugeordnet, dass ihre Antworten unverhältnismäßig stark für die Abbildung der Meinung einer Bevölkerungsgruppe herangezogen werden. Um dem vorzubeugen muss unter Inkaufnahme verringerter Präzision auf Verfahren wie Trimming oder Cell-Collapsing zurückgegriffen werden. So verwendet TNS Infratest beispielsweise zur Gewichtung laut eigener Aussage im Normalfall Raking mit getrimmten Gewichten.

Poststratifizierung wird in der Praxis ebenfalls durch den Bedarf an detaillierten Daten über die Grundgesamtheit verkompliziert. Valide Daten zu gemeinsamen Verteilungen liegen in der Regel nur für eine sehr begrenzte Menge an Variablen vor. So existieren beispielsweise Zensusdaten für Alter und Geschlecht, teils auch für den Wohnort. Ohne diese Datengrundlage kann Poststratifizierung mittels Zell-Gewichtung allerdings nicht durchgeführt werden.

Wenn weitere Variablen zur Abbildung der Grundgesamtheit relevant werden, wird das Verfahren daher regelmäßig mit weiteren Gewichtungsmethoden (z. B. Iterative Proportional Fitting bzw. Raking) ergänzt oder sogar ersetzt. Forsa verwendet beispielsweise in einer Untersuchung für das Bundesinstitut für Berufsbildung eine Kombination aus Poststratifizierung nach Alter und Geschlecht sowie Raking nach fünf weiteren separaten Variablen.

Der Vergleich mit den Instituten zeigt, dass unsere Entscheidung, mehrere Verfahren der Poststratifizierung zur nachträglichen Gewichtung einzusetzen, eine gängige Methode ist. Zu welchem Grad die unterschiedlichen Varianten der Poststratifizierung in unsere Gewichtungsalgorithmen einfließen werden, hängt mittelfristig von der Datenverfügbarkeit themenspezifischer Gewichtungsvariablen ab.

Poststratifizierung

Poststratifizierung als Mittel nachträglicher Gewichtung bei verzerrten Stichproben

Quellen:

World Bank data, 2016: “Internet users (per 100 people)”, data for 2014

TNS Infratest. Gewichtung und Validierung der Nettostichprobe (Welle 1 des Projekts „Lebensziele und Lebensverläufe in Ostdeutschland“)

Forsa, 2011: “Berufliche Weiterbildung: Ursachen möglicher Unterinvestitionen und Anreize bei Betrieben und Beschäftigten. Feldbericht