Die Statistische Methodik von Civey

Eine Einordnung im Kontext gegenwärtiger Debatten über das Für und Wider internetbasierter nicht-probabilistischer Stichprobenziehung.

Das komplette Whitepaper inklusive des methodologischen Anhangs finden Sie hier zum Download.

1 Einleitung

Die moderne Umfrageforschung befindet sich in einer Phase des Umbruchs: Lange Zeit als verlässlich geltende Methoden geraten zunehmend in die Kritik, insbesondere da sich die Ausschöpfungsquoten bei klassischen Erhebungen mittlerweile auf einem historisch niedrigem Niveau bewegen. Gleichzeitig drängen neue Anbieter auf den Markt, die diese Probleme mit neuen Erhebungsmethoden lösen wollen, dabei aber zugleich vor neuen statistischen Herausforderungen stehen. Die Diskussion wird sowohl in der Wissenschaft als auch in den Fachorganen der Markt- und Meinungsforschungsbranche kontrovers geführt. Im Folgenden möchten wir einen kurzen Überblick über die zentralen Streitpunkte der Debatte geben und die von Civey entwickelte Methodologie innerhalb des Diskurses verorten.

2 Die Debatte

2.1 Probability Sampling

Der klassische Ansatz der Stichprobenziehung geht auf den Statistiker Neyman (1934) zurück. Die von ihm entwickelte Theorie des Probability-Samplings und nahezu jedes seither publizierte Standardwerk folgen dabei dem gleichen Grundgedanken: Über das Design der Stichprobe kann jedem Individuum eine klare Wahrscheinlichkeit zugeordnet werden, zufällig in diese ausgewählt zu werden. Auf dieser Basis können aus der statistischen Theorie verlässliche Aussagen über relevante Größen in der Grundgesamtheit, zum Beispiel der Anteil von Zustimmung zu einer Aussage, hergeleitet werden.

Die Formulierung des Probability-Samplings repräsentiert einen Meilenstein der Survey-Statistik: Durch die Befragung einer kleinen Zufallsauswahl von Personen war es erstmals auf seriöser Grundlage möglich, Aussagen über eine Grundgesamtheit zu treffen. Über mehrere Jahrzehnte erfreute sich die in Neymans Tradition stehende Methode deshalb großer Beliebtheit in der Markt- und Meinungsforschung und galt insbesondere in der Privatwirtschaft häufig kombiniert mit Callcenter-basierten Telefonbefragungen als Branchenstandard. Aus dem Grundgedanken des design-basierten Ansatzes folgen zwei zentrale Annahmen: Sämtliche Personen innerhalb der interessierenden Grundgesamtheit müssen einerseits über eine Auflistung (Frame) bekannt sein und andererseits über eine positive und berechenbare Wahrscheinlichkeit verfügen, in die Stichprobe zu gelangen. In Zeiten flächendeckender Festnetzverbreitung, verpflichtender Eintragungen in Telefonbücher und hoher Bereitschaft zur Teilnahme an Umfragen konnte diese zentrale Basis des Probability-Samplings als gegeben angenommen werden, sodass valide und verlässliche Rückschlüsse auf die Bevölkerung möglich waren.

Heutzutage ist telefonbasiertes Probability-Sampling jedoch mit schwerwiegenden Herausforderungen konfrontiert: Zuallererst ist hier die schwindende Bereitschaft der Bevölkerung zu nennen, an Telefonumfragen teilzunehmen. Aus den USA existieren hierzu detaillierte Zahlen: So sank der Anteil der tatsächlich erzielten Interviews an der ursprünglich ausgewählten Stichprobe (Ausschöpfungsquote) für die renommierte Gallup Poll Social Series von 28 % (1997) auf 7 % (2017), der Anteil der Erreichten, die sich bereit erklärten, am Interview teilzunehmen, halbierte sich in der gleichen Zeit (Marken, 2018). Auch die Ausschöpfungsquoten von Pew Research fielen von 1997-2018 von 36% auf gerade einmal 6% (Kennedy and Hartig, 2019). Für die Marktforschung insgesamt spricht der Branchenverband AAPOR alleine im Zeitraum 2008-2015 von einem Einbruch von 15.7% auf 9.3% (Festnetz) bzw. 11.7% auf 7.0% (Mobilfunk).

Dies ist bedenklich, da ein Zusammenhang zwischen der Ausschöpfungsquote und der durchschnittlichen Verzerrung innerhalb einer Umfrage existieren kann (Brick and Tourangeau, 2017). Je geringer die Bereitschaft zur Teilnahme, desto größer das Risiko, dass diejenigen, die tatsächlich in die Stichprobe gelangen, systematische Unterschiede zur Grundgesamtheit aufweisen. Im Kampf gegen Umfragemüdigkeit müssen deshalb teure Anreize bereitgestellt oder aufwendige flexible Survey-Designs genutzt werden, die den Sampling-Prozess adaptiv an das Antwortverhalten anpassen (Kinney and Cooney, 2019). Telefonumfragen leiden weiterhin unter einer sinkenden Festnetz-Penetration, welche komplexe Dual-Frame-Ansätze notwendig macht, durch die zusätzlich Mobilfunknutzer befragt werden. Smartphone-Betriebssysteme, Apps und Provider blockieren jedoch zunehmend potentielle Spam-Anrufe unbekannter Nummern, sodass Befragte in Zukunft noch schwieriger zu erreichen sein werden (Dutwin et al.,2018).

Etablierte wissenschaftliche Großbefragungen können die durch diese veränderten Umstände entstehenden, teils erheblichen Kostensteigerungen (Blohm and Koch, 2015) zu Gunsten verlässlicher Ergebnisqualität in Kauf nehmen. Dies garantiert weiterhin eine qualitativ hochwertige Grundlage für sozial- und verhaltenswissenschaftliche Forschung. Private Unternehmen sind dazu oftmals nicht in der Lage, ohne ihre Wirtschaftlichkeit zu gefährden. Die einzige kostenneutrale Alternative zum Ausgleich der niedrigen Ausschöpfungsquoten sind signifikante Nachgewichtungen, welche jedoch Neymans Grundidee zuwiderlaufen, da sie von Annahmen abhängen, die auch im Kontext des Non-Probability Samplings notwendig sind. Es ist deshalb fraglich, inwieweit die tatsächliche Praxis der Markt- und Meinungsforschung heutzutage noch den Ansprüchen des Probability Samplings genügen kann oder ob die Voraussetzungen dieses Paradigmas so vollumfänglich verletzt sind, dass dieser Begriff nicht mehr angebracht ist.

2.2 Online Non-Probability Sampling

Sowohl vor als auch nach Neymans Durchbruch wurden auch andere Methoden der Stichprobenziehung genutzt, die nicht allen Elementen der Grundgesamtheit eine eindeutige, positive Auswahlwahrscheinlichkeit zuordnen (Stephan and Mc-Carthy, 1958). Diese werden auch als Non-Probability Sampling-Methoden bezeichnet. Während sie nach der Etablierung des Probability-Samplings zunächst nicht mehr als eine Randerscheinung waren, änderte sich dies mit der wachsenden Verbreitung des Internets und dem fortschreitenden Fall der Ausschöpfungsquoten.

Mittlerweile mehren sich Stimmen in der Forschung, die sich für die Nutzung von Online Non-Probability-Sampling aussprechen (Wang et al., 2015; Ansolabehere and Rivers, 2013; Ansolabehere and Schaffner, 2014; Goel et al., 2015). Neben beeindruckenden Erfolgen in der Prädiktion von Wahlergebnissen spricht hierfür die gerade im Kontext der Marktforschung große Zweckeignung (fit for purpose) im Hinblick auf praktisch benötigte Präzision, Ergebnisgranularität, Durchführbarkeit, Geschwindigkeit und Kosten (AAPOR, 2015). Online-Non-Probability Surveys sind häufig günstiger, ermöglichen die Erhebung großer Stichproben und die Befragung kleiner Zielgruppen und können schnell und unkompliziert durchgeführt werden. Zudem verringert die Anonymität der Online-Befragung das Risiko unehrlichen Antwortverhaltens als Ergebnis sozialer Erwünschtheit sowohl im Vergleich zu Telefon- (Keeter, 2015) als auch papierbasierten Umfragen (Gnambs and Kaspar, 2015).

Andere Autoren widersprechen dieser Initiative auf Basis von empirischen (MacInnis et al., 2018) und theoretischen (Quatember, 2019) Argumenten. Probability-Sampling kann als einheitlicher theoretischer Rahmen betrachtet werden, da sämtliche verwendeten Methoden von der Existenz einer bekannten Ziehungswahrscheinlichkeit größer Null für jedes Individuum in der Grundgesamtheit ausgehen. Die Ansätze des Non-Probability-Samplings vereint hingegen primär die Abwesenheit jener Wahrscheinlichkeit. Das bedeutet, dass sie auf eine sorgfältige Berücksichtigung des Selektionsmechanismus angewiesen sind, der bestimmt, ob ein Individuum Teil des Samples wird oder nicht. Inwieweit dieser Nachteil in der Praxis der Marktforschung von Relevanz ist, kann allerdings bezweifelt werden. So müssen (vermeintliche) Probability-Samples wie bereits angedeutet auf vergleichbare Korrekturen zurückgreifen, um die bereits angesprochenen Verzerrungen im Antwortverhalten bedingt durch extrem niedrige Ausschöpfungsquoten auszugleichen (Rivers, 2013).

Zudem wurden in den vergangenen Jahren maßgebliche Fortschritte in der theoretischen Fundierung des Non-Probability-Samplings gemacht, sodass heute gemeinhin zwischen zwei etablierten Methoden für valide Schlüsse aus diesen unterschieden wird: der auf Sample-Matching basierenden Quasi-Randomisierung und der Superpopulationsmodellierung1: Während Quasi-Randomisierungsansätze mit Hilfe einer probabilistischen Stichprobe von hoher Qualität versuchen, künstliche Ziehungswahrscheinlichkeiten für Personen in einem Non-Probability-Sample zu bestimmen, schätzen Superpopulationsansätze unter Verwendung von in der Bevölkerung entweder auf Individual- oder auf Aggregatebene bekannten Informationen und einem im Non-Probability-Sample gebildeten Modell die Antworten aller Personen in der Grundgesamtheit.

Hierauf aufbauend existieren klare Voraussetzungen, unter denen Non-Probability-Sampling valide Ergebnisse liefern kann. Zentral ist insbesondere die Annahme der Ignorable Sample Selection bzw. Selection at Random. Diese ist eng mit dem im Kontext der Kategorisierung fehlender Daten genutzten Missing at Random-Konzept verbunden und wird zum Beispiel von Rivers (2013) ausführlich beschrieben. Praktisch bedeutet dies, dass gegeben der im Rahmen des Modells oder des Matchings verwendeten Variablen der Selektionsmechanismus unabhängig vom Antwortverhalten (bzgl. der interessierenden Analysevariable) der Nutzer sein muss, um valide Ergebnisse zu garantieren. Diese Annahme wird im Kontext des bei Civey verwendeten Modells im technischen Anhang genauer diskutiert.

3 Methodisches Vorgehen bei Civey

Die bei Civey verwendete Methodik basiert im Kern auf einer Kalibration via Raking zur Berechnung der regulären Ergebnisse (welche man als implizite Superpopulationsmodellierung betrachten kann, wie im Anhang genauer erläutert wird) und einer expliziten Superpopulationsmodellierung durch Mehrebenen-Regression und Poststratifizierung für kleinräumige Schätzungen auf Bundesland-, Bezirks- und Kreisebene. Sie lässt sich somit in die beschriebene Systematik der Non-Probability-Sampling-Theorie einfügen und orientiert sich an den Anforderungen der aktuellen Fachliteratur.
Die zentralen Elemente des methodischen Vorgehens bei Civey werden im Folgenden kurz erläutert, eine umfassende mathematische Darstellung findet sich im Anhang.

3.1 Rekrutierung des Panels

3.1.1 River-Sampling

Der erste zentrale Schritt ist die Rekrutierung von Umfrageteilnehmern. Civey-Umfragen werden tagtäglich auf mehr als 25 000 einzigartigen URLs über ein Netzwerk von mehreren Dutzend reichweitenstarken Seiten von Medienpartnern, Email-Providern und zahlreichen Privatnutzern und Blogs eingebunden, die unterschiedliche thematische Schwerpunkte aufweisen. Dieses auch als "River-Sampling" bezeichnete Verfahren erlaubt den Zugriff auf einen deutlich größeren und diverseren Pool von Befragten; gerade kleine demographische Gruppen können so effizient erreicht werden (Callegaro, 2014). Dabei wird sichergestellt, dass Umfragen über die URLs gleichmäßig an die zu befragende Zielgruppe und über die erhobene Zeit hinweg ausgespielt werden.

3.1.2 Incentivierung

Nahezu sämtliche Online Non-Probability-Panels sind gezwungen, potentiellen Nutzern eine Form von finanziellem Anreiz (Geld, Gutscheine, Spenden, etc.) anzubieten, um sie zur Beantwortung von Fragen zu motivieren. Stammt ein signifikanter Teil der Antworten im Panel von Personen, welche ausschließlich aus monetärem Eigeninteresse an der Umfrage teilnehmen, sog. "Professionelle Befragte" (Hillygus et al., 2014), könnte dies negative Auswirkungen auf die Datenqualität haben, da professionelle Befragte unter Umständen primär an einer Maximierung ihrer finanziellen Belohnung und nicht an sorgfältigen und korrekten Antworten interessiert sind. Dies kann sich unter anderem in bewussten Falschantworten zur Vergrößerung der Menge von zu beantwortenden Umfragen äußern (Guin et al., 2006).

Ein wesentliches Alleinstellungsmerkmal des bei Civey genutzten Vorgehens ist der komplette Verzicht auf derartige Maßnahmen, sodass eine Verzerrung durch professionelle Befragte ausgeschlossen werden kann. Der Anreiz zur Umfrageteilnahme bei Civey entsteht hingegen durch die exklusive Sicht auf die gewichteten Umfrageergebnisse.

3.1.3 Verhinderung von Manipulation

Zur Verhinderung von Manipulation greifen wir auf ein breites Spektrum von dem Stand der Forschung entsprechenden Methoden zurück, wie sie zum Beispiel von Teitcher et al. (2015) beschrieben werden.

In den Berechnungen werden ausschließlich verifizierte Teilnehmende berücksichtigt. Diese Verifizierung umfasst eine niedrigschwellige Registrierung, bei der Befragte grundlegende Soziodemographika und ein Einverständnis zur Datenverarbeitung abgeben. Weitere Abstimmungen ordnet Civey über E-Mail-Adressen, Authentifizierungs-Token und Cookies den entsprechenden Befragten zu. Darüber hinaus prüfen wir im Rahmen der fortlaufenden Verifizierung, ob der einzelne Nutzer eine echte Person ist, ausreichend Daten für eine spätere Gewichtung vorliegen und mit welcher Wahrscheinlichkeit seine Angaben der Wahrheit entsprechen. Hierfür werden technische, statistische und inhaltliche Plausibilitätschecks genutzt, darunter Kriterien wie Mausbewegungen des Nutzers, das Klickverhalten und Geschwindigkeit der Teilnahme sowie die inhaltliche Plausibilität beziehungsweise Widersprüche in gegebenen Antworten. Mehrfache Antworten eines Nutzers auf die gleiche Frage sind innerhalb eines fragespezifischen Zeitraums nicht möglich. Eine gezielte Manipulation der Ergebnisse ist somit ausgeschlossen.

3.2 Berechnung von Anteilen

3.2.1 Quota-Sampling

Aus allen innerhalb eines frageabhängigen Zeitfensters abgegebenen Antworten wird eine quotierte Stichprobe von einer vorher festgelegten Größe (üblicherweise 5000 Befragte) gezogen. Dabei muss die Verteilung der Stichprobe im Hinblick auf bestimmte demographische Variablen wie Alter, Geschlecht und Wahlverhalten der (z.B. aus administrativen Daten) bekannten Verteilung innerhalb der Grundgesamtheit entsprechen. Da durch den inhaltlichen Kontext der Einbindung unserer Umfragen ins journalistische Angebot unserer Medienpartner Framing-Effekte (Stalans, 2012) nicht ausgeschlossen werden können, wird die Antwort eines Nutzers für die weitere Analyse nur dann verwendet, wenn ihm diese durch den Civey-Algorithmus randomisiert ausgespielt wurde. Die Information über die erste beantwortete Frage eines Nutzers innerhalb einer zusammenhängenden Sitzung wird somit üblicherweise nicht verwendet.2

Dieser Prozess hat nur wenig Gemeinsamkeiten mit der klassischen quotierten Stichprobe der analogen Welt, in welcher ein Interviewer nach eigenem Ermessen entscheidet, ob eine Person befragt werden soll oder nicht. Einige gut gewählte Quoten können so online bereits eine signifikante Verzerrung des Ergebnisses verhindern und vermeiden exzessive Gewichtung im weiteren Verlauf der Berechnungen. (Rivers, 2007)

3.2.2 Raking

Etwaige nach dem Quota-Sampling noch verbleibende Abweichungen zwischen Stichprobe und Grundgesamtheit im Hinblick auf bekannte Variablen (z.B. Alter, Geschlecht, Wahlverhalten, Parteineigung und geographische Verteilung) werden durch eine Raking-basierte Gewichtung beseitigt. Diese ursprünglich von Deming and Stephan (1940) eingeführte Methode wird klassischerweise im Kontext des Probability Samplings zur Korrektur von Verzerrungen durch niedrige Ausschöpfungsquoten genutzt. Sie kalibriert die Gewichtung der Beobachtungen in einer Stichprobe so, dass sie mit den Randverteilungen einer oder mehrerer Variablen übereinstimmt, welche zum Beispiel aus der amtlichen Statistik bekannt sind. In der Stichprobe unterrepräsentierte Gruppen erhalten somit ein höheres Gewicht, überrepräsentierte ein niedrigeres.

Der Non-Probability-Terminologie von Valliant et al. (2018) folgend kann das Raking als eine Art implizites Superpopulationsmodell betrachtet werden. Superpopulationsmodelle zeichnen sich generell dadurch aus, dass der Zusammenhang zwischen dem Antwortverhalten und einer Reihe von über die Befragten vorliegenden Informationen explizit (zum Beispiel mit Hilfe einer linearen Regression, wie beim sog. GREG-Schätzer, Särndal et al. (1992)) modelliert wird, um Vorhersagen für jedes Individuum (oder Totalwerte) in der Grundgesamtheit vorherzusagen (Elliott and Valliant, 2017). Obwohl vergleichsweise simpel und robust, liefert Raking Ergebnisse, die vergleichbar mit jenen deutlich komplexerer Superpopulationsmodelle sind (Valliant, 2019). Ein detaillierter Überblick über den Zusammenhang von Superpopulationsmodellen, ihren Annahmen und Raking ist im technischen Anhang zu finden.

Die so erzeugten Gewichte können allerdings eine erhebliche Variation aufweisen: Manche Beobachtungen in stark unterrepräsentierten Gruppen verfügen unter diesen Umständen über einen deutlich größeren Einfluss auf das Ergebnis als der durchschnittliche Befragte, was die Unsicherheit der Ergebnisse erhöht. Zu diesem Zweck wird auf das Verfahren des Weight-Trimmings zurückgegriffen, welches einen Maximal- und einen Minimalwert für die kalibrierten Gewichte festsetzt3.

3.2.3 Unsicherheitsmaß des Ergebnisses

Es existiert gegenwärtig kein allgemein akzeptierter Standard zur Bestimmung von Unsicherheitsmaßen für die Schätzung interessierender Größen in nichtprobabilistischen Stichproben. Deshalb orientieren wir uns an den von der AAPOR aufgestellten Richtlinien zur Angabe von Unsicherheitsmaßen für Non-Probability-Surveys (AAPOR, 2015) und berechnen die Unsicherheit unserer Ergebnisse mit Hilfe eines bayesianischen 95% Kredibilitätsintervall basierend auf einem Beta-Binomial-Modell unter Verwendung einer nicht-informativen Bayes-Laplace Prior-Verteilung(Tuyl et al., 2008) mit maximal konservativen Annahmen und einer Pseudo-Design-Effekt-Korrektur nach Kish (1992), wodurch der durch die Gewichtung gestiegenen Varianz Rechnung getragen wird. Die mathematischen Details dieses Ansatzes sind im technischen Anhang dargelegt. Obwohl in der Markt- und Meinungsforschung in verschiedenen Ausprägungen gängige Praxis4, existiert keine rigorose theoretische Begründung dieser Korrektur. Interne Tests zeigen jedoch, dass die so generierte Maßzahl extrem nahe an mit Hilfe komplexerer Verfahren generierter Schätzungen des statistischen Fehlers liegt, insbesondere dem Generalized Raking-Varianzschätzer.

3.2.4 Kleinräumige Schätzung

Neben der Bestimmung von Bevölkerungsanteilen und ihrer Aufschlüsselung nach demographischen Subgruppen berechnet Civey auf Anfrage kleinräumige geographische Schätzungen für Bundesländer, Regierungsbezirke und Landkreise. Häufig liegen jedoch nicht genug Beobachtungen vor, um verlässliche Ergebnisse mit Hilfe der oben beschriebenen Kombination aus Quota-Sampling und Raking für jeden Regierungsbezirk oder gar jeden der 401 deutschen Landkreise und kreisfreie Städte zu erhalten. Derartige Probleme werden in der Survey-Statistik unter dem Schlagwort Small Area Estimation5 erforscht, eine Disziplin, welche sich seit Jahrzehnten konstant weiterentwickelt (Pfeffermann, 2013). Die Lösungen der Small Area Estimation bauen dabei meist auf der effizienten Nutzung aller verfügbaren Daten durch partial Pooling6 und der Verwendung von Hilfsinformationen (Arbeitslosigkeit, Kaufkraft, etc.) auf, die für jedes der Gebiete, für die eine Vorhersage erfolgen soll, vorliegen.

Insbesondere im Kontext von Non-Probability-Stichproben hat sich der von Park et al. (2004) entwickelte Mehrebenen-Regression und Poststratifizierungs-Ansatz (MRP) als beliebte Methode der Small Area Estimation erwiesen (Wang et al., 2015; Shirley et al., 2014; Hoover and Dehghani, 2018), welche den spezifischen Anforderungen von Civey entsprechend in einer modifizierten Version adaptiert wurde. Zentrale Veränderungen betreffen dabei die automatische Auswahl der im Modell verwendeten Kovariaten mit Hilfe von L1-Regularisierung (LASSO) nach Vincent and Hansen (2014) und die Verwendung einer Approximation des rechenintensiven vollständig bayesianischen multinomialen gemischten logistischen Regressionsmodells durch mehrere binäre gemischte logistische Regressionen. Weiterhin wird eine synthetische Poststratifizierung (Leemann and Wasserfallen, 2017) basierend auf mehreren partiellen gemeinsamen Verteilungen, für welche amtliche Daten existieren, durchgeführt, sofern keine vollständige Poststratifizierung möglich ist. Die Details dieser Methode sind im technischen Anhang nachzuvollziehen.

4 Fazit

Die Markt- und Meinungsforschung ist geprägt von einer weitreichenden Methodendebatte: Der klassische, erprobte und statistisch seit Jahrzehnten umfassend erforschte Ansatz des Probability-Samplings ist in Zeiten dramatisch fallender Ausschöpfungsquoten unter ökonomischen Rechtfertigungsdruck geraten. Online Non-Probability-Sampling verspricht vor diesem Hintergrund eine den praktischen Erfordernissen der Meinungsforschung häufig besser entsprechende Alternative. In den vergangenen Jahren wurden wesentliche Schritte zur statistischen Fundierung des Ansatzes unternommen. Die von Civey genutzte Methodik baut auf diesem theoretischen Fundament auf und liefert mit Hilfe einer Kombination aus Quota-Sampling und Raking-basierter Superpopulationsmodellierung unter klar definierbaren Annahmen (insbesondere der Unabhängigkeit von Antwortverhalten und Selektion ins Panel unter Berücksichtigung der Gewichtungsvariablen) valide Ergebnisse. Diese werden durch kleinräumige Schätzungen auf Basis einer adaptierten Form von Multilevel-Regression und Poststratifizierung ergänzt.

Das komplette Whitepaper inklusive des methodologischen Anhangs finden Sie hier zum Download.

Fußnoten

1 Eine detaillierte Beschreibung beider Ansätze kann bei Valliant et al. (2018) gefunden werden.
2 Die einzige Ausnahme hierzu ist die kurze Phase in den ersten Stunden direkt nach der Veröffentlichung einer Umfrage, welche in einen populären Artikel eingebunden ist. In dieser Situation kann es theoretisch passieren, dass eine große Mehrheit aller Antworten nicht zufällig ausgespielt worden ist. Um dem Nutzer in dieser Situation trotzdem eine Auswertung der Ergebnisse zu präsentieren, werden unter Umständen ebenfalls Daten genutzt, die aus ersten Fragen stammen. In diesem Fall wird die Unsicherheit in den Ergebnissen durch eine konservative Korrektur des statistischen Fehlers widergespiegelt.
3 Verschiedene Methoden des Weight-Trimmings existieren, ohne dass sich ein dominanter Ansatz etabliert hätte, einige werden z.B. von Potter (1990) beschrieben. Wir orientieren uns an der unter anderem vom Sozio-Ökonomischen Panel verwendeten Obergrenze vom 10-fachen Wert des Median-Gewichts und ergänzen diese um eine Untergrenze in Höhe des 0.1-fachen. Die getrimmten Werte werden auf alle anderen Gewichte iterativ umverteilt, sodass die Summe konstant bleibt.
4 Vgl. zum Beispiel die Nutzung bei Pew Research (Smith, 2010) und YouGov (2015).
5 Siehe das Standardwerk von Rao and Molina (2015) für einen umfassenden Überblick.
6 Siehe die Einführung von Gelman and Hill (2006) für eine genauere Definition.

Literatur

AAPOR (2015). Guidance on Reporting Precision for Nonprobability Samples. Technical report, American Association for Public Opinion Research.

Ansolabehere, S. and Rivers, D. (2013). Cooperative Survey Research. Annual Review of Political Science, 16(1):307-329.

Ansolabehere, S. and Schaffner, B. F. (2014). Does Survey Mode Still Matter? Findings from a 2010 Multi-Mode Comparison. Political Analysis, 22(03):285- 303.

Blohm, M. and Koch, A. (2015). Führt eine höhere Ausschöpfung zu anderen Umfrageergebnissen? In Nonresponse Bias, pages 85-129. Springer.

Brick, J. M. and Tourangeau, R. (2017). Responsive survey designs for reducing nonresponse bias. Journal of Official Statistics, 33(3):735-752.

Callegaro, M. (2014). Online Panel Research: A Data Quality Perspective. Deming, W. E. and Stephan, F. F. (1940). On a Least Squares Adjustment of a Sampled Frequency Table When the Expected Marginal Totals are Known. Ann. Math. Statist., 11(4):427-444.

Dutwin, D., Blum, M., Copeland, K., Fienberg, H., Jackson, C., Jodts, E., Koly, O., Malarek, D., Holzbaur, G., Marken, S., Matuzak, J., Pierannunzi, C., Ridenhour, J., Sheppard, D., Staehli, E. M., Stalone Lynn, Thompson, J., and Vrudhula, S. (2018). Spam Flagging and Call Blocking and Its Impact on Survey Research. Technical report, American Association for Public Opinion Research.

Elliott, M. R. and Valliant, R. (2017). Inference for Nonprobability Samples. Statistical Science, 32(2):249-264.

Gelman, A. and Hill, J. (2006). Data Analysis Using Regression and Multi- level/Hierarchical Models.

Gnambs, T. and Kaspar, K. (2015). Disclosure of sensitive behaviors across self-administered survey modes: a meta-analysis. Behavior research methods, 47(4):1237-1259.

Goel, S., Obeng, A., and Rothschild, D. (2015). Non-Representative Surveys: Fast, Cheap, and Mostly Accurate. Technical report.

Guin, T. D.-L., Mechling, J., and Baker, R. (2006). Great results from ambiguous sources - cleaning internet panel data. In ESOMAR: Panel Research 2006.

Hillygus, D. S., Jackson, N., and Young, M. (2014). Professional respondents in non-probability online panels.

Hoover, J. and Dehghani, M. (2018). The Big, The Bad, and The Ugly: Geographic estimation with flawed psychological data.

Keeter, S. (2015). From Telephone to the Web: The Challenge of Mode of Interview Effects in Public Opinion Polls. Technical report, Pew Research.

Kennedy, C. and Hartig, H. (2019). Response rates in telephone surveys have resumed their decline. Technical report, Pew Research.

Kinney, S. K. and Cooney, D. A. (2019). Nonresponse Bias in Sample Surveys. New Directions for Institutional Research, 2019(181):35-46.

Kish, L. (1992). Weighting for unequal Pi. Journal of Official Statistics, 8(2):183.

Leemann, L. and Wasserfallen, F. (2017). Extending the Use and Prediction Precision of Subnational Public Opinion Estimation. American Journal of Political Science, 61(4):1003-1022.

MacInnis, B., Krosnick, J. A., Ho, A. S., and Cho, M.-J. (2018). The accuracy of measurements with probability and nonprobability survey samples: Replication and extension. Public Opinion Quarterly, 82(4):707-744.

Marken, S. (2018). Still Listening: The State of Telephone Surveys. Technical report, Gallup.

Neyman, J. (1934). On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection. Journal of the Royal Statistical Society, 97(4):558.

Park, D. K., Gelman, A., and Bafumi, J. (2004). Bayesian Multilevel Estimation with Poststratification: State-Level Estimates from National Polls. Political Analysis, 12:375-385.

Pfeffermann, D. (2013). New important developments in small area estimation. Statistical Science.

Potter, F. J. (1990). A Study of Procedures to identify and trim extreme sampling weights.

Quatember, A. (2019). Inferences based on Probability Sampling or Nonprobability Sampling-Are They Nothing but a Question of Models? Survey Methods: Insights from the Field (SMIF).

Rao, J. N. and Molina, I. (2015). Small Area Estimation: Second Edition.

Rivers, D. (2007). Sampling for web surveys. In Joint Statistical Meetings.

Rivers, D. (2013). Comment. Journal of Survey Statistics and Methodology, 1(2):111-117.

Rubin, D. B. (1976). Inference and Missing Data. Biometrika, 63(3):581-592.

Särndal, C.-E., Swensson, B., and Wretman, J. (1992). Model assisted survey sampling.

Searle, S. R., Casella, G., and McCulloch, C. E. (2009). Variance components,volume 391. John Wiley & Sons.

Shirley, K. E., York, N., and Gelman, A. (2014). Hierarchical models for estimating state and demographic trends in US death penalty public opinion. Technical report.

Smith, A. (2010). Government Online. Technical report, Pew Research.

Stalans, L. J. (2012). Frames, framing effects, and survey responses. In Handbook of survey methodology for the social sciences, pages 75-90. Springer.

Stephan, F. F. and McCarthy, P. J. (1958). Sampling opinions: An analysis of survey procedure. John Wiley, Oxford, England.

Teitcher, J. E. F., Bockting, W. O., Bauermeister, J. A., Hoefer, C. J., Miner, M. H., and Klitzman, R. L. (2015). Detecting, preventing, and responding to fraudsters in internet research: ethics and tradeoffs. The Journal of law, medicine & ethics : a journal of the American Society of Law, Medicine & Ethics, 43(1):116-133.

Tuyl, F., Gerlach, R., and Mengersen, K. (2008). A Comparison of Bayes-Laplace, Jeffreys, and Other Priors. The American Statistician, 62(1):40-44.

Valliant, R. (2019). Comparing Alternatives for Estimation from Nonprobability Samples. Journal of Survey Statistics and Methodology.

Valliant, R., Dever, J. A., and Kreuter, F. (2018). Nonprobability Sampling. pages 565-603. Springer, Cham.

Vincent, M. and Hansen, N. R. (2014). Sparse group lasso and high dimensional multinomial classification. Computational Statistics & Data Analysis, 71:771-786.

Wang, W., Rothschild, D., Goel, S., and Gelman, A. (2015). Forecasting elections with non-representative polls. International Journal of Forecasting,31(3):980-991.

YouGov (2015). The Methodology of the 2016 YouGov/CBS News Battleground Tracker. Technical report, YouGov.