Verlässliche Daten mit Civey

Civey bietet digitale Markt- und Meinungsforschung und erhebt Daten im größten Open-Access-Panel Deutschlands. Mithilfe selbstlernender Algorithmen, klassischer Methoden der Survey-Statistik sowie wissenschaftlicher Begleitung werden valide Ergebnisse rund um die Uhr ermittelt.
Civey - Know more. Act better.

Kooperationen und Mitgliedschaften

Das Institut für Statistik und Ökonometrie des Fachbereiches Wirtschaftswissenschaft der FU Berlin kooperiert mit Civey und bietet Survey-statistisches Knowhow insbesondere zu Small Area Methoden.
Gemeinsam mit der Hochschule Rhein-Waal und Prof. Dr. Oliver Serfling wurde die wissenschaftliche Machbarkeit der Civey Methode erforscht. Prof. Dr. Serfling begleitet Civey seit 2015 als Chief Scientific Advisor zur Methodik und Qualität.
Civey ist Mitglied im Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V.. Als Technologieunternehmen steht Civey an der Schnittstelle zwischen Survey-Statistik und Künstlicher Intelligenz und unterstützt die Standes- und Transparenzregeln der Branche.
Civey ist Mitglied bei der Deutschen Gesellschaft für Online-Forschung e.V.. Damit verpflichtet sich Civey die Standesregeln der deutschen Markt- und Sozialforschung einzuhalten, um Nutzer, Kunden und Forschung zu schützen.
Die Entwicklung der Civey Methodik wurde als Innovationsprojekt im Rahmen des Förderprogramms ProFIT von der Investitionsbank Berlin mit Mitteln der Europäischen Union und des Landes Berlin gefördert.

Unsere Methodik in vier Schritten

Netzwerkbasierte Panel-Rekrutierung

1 Civey führt alle Befragungen in Echtzeit auf mehreren Tausend URLs von reichweitenstarken Webseiten wie Focus Online, Web.de oder Funke durch. Über dieses Verfahren rekrutiert Civey Teilnehmer mit den unterschiedlichsten Interessen und Eigenschaften für das eigene Panel. Die Fragen behandeln beispielsweise Politik, Wirtschaft, Technik, Sport und Konsumverhalten und dienen als Einstieg in den Verifizierungsprozess für Panelisten. Ein besonderer Algorithmus stellt sicher, dass alle Umfragen gleichmäßig über die URLs und innerhalb der Befragungszeit durchgeführt werden. Jeden Monat werden so rund 15 Millionen Teilnehmerantworten ermittelt.
Erfahren Sie hier mehr >

Verifizierung der Teilnehmer

2 Bevor die Antwort eines Teilnehmers in der Stichprobe berücksichtigt wird, werden die Teilnehmer verifiziert. Die Verifizierung umfasst eine niedrigschwellige Registrierung, bei der die Teilnehmer drei Soziodemographika und ihr Einverständnis zur Datenverarbeitung abgeben. Für die weitere Prüfung führt Civey technische, statistische und inhaltliche Plausibilitätschecks durch. Dazu zählen beispielsweise das Klickverhalten der Teilnehmer und die Geschwindigkeit der Teilnahme sowie Widersprüche in gegebenen Antworten. Eine gezielte Manipulation der Ergebnisse ist somit ausgeschlossen.
Erfahren Sie hier mehr >

Quotierte Stichprobe unverzerrter Antworten

3 Aus den verifizierten Teilnehmerantworten zieht ein weiterer Algorithmus auf allen Umfragen rund um die Uhr quotierte Stichproben. Neben der Quotierung nach Soziodemographika, wie beispielsweise dem Geschlecht oder dem Alter, stellt der Algorithmus sicher, dass eine mögliche inhaltliche Verzerrung bei der Stimmabgabe ausgeglichen wird. Umfragen, die einem Nutzer über den Empfehlungsalgorithmus angezeigt werden, fließen in die Stichprobe ein. Antworten zu einer Umfrage, die in einem Artikel direkt eingebunden sind, werden aufgrund einer möglichen inhaltlichen Beeinflussung in der Regel nicht berücksichtigt.
Erfahren Sie hier mehr >

Gewichtung in Echtzeit

4 Im finalen Schritt vor der Ergebnisermittlung werden mit klassischen Methoden der Survey-Statistik mögliche demographische Ungleichgewichte beseitigt. Dies geschieht auf Grundlage amtlicher Kennzahlen etwa des statistischen Bundesamtes oder des Bundeswahlleiters. Je nach Verfügbarkeit der amtlichen Daten wird über die Randverteilungen (Raking) oder über die gemeinsamen Verteilungen (Poststratifizierung) gewichtet. Zur Ermittlung von regionalen Ergebnissen werden Small Area Methoden mit Multilevel Regression with Poststratification (MRP) eingesetzt.
Erfahren Sie hier mehr >

Wir verbinden Innovation mit Validität

Hohe Beteiligung

  • Die Bevölkerung wird in ihrer ganzen Breite erreicht.
  • Teilnehmer werden mit frei verfügbaren Ergebnissen, statt mit Geld incentiviert.
  • Die große Flexibilität bei der Erhebung steigert die Teilnahmebereitschaft.

Erhebungen in Echtzeit

  • Algorithmen verifizieren und gewichten rund um die Uhr.
  • Repräsentative Ergebnisse werden vollständig automatisiert ermittelt.
  • Sowohl einmalige Umfragen als auch permanentes Live-Monitoring möglich.

Verlässliche Daten

  • Anonyme Befragungen ohne monetäre Anreize fördern ehrlichere Antworten.
  • Algorithmus identifiziert Manipulationsversuche und schließt Teilnehmer aus.
  • Sicherheit für Teilnehmer und Kunden durch verschlüsselte Datenübertragung.

Verlässliche Regionaldaten mit Small Area Methoden

Small Area Methoden bei Civey

Für die Berechnung von Daten bis auf Landkreisebene nutzt Civey Small Area Methoden (SAM), die bereits vielfach international zum Einsatz kommen und bei Civey auf ein Echtzeit-Modell übertragen wurden. Dazu werden die Ergebnisse bis auf Landkreise auf Basis einer modellbasierten, statistischen Methode für kleine Datenräume erhoben.

  • Grundlage ist eine bundes- oder bundeslandweite repräsentative Online-Befragung mit einer großen Stichprobe.
  • Das Befragungsergebnis wird vom Algorithmus fortlaufend auf 13 persönliche Variablen sowie rund fünfzig regionale Daten analysiert.
  • Der Algorithmus verbindet die entscheidenden Variablen mit einem jeweiligen Relevanzfaktor und bildet daraus ein individuelles Variablenset.
  • Der Algorithmus analysiert parallel die Bevölkerungsstruktur in der Zielregion und berechnet, welches Antwortverhalten auf bestimmte Gruppen wie beispielsweise einen 19-jährigen Azubi oder eine 72-jährige Rentnerin in der Zielregion zutreffen.
  • Abschließend findet eine Gewichtung anhand offizieller Bevölkerungsstatistiken statt.
Small Area Methoden in der Wissenschaft - Prof. Dr. Timo Schmid

Das hier dargestellte Verfahren basiert auf dem oft angewendeten Verfahren der Mehrebenen-Regression und Poststratifizierung (kurz MRP), auf das Civey setzt. Einige Modellierungen bei Civey erfolgen nach dem Fay-Herriot-Verfahren. 

Erfahren Sie hier mehr >

Small Area Methoden im weltweiten Einsatz

Small Area Methoden (SAM) finden bereit seit Jahrzehnten breite Anwendung. Gerne stellen wir hier einige Beispiele vor:

  • Small Area Methoden (SAM) in der politischen Meinungsforschung: Einige Institute (z.B. Infas360, YouGov) arbeiten mit Small Area Methoden in Deutschland oder weltweit. Insbesondere das von Civey mit angewandte MRP-Verfahren kommt bei der Analyse relevanter Wahlen in den USA und Großbritannien zum Einsatz.
  • Konkrete Politik-Entscheidungen basieren auf SAM. Das American Census Bureau berechnet mit dieser Methodik die amtliche Statistik zu Einkommen und Armut auf regionaler Ebene. Die Verteilung von US-Bundesgeldern, bspw. im so genannten SAIPE-Programm, erfolgt auf Basis von SAM-Daten.
  • In Deutschland und weltweit wird SAM erforscht und gefördert. Destatis publiziert eigene Veröffentlichungen zu SAM. Auch die niederländische Statistik-Behörde veröffentlicht Abhandlungen über die Methode. Die EU fördert die Forschung von Small Area Methoden umfangreich. Zudem erforschen das American Census Bureau und Statistics Canada in zahlreichen weiteren Projekten den Einsatz von Small Area Methoden.

Fachdebatte

Small Area Methoden in der Wissenschaft - Prof. Dr. Timo Schmid

Civey-Gründer und Geschäftsführer Gerrit Richter und CPO Charlotte Weber erläutern auf marktforschung.de Small Area Methoden.

Lesen Sie jetzt das Interview >

Unser Beirat

Der Civey Beirat setzt sich aus Expertinnen und Experten der wissenschaftlichen und praktischen Markt- und Meinungsforschung zusammen. Die Beiratsmitglieder begleiten die Weiterentwicklung unserer Methode und stehen Civey in der unternehmerischen Weiterentwicklung beratend zur Seite.

Brigitte Zypries

Ehem. Bundesministerin für Wirtschaft & Energie sowie für Justiz & Verbraucherschutz

Brigitte Zypries war 2002 bis 2009 Bundesministerin der Justiz & Verbraucherschutz, 2017 bis 2018 Bundesministerin für Wirtschaft & Energie und über zehn Jahre Mitglied des Deutschen Bundestages.

Joachim Koschnicke

Partner bei Finsbury Glover Hering sowie Gründer und Vorstand von InCharge e.V.

Joachim Koschnicke ist Partner und leitet den Geschäftsbereich Corporate Affairs & Public Strategies bei der Kommunikationsagentur Hering Schuppener. Zuvor war Koschnicke Geschäftsführer von forsa.

Prof. Dr. Anselm Hager

Institut für Sozialwissenschaften, Humboldt-Universität Berlin

Prof. Dr. Anselm Hager ist Juniorprofessor für Internationale Politik am Institut für Sozialwissenschaftenan der Humboldt-Universität Berlin. Zuvor lehrte er politische Ökonomie an der Universität Konstanz.

Prof. Dr. Jörg Müller-Lietzkow

Präsident HafenCity Universität, Hamburg

Prof. Dr. Jörg Müller-Lietzkow ist seit 2019 Hochschulpräsident der HafenCity Universität in Hamburg. Darüber hinaus ist er seit 2014 Co-Sprecher/Vorsitzender des cnetz e.V.

Prof. Dr. Ulrich Rendtel

Institut für Statistik und Ökonometrie, Freie Universität Berlin

Prof. Dr. Ulrich Rendtel forscht und unterrichtet seit 2003 als Professor für Statistik und Ökonometrie an der Freien Universität Berlin. Zu seinen Schwerpunkten zählen unter anderem Umfragen, Non-Response und Panel-Befragungen.

Prof. Dr. Oliver Serfling

Lehrstuhl für Wirtschaftspolitik und Entwicklungsökonomik, Hochschule Rhein-Waal

Prof. Dr. Oliver Serfling ist Mitgründer von Civey und Chief Scientific Advisor von Civey. Der promovierte Volkswirt hat den Lehrstuhl für Wirtschaftspolitik und Entwicklungsökonomik an der Hochschule Rhein-Waal inne und ist Experte für Statistik und Umfrageforschung.

Fachbeiträge

Die Statistische Methodik von Civey

Die folgende Darstellung ist die Einordnung der Civey Methode im Kontext gegenwärtiger Debatten über das Für und Wider internetbasierter nicht-probabilistischer Stichprobenziehung.

Das vollständige Whitepaper inklusive des methodologischen Anhangs über unsere Methode finden Sie hier

Die moderne Umfrageforschung befindet sich in einer Phase des Umbruchs: Lange Zeit als verlässlich geltende Methoden geraten zunehmend in die Kritik, insbesondere da sich die Ausschöpfungsquoten bei klassischen Erhebungen mittlerweile auf einem historisch niedrigem Niveau bewegen. Gleichzeitig drängen neue Anbieter auf den Markt, die diese Probleme mit neuen Erhebungsmethoden lösen wollen, dabei aber zugleich vor neuen statistischen Herausforderungen stehen. Die Diskussion wird sowohl in der Wissenschaft als auch in den Fachorganen der Markt- und Meinungsforschungsbranche kontrovers geführt. Im Folgenden möchten wir einen kurzen Überblick über die zentralen Streitpunkte der Debatte geben und die von Civey entwickelte Methodologie innerhalb des Diskurses verorten.
Der folgende Text stellt herkömmliches Probability Sampling dem neueren Ansätzen von Online Non-Probability Sampling gegenüber.

Der klassische Ansatz der Stichprobenziehung geht auf den Statistiker Neyman (1934) zurück. Die von ihm entwickelte Theorie des Probability-Samplings und nahezu jedes seither publizierte Standardwerk folgen dabei dem gleichen Grundgedanken: Über das Design der Stichprobe kann jedem Individuum eine klare Wahrscheinlichkeit zugeordnet werden, zufällig in diese ausgewählt zu werden. Auf dieser Basis können aus der statistischen Theorie verlässliche Aussagen über relevante Größen in der Grundgesamtheit, zum Beispiel der Anteil von Zustimmung zu einer Aussage, hergeleitet werden.

Die Formulierung des Probability-Samplings repräsentiert einen Meilenstein der Survey-Statistik: Durch die Befragung einer kleinen Zufallsauswahl von Personen war es erstmals auf seriöser Grundlage möglich, Aussagen über eine Grundgesamtheit zu treffen. Über mehrere Jahrzehnte erfreute sich die in Neymans Tradition stehende Methode deshalb großer Beliebtheit in der Markt- und Meinungsforschung und galt insbesondere in der Privatwirtschaft häufig kombiniert mit Callcenter-basierten Telefonbefragungen als Branchenstandard. Aus dem Grundgedanken des design-basierten Ansatzes folgen zwei zentrale Annahmen: Sämtliche Personen innerhalb der interessierenden Grundgesamtheit müssen einerseits über eine Auflistung (Frame) bekannt sein und andererseits über eine positive und berechenbare Wahrscheinlichkeit verfügen, in die Stichprobe zu gelangen. In Zeiten flächendeckender Festnetzverbreitung, verpflichtender Eintragungen in Telefonbücher und hoher Bereitschaft zur Teilnahme an Umfragen konnte diese zentrale Basis des Probability-Samplings als gegeben angenommen werden, sodass valide und verlässliche Rückschlüsse auf die Bevölkerung möglich waren.

Heutzutage ist telefonbasiertes Probability-Sampling jedoch mit schwerwiegenden Herausforderungen konfrontiert: Zuallererst ist hier die schwindende Bereitschaft der Bevölkerung zu nennen, an Telefonumfragen teilzunehmen. Aus den USA existieren hierzu detaillierte Zahlen: So sank der Anteil der tatsächlich erzielten Interviews an der ursprünglich ausgewählten Stichprobe (Ausschöpfungsquote) für die renommierte Gallup Poll Social Series von 28 % (1997) auf 7 % (2017), der Anteil der Erreichten, die sich bereit erklärten, am Interview teilzunehmen, halbierte sich in der gleichen Zeit (Marken, 2018). Auch die Ausschöpfungsquoten von Pew Research fielen von 1997-2018 von 36% auf gerade einmal 6% (Kennedy and Hartig, 2019). Für die Marktforschung insgesamt spricht der Branchenverband AAPOR alleine im Zeitraum 2008-2015 von einem Einbruch von 15.7% auf 9.3% (Festnetz) bzw. 11.7% auf 7.0% (Mobilfunk).

Dies ist bedenklich, da ein Zusammenhang zwischen der Ausschöpfungsquote und der durchschnittlichen Verzerrung innerhalb einer Umfrage existieren kann (Brick and Tourangeau, 2017). Je geringer die Bereitschaft zur Teilnahme, desto größer das Risiko, dass diejenigen, die tatsächlich in die Stichprobe gelangen, systematische Unterschiede zur Grundgesamtheit aufweisen. Im Kampf gegen Umfragemüdigkeit müssen deshalb teure Anreize bereitgestellt oder aufwendige flexible Survey-Designs genutzt werden, die den Sampling-Prozess adaptiv an das Antwortverhalten anpassen (Kinney and Cooney, 2019). Telefonumfragen leiden weiterhin unter einer sinkenden Festnetz-Penetration, welche komplexe Dual-Frame-Ansätze notwendig macht, durch die zusätzlich Mobilfunknutzer befragt werden. Smartphone-Betriebssysteme, Apps und Provider blockieren jedoch zunehmend potentielle Spam-Anrufe unbekannter Nummern, sodass Befragte in Zukunft noch schwieriger zu erreichen sein werden (Dutwin et al.,2018).

Etablierte wissenschaftliche Großbefragungen können die durch diese veränderten Umstände entstehenden, teils erheblichen Kostensteigerungen (Blohm and Koch, 2015) zu Gunsten verlässlicher Ergebnisqualität in Kauf nehmen. Dies garantiert weiterhin eine qualitativ hochwertige Grundlage für sozial- und verhaltenswissenschaftliche Forschung. Private Unternehmen sind dazu oftmals nicht in der Lage, ohne ihre Wirtschaftlichkeit zu gefährden. Die einzige kostenneutrale Alternative zum Ausgleich der niedrigen Ausschöpfungsquoten sind signifikante Nachgewichtungen, welche jedoch Neymans Grundidee zuwiderlaufen, da sie von Annahmen abhängen, die auch im Kontext des Non-Probability Samplings notwendig sind. Es ist deshalb fraglich, inwieweit die tatsächliche Praxis der Markt- und Meinungsforschung heutzutage noch den Ansprüchen des Probability Samplings genügen kann oder ob die Voraussetzungen dieses Paradigmas so vollumfänglich verletzt sind, dass dieser Begriff nicht mehr angebracht ist.

Sowohl vor als auch nach Neymans Durchbruch wurden auch andere Methoden der Stichprobenziehung genutzt, die nicht allen Elementen der Grundgesamtheit eine eindeutige, positive Auswahlwahrscheinlichkeit zuordnen (Stephan and Mc-Carthy, 1958). Diese werden auch als Non-Probability Sampling-Methoden bezeichnet. Während sie nach der Etablierung des Probability-Samplings zunächst nicht mehr als eine Randerscheinung waren, änderte sich dies mit der wachsenden Verbreitung des Internets und dem fortschreitenden Fall der Ausschöpfungsquoten.

Mittlerweile mehren sich Stimmen in der Forschung, die sich für die Nutzung von Online Non-Probability-Sampling aussprechen (Wang et al., 2015; Ansolabehere and Rivers, 2013; Ansolabehere and Schaffner, 2014; Goel et al., 2015). Neben beeindruckenden Erfolgen in der Prädiktion von Wahlergebnissen spricht hierfür die gerade im Kontext der Marktforschung große Zweckeignung (fit for purpose) im Hinblick auf praktisch benötigte Präzision, Ergebnisgranularität, Durchführbarkeit, Geschwindigkeit und Kosten (AAPOR, 2015). Online-Non-Probability Surveys sind häufig günstiger, ermöglichen die Erhebung großer Stichproben und die Befragung kleiner Zielgruppen und können schnell und unkompliziert durchgeführt werden. Zudem verringert die Anonymität der Online-Befragung das Risiko unehrlichen Antwortverhaltens als Ergebnis sozialer Erwünschtheit sowohl im Vergleich zu Telefon- (Keeter, 2015) als auch papierbasierten Umfragen (Gnambs and Kaspar, 2015).

Andere Autoren widersprechen dieser Initiative auf Basis von empirischen (MacInnis et al., 2018) und theoretischen (Quatember, 2019) Argumenten. Probability-Sampling kann als einheitlicher theoretischer Rahmen betrachtet werden, da sämtliche verwendeten Methoden von der Existenz einer bekannten Ziehungswahrscheinlichkeit größer Null für jedes Individuum in der Grundgesamtheit ausgehen. Die Ansätze des Non-Probability-Samplings vereint hingegen primär die Abwesenheit jener Wahrscheinlichkeit. Das bedeutet, dass sie auf eine sorgfältige Berücksichtigung des Selektionsmechanismus angewiesen sind, der bestimmt, ob ein Individuum Teil des Samples wird oder nicht. Inwieweit dieser Nachteil in der Praxis der Marktforschung von Relevanz ist, kann allerdings bezweifelt werden. So müssen (vermeintliche) Probability-Samples wie bereits angedeutet auf vergleichbare Korrekturen zurückgreifen, um die bereits angesprochenen Verzerrungen im Antwortverhalten bedingt durch extrem niedrige Ausschöpfungsquoten auszugleichen (Rivers, 2013).

Zudem wurden in den vergangenen Jahren maßgebliche Fortschritte in der theoretischen Fundierung des Non-Probability-Samplings gemacht, sodass heute gemeinhin zwischen zwei etablierten Methoden für valide Schlüsse aus diesen unterschieden wird: der auf Sample-Matching basierenden Quasi-Randomisierung und der Superpopulationsmodellierung1: Während Quasi-Randomisierungsansätze mit Hilfe einer probabilistischen Stichprobe von hoher Qualität versuchen, künstliche Ziehungswahrscheinlichkeiten für Personen in einem Non-Probability-Sample zu bestimmen, schätzen Superpopulationsansätze unter Verwendung von in der Bevölkerung entweder auf Individual- oder auf Aggregatebene bekannten Informationen und einem im Non-Probability-Sample gebildeten Modell die Antworten aller Personen in der Grundgesamtheit.

Hierauf aufbauend existieren klare Voraussetzungen, unter denen Non-Probability-Sampling valide Ergebnisse liefern kann. Zentral ist insbesondere die Annahme der Ignorable Sample Selection bzw. Selection at Random. Diese ist eng mit dem im Kontext der Kategorisierung fehlender Daten genutzten Missing at Random-Konzept verbunden und wird zum Beispiel von Rivers (2013) ausführlich beschrieben. Praktisch bedeutet dies, dass gegeben der im Rahmen des Modells oder des Matchings verwendeten Variablen der Selektionsmechanismus unabhängig vom Antwortverhalten (bzgl. der interessierenden Analysevariable) der Nutzer sein muss, um valide Ergebnisse zu garantieren. Diese Annahme wird im Kontext des bei Civey verwendeten Modells im technischen Anhang genauer diskutiert.

Die bei Civey verwendete Methodik basiert im Kern auf einer Kalibration via Raking zur Berechnung der regulären Ergebnisse (welche man als implizite Superpopulationsmodellierung betrachten kann, wie im Anhang genauer erläutert wird) und einer expliziten Superpopulationsmodellierung durch Mehrebenen-Regression und Poststratifizierung für kleinräumige Schätzungen auf Bundesland-, Bezirks- und Kreisebene. Sie lässt sich somit in die beschriebene Systematik der Non-Probability-Sampling-Theorie einfügen und orientiert sich an den Anforderungen der aktuellen Fachliteratur.

Die zentralen Elemente des methodischen Vorgehens bei Civey werden im Folgenden kurz erläutert, eine umfassende mathematische Darstellung findet sich im Whitepaper.

Der Aufbau des Online-Panels für Befragungen in Deutschland basiert auf drei miteinander kombinierten Elementen: Netzwerkbasierte Rekrutierung, Incentivierung und Manipulationsschutz.

Sämtliche, im deutschlandweiten Online-Panel von Civey, durchgeführten Befragungen bauen auf einem umfassenden und nach festen Kriterien (siehe unten) (siehe 3.1.3) gepflegtem Online-Panel mit mittlerweile mehr als einer Million aktiven und verifizierten Nutzern auf. Um dessen Qualität nachhaltig zu gewährleisten, erfolgt die Rekrutierung von neuen Panel-Mitgliedern über einen innovativen Ansatz: Umfragen werden täglich auf mehrere tausend URLs über ein Netzwerk von zahlreichen zahlreichen Medienpartnern und Email-Providern eingebunden. Diese weisen unterschiedliche thematische Schwerpunkte auf, um Personen auf das Civey-Panel aufmerksam zu machen und auf diese Weise zu einer Registrierung und längerfristigen Teilnahme am Cive-Panel zu ermutigen.

Die netzwerkbasierte Rekrutierung bei Civey ist nicht werbebasiert, sondern organisch unserer Medienpartner integriert. Sie stellt andererseits nur den ersten Schritt dar, von dem ausgehend weitere Informationen über angehende Panel-Mitglieder von diesen erfragt werden. So wird sichergestellt, dass die letztendliche Qualität der für die Berechnung von Ergebnissen verwendeten Daten auf einem konstant hohen Niveau verbleibt.

Nahezu sämtliche Online Non-Probability-Panels bieten potentiellen Nutzern eine Form von finanziellem Anreiz (Geld, Gutscheine, Spenden, etc.), um sie zur Beantwortung von Fragen zu motivieren.

Der Anreiz zur Umfrageteilnahme bei dem deutschen Online-Panel von Civey entsteht hingegen durch die exklusive Sicht auf die gewichteten Umfrageergebnisse. Mit dem alternativen Ansatz, Panel-Mitglieder in Form von Informationen zu incentivieren, hat Civey das größte Open-Access-Panel Deutschlands mit mehr als einer Million aktiven und verifizierten Nutzern aufgebaut. Auf diese Weise hat Civey die Möglichkeit, auch Teilnehmer zu motivieren, für die finanzielle Gegenmittel keinen Anreiz darstellen.

Zur Verhinderung von Manipulation greifen wir auf ein breites Spektrum von dem Stand der Forschung entsprechenden Methoden zurück, wie sie zum Beispiel von Teitcher et al. (2015) beschrieben werden.

In den Berechnungen werden ausschließlich verifizierte Teilnehmende berücksichtigt. Diese Verifizierung umfasst eine niedrigschwellige Registrierung, bei der Befragte grundlegende Soziodemographika und ein Einverständnis zur Datenverarbeitung abgeben. Weitere Abstimmungen ordnet Civey über E-Mail-Adressen, Authentifizierungs-Token und Cookies den entsprechenden Befragten zu. Darüber hinaus prüfen wir im Rahmen der fortlaufenden Verifizierung, ob der einzelne Nutzer eine echte Person ist, ausreichend Daten für eine spätere Gewichtung vorliegen und mit welcher Wahrscheinlichkeit seine Angaben der Wahrheit entsprechen. Hierfür werden technische, statistische und inhaltliche Kriterien geprüft, darunter die Geschwindigkeit der Teilnahme sowie die inhaltliche Plausibilität, beziehungsweise das Vorhandensein etwaiger Widersprüche in gegebenen Antworten. Mehrfache Antworten eines Nutzers auf die gleiche Frage sind innerhalb eines fragespezifischen Zeitraums nicht möglich. Eine gezielte Manipulation der Ergebnisse ist somit ausgeschlossen.

Die eigentliche Ergebnisberechnung kombiniert wiederum zwei Schritte miteinander: Quota-Sampling und Raking. Für regionale Ergebnisse werden darüberhinaus Small Area Methoden eingesetzt. Unser Unsicherheitsmaß orientiert sich an den AAPOR Richtlinien.

Aus allen innerhalb eines frageabhängigen Zeitfensters abgegebenen Antworten wird eine quotierte Stichprobe von einer vorher festgelegten Größe (üblicherweise 5000 Befragte) gezogen. Dabei muss die Verteilung der Stichprobe im Hinblick auf bestimmte demographische Variablen wie Alter, Geschlecht2 und Wahlverhalten der (z.B. aus administrativen Daten) bekannten Verteilung innerhalb der Grundgesamtheit entsprechen. Da durch den inhaltlichen Kontext der Einbindung unserer Umfragen ins journalistische Angebot unserer Medienpartner Framing-Effekte (Stalans, 2012) nicht ausgeschlossen werden können, wird die Antwort eines Nutzers für die weitere Analyse nur dann verwendet, wenn ihm diese durch den Civey-Algorithmus randomisiert ausgespielt wurde. Die Information über die erste beantwortete Frage eines Nutzers innerhalb einer zusammenhängenden Sitzung wird somit üblicherweise nicht verwendet3.

Dieser Prozess hat nur wenig Gemeinsamkeiten mit der klassischen quotierten Stichprobe der analogen Welt, in welcher ein Interviewer nach eigenem Ermessen entscheidet, ob eine Person befragt werden soll oder nicht. Einige gut gewählte Quoten können so online bereits eine signifikante Verzerrung des Ergebnisses verhindern und vermeiden exzessive Gewichtung im weiteren Verlauf der Berechnungen. (Rivers, 2007)

Etwaige nach dem Quota-Sampling noch verbleibende Abweichungen zwischen Stichprobe und Grundgesamtheit im Hinblick auf bekannte Variablen (z.B. Alter, Geschlecht, Wahlverhalten, Parteineigung und geographische Verteilung) werden durch eine Raking-basierte Gewichtung beseitigt. Diese ursprünglich von Deming and Stephan (1940) eingeführte Methode wird klassischerweise im Kontext des Probability Samplings zur Korrektur von Verzerrungen durch niedrige Ausschöpfungsquoten genutzt. Sie kalibriert die Gewichtung der Beobachtungen in einer Stichprobe so, dass sie mit den Randverteilungen einer oder mehrerer Variablen übereinstimmt, welche zum Beispiel aus der amtlichen Statistik bekannt sind. In der Stichprobe unterrepräsentierte Gruppen erhalten somit ein höheres Gewicht, überrepräsentierte ein niedrigeres.

Der Non-Probability-Terminologie von Valliant et al. (2018) folgend kann das Raking als eine Art implizites Superpopulationsmodell betrachtet werden. Superpopulationsmodelle zeichnen sich generell dadurch aus, dass der Zusammenhang zwischen dem Antwortverhalten und einer Reihe von über die Befragten vorliegenden Informationen explizit (zum Beispiel mit Hilfe einer linearen Regression, wie beim sog. GREG-Schätzer, Särndal et al. (1992)) modelliert wird, um Vorhersagen für jedes Individuum (oder Totalwerte) in der Grundgesamtheit vorherzusagen (Elliott and Valliant, 2017). Obwohl vergleichsweise simpel und robust, liefert Raking Ergebnisse, die vergleichbar mit jenen deutlich komplexerer Superpopulationsmodelle sind (Valliant, 2019). Ein detaillierter Überblick über den Zusammenhang von Superpopulationsmodellen, ihren Annahmen und Raking ist im technischen Anhang zu finden.

Die so erzeugten Gewichte können allerdings eine erhebliche Variation aufweisen: Manche Beobachtungen in stark unterrepräsentierten Gruppen verfügen unter diesen Umständen über einen deutlich größeren Einfluss auf das Ergebnis als der durchschnittliche Befragte, was die Unsicherheit der Ergebnisse erhöht. Zu diesem Zweck wird auf das Verfahren des Weight-Trimmings zurückgegriffen, welches einen Maximal- und einen Minimalwert für die kalibrierten Gewichte festsetzt4.

Die Verwendung nicht-probabilistischer Stichproben erfordert spezielle Verfahren zur Bestimmung von Unsicherheitsmaßen. Deshalb orientieren wir uns an den von der AAPOR aufgestellten Richtlinien zur Angabe von Unsicherheitsmaßen für Non-Probability-Surveys (AAPOR, 2015) und berechnen die Unsicherheit unserer Ergebnisse mit Hilfe eines bayesianischen 95%-Kredibilitätsintervalls basierend auf einem Beta-Binomial-Modell unter Verwendung einer nicht-informativen Bayes-Laplace Prior-Verteilung (Tuyl, Gerlach und Mengersen, 2008). Als deren Parameter wird jeweils die Hälfte der Stichprobengröße gesetzt, wodurch wir eine konservative Schätzung des Fehlers erhalten.

Um darüber hinaus dem Einfluss der Erhebungsmethode und Gewichtung auf die Unsicherheit der endgültigen Ergebnisse Rechnung zu tragen, wird eine Pseudo-Design-Effekt-Korrektur nach Kish, 1992 angewendet. Hierbei wird der Fehler um einen Faktor angepasst, der proportional zum Verhältnis der Varianz eines ungewichteten und mit unserem Verfahren berechneten Ergebnis ist. Diese Methode folgt der gängigen Praxis in der Markt- und Meinungsforschung5 und hat sich in internen Tests bewährt. Die so generierte Maßzahl liegt nahe an mit Hilfe komplexerer Verfahren generierter Schätzungen des statistischen Fehlers, insbesondere dem Generalized-Raking-Varianzschätzer.

Unter den Annahmen des Non-Probability Ansatzes, welche im technischen Anhang genauer beschrieben werden, können die Ergebnisse demnach so verstanden werden, dass der wahre Wert mit 95-prozentiger Wahrscheinlichkeit innerhalb des angegebenen Intervalls liegt. Ein Ergebnis von 20% für eine Antwortkategorie mit einer Unsicherheit von 2,5% ist damit so zu interpretieren, dass der wahre Wert mit 95-prozentiger Wahrscheinlichkeit zwischen 17,5% und 22,5% liegt.

Neben der Bestimmung von Bevölkerungsanteilen und ihrer Aufschlüsselung nach demographischen Subgruppen berechnet Civey auf Anfrage kleinräumige geographische Schätzungen für Bundesländer, Regierungsbezirke und Landkreise. Häufig liegen jedoch nicht genug Beobachtungen vor, um verlässliche Ergebnisse mit Hilfe der oben beschriebenen Kombination aus Quota-Sampling und Raking für jeden Regierungsbezirk oder gar jeden der 401 deutschen Landkreise und kreisfreie Städte zu erhalten. Derartige Probleme werden in der Survey-Statistik unter dem Schlagwort Small Area Estimation6 erforscht, eine Disziplin, welche sich seit Jahrzehnten konstant weiterentwickelt (Pfeffermann, 2013). Die Lösungen der Small Area Estimation bauen dabei meist auf der effizienten Nutzung aller verfügbaren Daten durch partial Pooling7 und der Verwendung von Hilfsinformationen (Arbeitslosigkeit, Kaufkraft, etc.) auf, die für jedes der Gebiete, für die eine Vorhersage erfolgen soll, vorliegen.

Insbesondere im Kontext von Non-Probability-Stichproben hat sich der von Park et al. (2004) entwickelte Mehrebenen-Regression und Poststratifizierungs-Ansatz (MRP) als beliebte Methode der Small Area Estimation erwiesen (Wang et al., 2015; Shirley et al., 2014; Hoover and Dehghani, 2018), welche den spezifischen Anforderungen von Civey entsprechend in einer modifizierten Version adaptiert wurde. Zentrale Veränderungen betreffen dabei die automatische Auswahl der im Modell verwendeten Kovariaten mit Hilfe von L1-Regularisierung (LASSO) nach Vincent and Hansen (2014) und die Verwendung einer Approximation des rechenintensiven vollständig bayesianischen multinomialen gemischten logistischen Regressionsmodells durch mehrere binäre gemischte logistische Regressionen. Weiterhin wird eine synthetische Poststratifizierung (Leemann and Wasserfallen, 2017) basierend auf mehreren partiellen gemeinsamen Verteilungen, für welche amtliche Daten existieren, durchgeführt, sofern keine vollständige Poststratifizierung möglich ist. Die Details dieser Methode sind im technischen Anhang nachzuvollziehen.

Die Verfahren zur Berechnung der statistischen Fehlers für Ergebnisse auf Landes- und Landkreisebene sind auf die jeweilige Berechnungsmethode abgestimmt. Das Unsicherheitsmaß für die mit MRP berechneten Ergebnisse basieren auf einem in der Forschung etablierten Simulationsansatz (Gelman und Hill, 2007, Kapitel 7). Das Ziel dieser Methode ist es, die Unsicherheit des Gesamtmodells durch wiederholtes Simulieren der einzelnen Parameter und Neuberechnen des Modells zu bestimmen. Die Verteilung, die sich aus diesem Simulationsprozess ergibt, wird zur Bestimmung des statistischen Fehlers herangezogen. Diese Methode erlaubt eine Schätzung der Unsicherheit, für die wenige Annahmen jenseits der Normalität der Parameterverteilungen nötig sind. In einigen Fällen wird das Fay-Herriot Verfahren anstelle von MRP verwendet, um unsere Schätzungen besser auf die verfügbare Datengrundlage anzupassen. Hier wird der statistische Fehler ausgehend von den Varianzen des direkten Schätzers sowie den Ergebnissen des Modells analytisch bestimmt. Details zum verwendeten Verfahren finden sich unter Anderem bei Prasad und Rao (1990) und Rao und Molina (2015, Kapitel 5).

Freitextantworten dienen der Erfassung individueller Gedanken, Gefühle und nuancierter Meinungen. Die Analyse von Ergebnissen offener Fragestellungen kann somit das Verständnis der öffentlichen Meinung erweitern. Im Rahmen der Erhebung von Freitextantworten spielt Civey in seinem Online-Panel eine offene Frage aus, die Panelisten in einem Text mit bis zu 140 Zeichen beantworten können. Zur Gewährleistung der Datengüte werden im Anschluss zunächst ungültige Eingaben (z.B. zufällige Tastenanschläge) automatisiert aussortiert.

Civey nutzt dann ein Large Language Modell (LLM) für die Textanalyse, um die prägnantesten Themen aus allen Freitextantworten zu extrahieren. Das Modell ist darauf ausgelegt, das in der Regel breite Spektrum aller Meinungen in den Themen zu repräsentieren. Anschließend wird mit Hilfe eines LLMs jede gültige Antwort einem der Themencluster zugeordnet. Die Trennschärfe der gebildeten Kategorien sowie Zuordnungen der Antworten zu den Clustern werden im Anschluss von Civey-Researchern verifiziert, um Genauigkeit und Aussagekraft sicherzustellen.

Die zugeordneten Themen ermöglichen es im Weiteren, die Freitextantworten genauso zu behandeln wie standardisierte Antworten geschlossener Umfragen. Civey integriert diese also in den in 3.2.1 bis 3.2.3 beschriebenen methodischen Prozess zur Berechnung von Anteilen, welcher Quota-Sampling und Raking beinhaltet. Dies erlaubt einen umfassenden und repräsentativen Einblick in die Antworten.

Ein Teil unserer Umfragen wird gerundet angezeigt. Für das Runden unserer Ergebnisse verwenden wir die Quotientenmethode mit Restausgleich nach größten Bruchteilen (auch: Hare-Niemeyer-Verfahren). Im Unterschied zum kaufmännischen Runden handelt es sich um ein summenerhaltendes Verfahren (d.h., die Summe der gerundeten Werte ist gleich der Summe der ungerundeten Werte). Weiter ist die Rundungsgrenze nicht fest bei 0.5 definiert, sondern steht in Abhängigkeit der Verteilung der Bruchteile. Das Rundungsverfahren besteht aus zwei Schritten. Im ersten Schritt wird jedes Anteil zur nächsten ganzen Zahl abgerundet. Anschließend wird die entstandene Differenz der Summe der herabgerundeten Werte zur Ausgangssumme gebildet und im zweiten Schritt auf die gerundeten Werte verteilt, absteigend geordnet nach Bruchteilen.

Für alle Erhebungen, die nicht ausschließlich in Deutschland stattfinden, arbeitet Civey mit anderen Panelanbietern zusammen.

Civey stellt die Paneltechnologie bereit, während unsere Partner die Panelisten auf das eigene Umfragetool von Civey lenken. Nachdem beim Panelanbieter eine für die Erhebung gewünschte Zielgruppe (z.B. Autofahrer) konfiguriert und die relevanten Quoten festgelegt wurden, erhalten wir diesen Vorgaben entsprechende Zugriffe auf unserem Widget. Die vom Panelanbieter bereitgestellten Zielgruppen und Quoten werden von Civey erneut dahingehend überprüft, ob sie den festgelegten Quoten tatsächlich entsprechen. Alle für die Festlegung der Zielgruppen und Quoten relevanten Merkmale werden durch Civey erneut selbst erhoben.

Die Panelisten beantworten einen vorab definierten und geschlossenen Fragebogen. Sollten nicht alle für die Erhebung notwendigen Zielgruppen vom Panelanbieter bereitgestellt werden können, können sich im Fragebogen auch Filter- und Gabelfragen befinden, die eine weitere Segmentierung der Befragten ermöglichen. Nach Abschluss der Umfrage werden die Panelisten zur Website des Anbieters weitergeleitet. Die Stichprobe wird nach den vorab festgelegten Quoten quotiert, d.h. Civey stellt sicher, dass in der Stichprobe genau so viele Personen aus den jeweiligen Bevölkerungsgruppen enthalten sind, wie zuvor festgelegt wurde (z.B. 50% Männer, 50% Frauen).

Wir prüfen im Rahmen der fortlaufenden Verifizierung, ob es Anhaltspunkte für Zweifel gibt, dass der einzelne teilnehmende Nutzer eine echte Person ist und mit welcher Wahrscheinlichkeit seine Angaben der Wahrheit entsprechen. Für beide Bewertungen werden technische, statistische und inhaltliche Kriterien geprüft, darunter die Geschwindigkeit der Teilnahme sowie die inhaltliche Plausibilität, beziehungsweise das Vorhandensein etwaiger Widersprüche in gegebenen Antworten.

Die Markt- und Meinungsforschung ist geprägt von einer weitreichenden Methodendebatte: Der klassische, erprobte und statistisch seit Jahrzehnten umfassend erforschte Ansatz des Probability-Samplings ist in Zeiten dramatisch fallender Ausschöpfungsquoten unter ökonomischen Rechtfertigungsdruck geraten. Online Non-Probability-Sampling verspricht vor diesem Hintergrund eine den praktischen Erfordernissen der Meinungsforschung häufig besser entsprechende Alternative. In den vergangenen Jahren wurden wesentliche Schritte zur statistischen Fundierung des Ansatzes unternommen. Die von Civey genutzte Methodik baut auf diesem theoretischen Fundament auf und liefert mit Hilfe einer Kombination aus Quota-Sampling und Raking-basierter Superpopulationsmodellierung unter klar definierbaren Annahmen (insbesondere der Unabhängigkeit von Antwortverhalten und Selektion ins Panel unter Berücksichtigung der Gewichtungsvariablen) valide Ergebnisse. Diese werden durch kleinräumige Schätzungen auf Basis einer adaptierten Form von Multilevel-Regression und Poststratifizierung ergänzt.

Das komplette Whitepaper inklusive des methodologischen Anhangs und allen Quellen finden Sie hier zum Download.

1 Eine detaillierte Beschreibung beider Ansätze kann bei Valliant et al. (2018) gefunden werden.
2 Civey ist sich bewusst, dass eine binäre Abfrage des Geschlechts der Komplexität der Debatten nicht mehr gerecht wird. Dieser Wandel wird innerhalb der Wissenschaft und in der Markt- und Meinungsforschungsbranche intensiv diskutiert (Graf, 2019; L. Kennedy u. a., 2022). Die im ersten Moment einfach wirkende, erweiterte Geschlechterauswahl bei der Registrierung führt jedoch zu einer Reihe von tiefgreifenden Herausforderungen. Für statistische Quotierungen und Gewichtungsprozesse sind in der Markt- und Meinungsforschung unter anderem Daten zu Alters- und Geschlechtsverteilungen des statistischen Bundesamts notwendig. Beim Geschlecht wird aktuell die Kategorie “divers” nur für Personen geführt, die im Geburtenregister über den Eintrag “divers” verfügen. Die offiziellen Randverteilungen des statistischen Bundesamtes schlüsseln die Geschlechter allerdings nur binär auf. Eine Erweiterung der Geschlechtsabfrage würde somit dazu führen, dass unsere demographischen Teilnehmerinformationen nicht länger zu den offiziellen Daten in Bezug zu setzen wären. Eine Gewichtung nach Geschlecht wäre somit unmöglich, was wiederum die Qualität unserer Ergebnisse gefährdet. Nach umfassender Evaluation sind wir daher zu dem Ergebnis gekommen, dass wir den Personen, die über einen “divers”-Eintrag im Geburtenregister verfügen, eine Anpassung unter “Ihr Konto” ermöglichen. Eine gesonderte Ausweisung der Ergebnisse ist jedoch noch nicht möglich. Mit der Weiterentwicklung des Fachdiskurses und der amtlichen Datenlage wird Civey die Einführung weiterer Geschlechtskategorien erneut prüfen. Länder wie Kanada erheben bereits das soziale Geschlecht differenziert im Zensus. Eine solche juristische und statistische Weiterentwicklung in Deutschland muss jedoch abgewartet werden.
3 Die einzige Ausnahme hierzu ist die kurze Phase in den ersten Stunden direkt nach der Veröffentlichung einer Umfrage, welche in einen populären Artikel eingebunden ist. In dieser Situation kann es theoretisch passieren, dass eine große Mehrheit aller Antworten nicht zufällig ausgespielt worden ist. Um dem Nutzer in dieser Situation trotzdem eine Auswertung der Ergebnisse zu präsentieren, werden unter Umständen ebenfalls Daten genutzt, die aus ersten Fragen stammen. In diesem Fall wird die Unsicherheit in den Ergebnissen durch eine konservative Korrektur des statistischen Fehlers widergespiegelt.
4 Verschiedene Methoden des Weight-Trimmings existieren, ohne dass sich ein dominanter Ansatz etabliert hätte, einige werden z.B. von Potter (1990) beschrieben. Wir orientieren uns an der unter anderem vom Sozio-Ökonomischen Panel verwendeten Obergrenze vom 10-fachen Wert des Median-Gewichts und ergänzen diese um eine Untergrenze in Höhe des 0.1-fachen. Die getrimmten Werte werden auf alle anderen Gewichte iterativ umverteilt, sodass die Summe konstant bleibt.
5 Vgl. zum Beispiel die Nutzung bei Pew Research (Smith, 2010) und YouGov (2015).
6 Siehe das Standardwerk von Rao and Molina (2015) für einen umfassenden Überblick.
7 Siehe die Einführung von Gelman and Hill (2006) für eine genauere Definition.

Die persönlichen Daten der Teilnehmer werden im Einklang mit der DSGVO erhoben und verschlüsselt auf Servern in Deutschland gespeichert. Daten werden sicher in Datenbanken von Civey gespeichert und für die Auswertungen verarbeitet. Civey ist entsprechend dem Grundsatz “Privacy by Design” entwickelt worden, wodurch die Datensicherheit und Datensparsamkeit von Anfang an in allen Produkten integriert und berücksichtigt wurde. Die ausdrückliche Einwilligung für die Datenerhebung und -verarbeitung erfolgt durch ein aktives Opt-in der Teilnehmer. Selbstverständlich können die Nutzerinnen und Nutzer ihre Einwilligung jederzeit zurückziehen, ihre gespeicherten Daten im Nutzerprofil herunterladen und einsehen sowie ihre Daten bei Civey löschen. Die Anonymität ist ein wichtiger Schutz für unsere Nutzerinnen und Nutzer. Zudem bietet sie zwei zentrale Vorteile. Unehrliches Antwortverhaltens wird im Vergleich zu persönlich geführten Umfragen reduziert. Zudem steigert die Anonymität die Teilnahme von Personengruppen, die zu sensiblen Themen befragt werden sollen. Weitere Informationen zu unserem Datenschutz und unsere aktuelle Datenschutzerklärung finden Sie hier.
Weitergehend haben sich bereits Survey-Statistiker wie Prof. Ulrich Rendtel der Freien Universität Berlin mit dem onlinebasierten Verfahren von Civey beschäftigt und bestätigen die Validität des Ansatzes. Das entsprechende Gutachten finden Sie hier. Auch Prof. Dr. Ricarda Bouncken, Inhaberin des Lehrstuhls Strategisches Management an der Universität Bayreuth, hat sich in ihrem Gutachten mit der Frage der Aussagekräftigkeit von Online-Befragungen zur Meinungs- und Marktforschung auseinandergesetzt und kommt zum Schluss, dass gerade die durchdachte und gut gestaltete Methodenkombination von Civey aus probabilistischen und nicht-probabilistischen Verfahren eine hohe Aussagekraft und Repräsentativität erlaubt. Die Ergebnisse finden Sie hier. Civey unterstützt mit seinen Datenerhebungen auch Forschungszwecke. Zu den Kooperationspartnern in der Forschung zählen aktuell das Deutsche Institut für Wirtschaftsforschung und das Institut für Statistik und Ökonometrie der Freien Universität Berlin.

Sie wollen noch mehr über unsere Methode erfahren?

Dann lesen Sie das komplette Whitepaper inklusive des methodologischen Anhangs.