Logo

6 Gründe für das Debakel der US-Umfragen

Von DB, 15. November 2016 4 Kommentare »
Zum wiederholten Male wurde das Potenzial von Proteststimmenden im Vorfeld einer Wahl unterschätzt. Warum fast ausschliesslich bei Parteien oder Vorlagen von rechts?

Von Thomas Milic

Mit britischem Humor beklagte sich am Mittwochmorgen eine BBC-Journalistin darüber, dass die USA den Briten keinen einzigen Triumph gönnen würden: Mit dem Brexit-Votum, so fuhr die Journalistin fort, glaubten viele Briten, das politische Ereignis des Jahrzehnts geboten zu haben, das niemand mehr überbieten könne. Doch den Amerikanern sei es mit der Wahl Trumps doch tatsächlich gelungen, alles noch grösser und spektakulärer zu machen. Selbiges lässt sich auch über das Versagen der Meinungsforschungsinstitute oder vielmehr über die Reaktionen darauf sagen: Beim Brexit lagen die britischen Pollster spektakulär daneben, nur um ein halbes Jahr später von ihren amerikanischen Berufskollegen übertroffen zu werden.

Aber Trump und der Brexit sind keine Ausnahmen. In Deutschland beispielsweise erzielt die AfD regelmässig bessere Resultate als prognostiziert. In Österreich legt die ÖVP im Vergleich zu Umfragen oftmals zu. Und hierzulande ging die SVP bei Wahlen wie auch bei Abstimmungen schon mehrfach unerwartet als Siegerin hervor.

Das kann kein Zufall sein. Wo liegen die Ursachen für den Schätzfehler? Darauf soll gleich eingegangen werden. Doch vorerst: Wie weit lagen die Umfragen bei den Präsidentschaftswahlen eigentlich daneben? Zu unterscheiden sind dabei Angaben in Wahrscheinlichkeiten und solche in Wählerstimmenanteilen. Zuerst zu den Stimmenanteilen: Hier sagten die meisten Umfragen und Aggregatoren zuletzt ein knappes Rennen voraus. Real Clear Politics wies beispielsweise für Clinton einen nationalen Anteil von 46,8 Prozent (rund 1 Prozentpunkt Differenz zum effektiven Resultat von 47,8) und für Trump 43,6 (–3,7 Prozentpunkte) aus. Das ist – ganz nüchtern betrachtet – nicht sonderlich schlecht. Die Abweichung bei Trump hatte jedoch enorme Auswirkungen auf das Endresultat und liegt ausserhalb des Stichprobenfehlers für ein Standardsample von rund 1000 Befragten.

Bei den Elektorenstimmen hingegen lagen die Umfragen weit daneben. Dazu werden Umfragen auf Bundesstaatenebene verwendet, die teilweise weit danebenlagen. Diese Differenz liegt zudem nur knapp über dem durchschnittlichen Schätzfehler («just a normal polling error behind»). Retrospektiv betrachtet ist jedoch irritierend, dass die allermeisten Umfragen Clinton konstant vorne sahen. Bei einem knappen Rennen wären stärkere Schwankungen zu erwarten. Auf den mutmasslich zugrunde liegenden «Herding»-Effekt kommen wir weiter unten noch zu sprechen.

Aggregatoren wie Huffpost (Huffington Post), Fivethirtyeight.com (Nate Silver) oder The Upshot der «New York Times» gaben (zusätzlich) Siegeschancen (win probabilities) an. Grundlage für diese Wahrscheinlichkeiten bilden oftmals bayesianische Modelle, in die Dutzende, wenn nicht Hunderte von Umfrageresultate eingespiesen, gewichtet und sodann simuliert werden. Als Beispiel: Das Modell von Huffpost, das neben bedingten Wahrscheinlichkeiten auch noch Erwartungswerte berücksichtigt. Pollyvote hat beispielsweise eine absurd hohe Wahlwahrscheinlichkeit von 99 Prozent für Clinton ermittelt. Das war ohne Zweifel eine kolossale Fehlleistung.

Andere waren vorsichtiger. Nate Silver gab beispielsweise eine 29-prozentige Siegeschance für Trump an. Nehmen wir zur Veranschaulichung diesen Wert (für den Silver im Übrigen von Berufskollegen gerügt wurde): Er klingt zwar tief, aber er ist in etwa gleich hoch wie die Wahrscheinlichkeit, bei fünfmaligem Münzwerfen dreimal Kopf zu erhalten (30,1 Prozent). Aus Erfahrung wissen wir, dass ein solches Ergebnis keineswegs unmöglich ist. Offenbar tun wir uns aber damit schwerer, nackte Wahrscheinlichkeitswerte (ohne alltagsnahen Bezug) korrekt einzuordnen. Siegeschancen sind deshalb ein Konzept, das man überdenken soll. Es ist für viele Umfragekonsumenten und -konsumentinnen schwer einzuordnen. Bei vielen haben sie eine Sicherheit vermittelt, die nie vorhanden war.

Aber letztlich lagen die Umfragen – mit wenigen Ausnahmen – allesamt daneben. Und dies, wie gesagt, nicht zum ersten Mal, wenn es um Parteien oder Sachvorlagen von rechts geht. Warum?

  1. Der «Herding»-Effekt
    Auch für Umfrageinstitute und Aggregatoren gilt: Wahltag ist Zahltag. Ihre Umfrageergebnisse stehen an diesem Tag auf dem Prüfstand. In den USA werden Befragungen zudem bis zum letzten Tag vor dem Wahltermin durchgeführt. Es gibt keine Karenzfrist von zehn Tagen wie in der Schweiz. Die letzten Umfrageergebnisse können demnach direkt mit den Wahlergebnissen verglichen werden; die Möglichkeit, Abweichungen auf den Meinungswandel zu schieben («Immunisierung»), fällt weg. Die Umfrageinstitute stehen deshalb unter ungleich höherem Druck als in der Schweiz, umso mehr, als die Konkurrenz in den USA immens ist. Die Reputation der Pollsters und damit auch ihr Umsatz sind von der Umfrageleistung abhängig. Sie schielen deshalb, so die These des Herdings, immer auch auf die Umfragewerte der Konkurrenz. Und sie werden dazu tendieren, ein (Rohdaten-)Resultat, das (zu) stark vom «Mainstream» (also der Herde der anderen Pollster) abweicht, zu «glätten». Denn ein zu stark vom allgemein erwarteten Ergebnis abweichendes Umfrageresultat ist ein gehöriges Reputationsrisiko. Im Prinzip ist es ein Abwägungsprozess nach der Minimax-Regret-Regel. Dabei stellt man sich die Frage: Was wäre für einen Pollster der absolute Worst Case? Antwort: Er weist als einziger einen Trump-Sieg aus, der aber verliert in der Folge die Wahl klar. Gratulation an dieser Stelle an die USC Dornsife/«LA Times», die genau dies getan hat und am Ende als eine der wenigen richtig lag. Weniger schlimm wäre hingegen folgendes Szenario: Man weist wie alle anderen einen Clinton-Sieg aus und geht im gegenteiligen Fall (Trump gewinnt) gemeinsam und ohne gross aufzufallen mit der restlichen Herde unter. Tatsächlich haben viele Umfrageinstitute im Nachgang genauso argumentiert: «Wir lagen daneben, aber alle andere auch.» Im Übrigen: Auch der Daybreak Poll von USC Dornsife/«LA Times» lag bei Clinton um rund vier Prozentpunkte daneben, war demnach nicht genauer als andere Umfragen. Aber am Ende hatte man den Sieger richtig prognostiziert. Was lernen wir daraus? Man muss nicht genau liegen, aber auf der richtigen Seite.
  2. Soziale Erwünschtheit oder die «Shy Trump-ers»
    Der «Klassiker» unter den Gründen für eine Verzerrung ist die soziale Erwünschtheit: Trump-Wähler hätten sich aufgrund des sozialen Drucks nicht getraut, in Interviews offen zu ihm zu stehen. Zunächst: Bei Telefonumfragen ist das denkbar («Reaktivität»). In Online-Umfragen sollte das aber keine Rolle spielen. Sie sind anonym. Trotzdem lagen auch sie daneben. Hinzu kommt: Donald Trump schnitt vor allem in North Dakota und West Virginia deutlich besser ab als vorausgesagt. Dort dürfte es aber schwerer fallen, sich öffentlich zu Clinton zu bekennen als zu Trump. Die Scham davor, sich als Trump-Wähler zu outen, ist allenfalls bei urbanen Wählern und Wählerinnen der Oberschicht vorhanden, aber nicht für den Trump-Wähler aus dem Bible Belt.
  3. Last-Minute-Meinungswandel
    Ein Dauerbrenner ist die Begründung, wonach in den letzten Tagen bzw. Stunden vor der Wahl noch ein Meinungsumschwung stattgefunden hätte. Hierzu nur ganz kurz: Ich halte diese These bei der fundamentalen Wahl zwischen Trump und Clinton – trotz hohem Anteil unentschlossener Wähler – für abenteuerlich.
  4. Mobilisierung oder Demobilisierung
    Eine der grössten Herausforderungen von Vorumfragen ist es, die Wahlteilnehmenden zu identifizieren. Wer nimmt auch wirklich teil und wer bleibt trotz Teilnahmezusicherung im Interview am Ende trotzdem zu Hause? Amerikanische Umfrageinstitute haben hierzu Modelle von «likely voters» entwickelt, die möglicherweise von falschen Annahmen ausgingen. Sind Clinton-Anhängerinnen und -Anhänger beispielsweise zu Hause geblieben – vielleicht auch deshalb, weil sie zu siegesgewiss waren? Unmöglich ist es nicht. Aber dass politisch involvierte Menschen einer solch polarisierenden Wahl fernbleiben, weil sie mit einem sicheren Sieg ihres Lagers rechnen, halte ich für ebenso unwahrscheinlich wie den Last-Minute-Meinungswandel. Das heisst nicht, dass es keine Demobilisierung unter den Demokraten gab. Dazu müssen zunächst die genauen Beteiligungsdaten abgewartet werden. Doch selbst wenn demokratische Hochburgen eine tiefere Partizipationsrate als 2012 und 2008 gehabt haben sollten, so muss dies nicht zwangsläufig mit den Umfrageresultaten zu tun haben. Es könnte geradeso gut an der Unpopularität Clintons bei den jungen demokratischen Wählern und Wählerinnen liegen, die bei den Primaries ebenfalls für einen Change (aber einen linken Wechsel: Bernie Sanders) gestimmt haben.
  5. Gewichtungseffekte
    Es fällt zunehmend schwerer, strukturell repräsentative Stichproben zu ziehen bzw. zu realisieren. Viele verweigern die Umfrageteilnahme. Wenn sich bei US-Polls einer von zehn Angefragten zum Interview bereit erklärt, ist das beinahe schon als Erfolg zu werten. Deshalb wird gewichtet. Wie wichtig und vor allem einflussreich Gewichtungsverfahren für Vorumfragen sind, zeigt ein Beispiel aus der «New York Times». Zu Vergleichszwecken überliess die Zeitung im Vorfeld der US-Präsidentschaftswahlen vier renommierten Umfragespezialisten dieselben Rohdaten einer Befragung. Allen vier Spezialisten stand demnach derselbe Rohdatensatz zur Verfügung, den sie nach ihrem «Gusto» gewichten (oder auch ungewichtet lassen) durften. Das Resultat war, dass sich die unterschiedlich gewichteten Ergebnisse der Umfrageinstitute allesamt voneinander unterschieden – und dies stärker als der entsprechende Stichprobenfehler der Umfrage. Im Übrigen: Am besten schnitt – nachträglich betrachtet – eine MRP-Gewichtung von Sam Corbett-Davies, Andrew Gelman und David Rothschild ab: Als Einzige sahen sie Trump in Florida vorne. Auffallend ist zudem, dass das Demokraten-nahe Umfrageinstitut ein gutes Resultat für Clinton auswies, während das Republikaner-nahe Institut ein vergleichsweise gutes Resultat für Trump ermittelte: Der sogenannte «house effect» bei Umfragen. Fazit: Gewichtungs- und Kalibrierungsmethoden unterscheiden sich offenbar stark. Dass aber so gut wie alle Institute unzureichende Gewichtungsverfahren verwendet haben, halte ich für höchst unwahrscheinlich.
  6. Verweigerung
    Wie gesagt, Vorumfragen in den USA haben Verweigerungsquoten von bis zu 90 Prozent. Diese Verweigerung erfolgt nicht rein zufällig – das realisierte Sample ist demnach keine Zufallsauswahl des im Stichprobenrahmen vorgegebenen Samples. Wer also sind diese Verweigerer? In meinen Augen am wahrscheinlichsten ist die These, dass es vor allem Protest- und Anti-Establishment-Wähler sind, die Umfragen konsequent verweigern. Denn, wie gesagt, nicht nur die Aggregatoren, sondern auch die allermeisten einzelnen Umfragen – ob telefonisch oder per Internet – lagen konsequent daneben. Und dies ist beileibe kein US-amerikanisches Phänomen: Die Unterschätzung des «Wutbürgerpotenzials» ist auch bei Umfragen in Europa weit verbreitet. Warum aber verweigern diese Protestwähler Umfragen? In Leserforen auf dem Internet hat man beispielsweise nicht den Eindruck, sie seien untervertreten – im Gegenteil. Ein generelles Mitteilungsbedürfnis ist demnach auch bei diesen Wählern und Wählerinnen auszumachen. Umfragen werden von dieser Wählergruppe jedoch gemieden. Ich vermute, weil sie Umfragen als Instrument eines «Systems» ansehen, das sie grundsätzlich ablehnen und mit dem sie allerlei Ungutes assoziieren («Korruption», «Establishment», «abgehobene Elite», «Lügenpresse»). Sie schenken Umfragewerten konsequenterweise auch überhaupt keinen Glauben, halten sie im besten Fall für unzuverlässig und im schlimmsten Fall für manipuliert. Diese These der Interviewverweigerung der Wutbürger ist weder neu noch besonders originell (siehe z.B. hier), aber sie wird erstaunlicherweise eher selten vorgebracht.

Die genauen Ursachen des amerikanischen Umfrage-GAUs sind vorderhand unbekannt. Es wird wohl Monate, wenn nicht Jahre dauern, dieses kollektive Versagen der Umfrageindustrie aufzuklären. Vorderhand lässt sich über die Gründe nur spekulieren. Anzunehmen ist, dass nicht bloss einer der oben genannten Gründe ausschlaggebend war, sondern eine Kombination von Gründen. Indes, aufgrund dessen, dass die Unterschätzung der Trump-«Bewegung» kein isoliertes amerikanisches Phänomen ist, sondern Ähnliches weltweit zu beobachten ist, halte ich die letzte These für die wahrscheinlichste.

Dieser Beitrag erschien zuerst auf Politan.ch

4 Kommentare zu “6 Gründe für das Debakel der US-Umfragen”

  1. Peter Schlauer sagt:

    Einmal mehr gilt: Wählen ist wie Zähneputzen, wenn man’s nicht macht wird’s braun.

  2. Tobias Meyer sagt:

    Sehr aufschlussreicher Artikel, vor allem der Punkt 6! Übrigens, in der Schweiz hat eine Universität Trumps Wahl vorhergesagt, nämlich Neuenburg (vgl. Le Matin unter http://www.lematin.ch/suisse/suisse-romande/uni-neuchtel-predit-victoire-trump/story/27603500 )

  3. Dietrich Michael Weidmann sagt:

    Es wäre wünschenswert, wenn endlich die Konsequenzen aus diesem Umfrage-GAU gezogen würden und zumindest das gebührenfinanzierte Staatsfernsehen in der Schweiz aufhören würde, weiterhin Geld in solche sinnlosen Umfragen zu buttern. Es gibt schliesslich nur eine einzige gültige Umfrage und das ist die am Abstimmungstag mit dem Wahlzettel. Ich gehöre auch zu denen, die Befragern, wenn sie mir nicht ein angemessenes Honorar für meine Zeit anbieten, die Antwort verweigere. Hingegen scheue ich mich überhaupt nicht, meine Meinung in Foren offen Kund zu tun. Statt also solch sinnlose Umfragen durchzuführen, sollten sich Meinungsforscher vielleicht auf die Auswertung der Foren konzentrieren!

  4. Valerio Bastianini sagt:

    Ich frage mich schon lange, zu welchem Zweck solche Umfragen erstellt werden. Wem dienen sie? Trotz wiederholter Negierungen bin ich überzeugt, dass sie die Wählerschaft – wie in obigem Artikel angedeutet – beeinflussen. Lassen wir doch den Stimmbürger einfach abstimmen, frei von jeglicher Beeinflussung!