Advertisement

Konfundierte Ergebnisse durch ein zu stark beschränktes Design?

Anmerkungen zur Vignettenanalyse „Wer ist in Deutschland willkommen?“ von C. Czymara und A. Schmidt-Catran
  • Katrin Auspurg
Berichte und Diskussionen

Zusammenfassung

C. Czymara und A. Schmidt-Catran haben kürzlich in dieser Zeitschrift (KZfSS 2016 (2)) ein faktorielles Survey-Experiment vorgelegt, mit dem sie zur aktuellen Debatte über die Flüchtlingskrise beitragen wollen. Sie schlussfolgern aus ihrem Experiment, dass vor allem hochqualifizierte Einwanderer mit geringer kultureller Distanz in Deutschland akzeptiert wären, während beispielsweise muslimische Einwanderer negativ diskriminiert würden. Wie der vorliegende Beitrag zeigt, sind diese Ergebnisse potenziell konfundiert. Das Design lässt ebenso alternative Ergebnisinterpretationen zu. Rezipienten des Artikels oder Sekundärnutzer der Daten sollten die Ergebnisse daher mit deutlich mehr Vorsicht interpretieren.

Schlüsselwörter

Experiment Faktorieller Survey Vignetten Kausalanalyse Konfundierung Einstellung zu Zuwanderung Flüchtlinge Konfliktthese Kulturelle Bedrohung 

Confounded Results due to an Experimental Main Effect Design?

A Comment on the Vignette Analysis “Who is Welcome in Germany” by C. Czymara and A. Schmidt-Catran

Abstract

Recently C. Czymara and A. Schmidt-Catran published in this journal (KZfSS 2016 (2)) a factorial Survey-Experiment to contribute to the current debate on the inflow of refugees in Germany. The authors concluded from their Survey-Experiment that in particular highly qualified immigrants who show little culture distance should get accepted in Germany, while for instance Muslim immigrants would be more strongly rejected. In this comment it is argued that authors’ results probably suffered from a strong confounder bias. The employed experimental design also allows for a lot of alternative interpretations. Therefore, readers of the original article or further users of the data should be more cautious when interpreting the results.

Keywords

Experiment Factorial survey Vignettes Causal inference Confounding Attitudes towards migration Refugees Conflict thesis Cultural threat 

1 Einleitung

In ihrem Beitrag „Wer ist in Deutschland willkommen? Eine Vignettenanalyse zur Akzeptanz von Einwanderern“ (KZfSS 2, 2016) gehen Christian S. Czymara und Alexander W. Schmidt-Catran (im Folgenden CSC abgekürzt) der Frage nach, „welche Einwanderer in Deutschland akzeptiert werden und welche Rechte ihnen von der einheimischen Bevölkerung zuerkannt werden“ (CSC 2016, S. 193). Getestet werden Theorien zu Gruppenkonflikten, welche etwa die Ablehnung von Einwanderern aus Angst vor ökonomischer Konkurrenz oder wegen der Bedrohung kultureller Werte postulieren. Derartige Thesen wurden bereits in früheren Studien analysiert (z. B. Hainmueller und Hopkins 2014; Helbling und Kriesi 2014). Neu ist der Einsatz eines mehrfaktoriellen Survey-Experiments. Die zeitgleiche Variation von mehreren experimentell variierten Attributen zur Beschreibung potenzieller Zuwanderer würde einmalige Möglichkeiten eröffnen, die Relevanz dieser Attribute für Einstellungen zur Zuwanderung unabhängig voneinander zu untersuchen sowie in ihrer Effektstärke zu vergleichen (CSC 2016, S. 195).

Wie im Folgenden argumentiert wird, verwenden die Autoren aber ein viel zu restringiertes Design, als dass tatsächlich eine unabhängige Einschätzung des Einflusses der verschiedenen Attribute möglich wäre. Nicht zuletzt wegen der virulenten (gesellschaftspolitischen) Diskussion um die Akzeptanz von Zuwanderern scheint es wichtig, die Aussagekraft der Ergebnisse korrekt einzuordnen und Leser sowie mögliche Interessenten an einer Zweitverwendung der Daten auf die Gefahr möglicher Fehlschlüssen hinzuweisen. Dazu werden im Folgenden das Design und seine Limitationen knapp diskutiert.

2 Das experimentelle Design und seine Limitationen

CSC verwenden in ihrer Studie ein mehrfaktorielles Survey-Experiment (auch als faktorieller Survey bekannt, für Einführungen s. z. B. Auspurg und Hinz 2015; Wallander 2009), um Einstellungen der deutschen Bevölkerung in Bezug auf Zuwanderung zu untersuchen. Im Onlinepanel SoSci wurden Befragten im April 2015 mehrere fiktive Beschreibungen (Vignetten) von potenziellen Einwanderern nach Deutschland vorgelegt. Aufgabe der Befragten war es dann, für jeweils 14 solcher Beschreibungen auf Ratingskalen anzugeben, wie stark sie der Meinung seien, dass die jeweilige Person in Deutschland a) aufgenommen, b) arbeiten, sowie c) ein Recht auf Sozialhilfe haben sollte. In den Vignetten wurden 6 Attribute (Dimensionen) mit jeweils 2 oder 3 unterschiedlichen Ausprägungen (Levels) experimentell variiert. Anschließend wurde von den Autoren mittels multivariater Regressionsanalysen der Einfluss der jeweiligen Attribute auf die abgefragten Meinungen geschätzt. Den Ergebnisinterpretationen zufolge werden Muslime weniger willkommen geheißen als Christen oder konfessionslose Personen. Hoch qualifizierte oder politisch verfolgte Migranten werden zudem eher von der deutschen Allgemeinbevölkerung akzeptiert als gering qualifizierte Migranten oder Wirtschaftsflüchtlinge. Den Autoren zufolge bestätigen die Ergebnisse primär Humankapitaltheorien. Zugleich würde die stärkere Ablehnung von Personen mit größerer kultureller Distanz auf Konfliktpotenziale hindeuten, die man in der künftigen Forschung im Blick behalten sollte.

Prinzipiell ist gegen ein solches Design nichts einzuwenden. Faktorielle Surveys sind geradezu dafür prädestiniert, komplexe Urteilsregeln aufzudecken (s. bereits Rossi und Anderson 1982). So gab es auch bereits etliche andere gut publizierte Studien, die Surveyexperimente zur Messung von Einstellungen gegenüber Zuwanderung nutzten (s. z. B. Hainmueller und Hopkins 2014; Hainmueller et al. 2015; Helbling und Kriesi 2014; Jasso 1988). Problematisch ist aber, dass SCS nicht das gesamte Vignettenuniversum mit allen möglichen Kombinationen der verschiedenen Attribute zum Einsatz bringen (im Fall der Autoren umfasst das Universum nach Ausschluss einer unplausiblen Kombination insgesamt 192 mögliche Vignetten). Stattdessen verwenden sie nur eine sehr kleine Fraktion von insgesamt 14 unterschiedlichen Vignetten (eine Übersicht über diese Auswahl an Vignetten ist in Tab. A1 im Online-Anhang zu diesem Beitrag einzusehen).1 Diese Vignetten wurden von den Autoren in Form einer sogenannten D-effizienten Auswahl so zusammengestellt, dass die einzelnen Attribute untereinander nicht korrelieren (in der experimentellen Fachsprache: die Attribute orthogonal zueinander stehen) und sie zugleich eine maximale Varianz in ihren Ausprägungen aufweisen (sogenannte level balance). Beide Kriterien zusammen führen dazu, dass sich die Effekte der Attribute mit minimalen Standardfehlern oder maximaler statistischer Effizienz schätzen lassen. Tatsächlich präsentieren die Autoren in ihrem Aufsatz eine Tabelle, welche die Unkorreliertheit der verschiedenen Attribute und damit die zentralen Vorteil ihres Designs gegenüber dem Forschungsstand belegen soll (Czymara und Schmidt-Catran 2016, S. 193–227, Tab. 1). Laut den Autoren würde dieses Design die einmalige Möglichkeit eröffnen, den separaten Einfluss der vielen unterschiedlichen Attribute auf die abgefragten Meinungen einzuschätzen.

Nun sind auch solche D-effizienten Auswahlen nicht per se problematisch. Kritisch ist aber, dass die Autoren bei der Auswahl der Vignettenfraktion nur auf eine möglichst effiziente (nicht aber unverzerrte) Schätzung der Haupteffekte achten und dazu starke Konfundierungen der Haupteffekte mit Interaktionstermen in Kauf nehmen (es handelt sich um ein sogenanntes Haupteffekte-Design). Was die Autoren selbst nicht erläutern, aber bei einer Re-Analyse der Daten leicht offensichtlich ist (und bei einer solch kleinen Fraktion von 14 aus 192 Vignetten auch gar nicht vermeidbar ist): Es bestehen durchgehend sehr starke Konfundierungen der Haupteffekte mit Zweifach-Interaktionen, bis hin zu perfekten linearen Abhängigkeiten (Korrelationen von |r| = 1). Die starken Konfundierungen werden auch deutlich, wenn man sich die Ausprägungen der verwendeten Vignettenfraktion betrachtet (s. Tab. A1 im Online-Anhang). So sind beispielsweise durchgehend alle Franzosen, welche wegen der Aussicht auf ein besseres Leben einwandern wollen, kaum des Deutschen kundig. Franzosen, die bereits einen Arbeitsplatz in Aussicht haben, sprechen dagegen durchgehend gut Deutsch. Besonders starke Konfundierungen finden sich für Einwanderer aus dem Libanon, da es hier beispielsweise nur eine weibliche Person gibt (eine gering qualifizierte Muslimin), die wegen der Aussicht auf einen Arbeitsplatz einwandern will. Regressiert man einzelne Attribute auf andere Attribute und Zweifach-Interaktionen, ergibt sich aufgrund der perfekten linearen Abhängigkeiten eine vollständige Varianzaufklärung von 100 % (R 2  = 1). Anders gesagt, Haupteffekte und Zweifach-Interaktionen variieren nicht unabhängig voneinander.

Damit ist aber völlig unklar, was eigentlich geschätzt wird. Es kann sein, dass die von den Autoren präsentierten Regressionskoeffizienten (Czymara und Schmidt-Catran 2016, S. 193–227, Abb. 3) tatsächlich, wie beabsichtigt, nur den Effekt dieser Attribute messen. Eher messen die Koeffizienten jedoch wohl gemischte Einflüsse der Haupteffekten und konfundierten Interaktionen, ohne dass sich statistisch bestimmen ließe, wie stark die Koeffizienten nun welchen der beiden Effekte widerspiegeln (Effekte der Haupteffekte oder der konfundierten Interaktionen). An einem Beispiel erklärt: Der Koeffizient des Einwanderungslands misst neben dem Effekt des Landes zugleich und unvermeidlich den Effekt der mit ihm konfundierten Interaktion von Einwanderungsmotiv und Sprachkenntnissen (alle Franzosen, die wegen einem Arbeitsplatz einwandern, sprechen ja wie dargelegt gut Deutsch). Das Design bietet mit den wenigen Vignetten schlichtweg zu wenig unabhängige Varianz, um diese Effekte trennen zu können. Damit ist aber in Frage gestellt, ob sich die Ergebnisse wirklich so klar als Beleg für beispielsweise die Relevanz von Bildung und kultureller Nähe deuten lassen. Es kann ebenso gut sein, dass diese Attribute nur artifiziell große Effektstärken zeigen, weil die mit ihnen konfundierten Interaktionsterme von starkem Einfluss sind.

Untersuchungen mit ähnlichem, aber weniger restringierten faktoriellen Survey Designs sprechen schließlich dafür, dass Interaktionen zwischen den von den Autoren verwendeten Attributen von Relevanz sind (s. z. B. Diehl et al. 2018). Und auch inhaltlich scheint dies mitunter vor dem Hintergrund der von den Autoren herangezogenen Theorien sehr plausibel. Nach der Humankapitaltheorie kann man etwa davon ausgehen, dass nicht nur gute Qualifikationen, sondern zugleich gute Sprachkenntnisse für die Akzeptanz von Einwanderern wichtig sind. Ähnlich sind Interaktionen zwischen dem Herkunftsland und den Sprachkenntnissen zu erwarten.2

Üblicherweise würde man die Relevanz solcher Interkationen durch die zusätzliche Aufnahme in Regressionsmodelle prüfen, was es zugleich erlauben würde, die Haupteffekte unverzerrt zu schätzen. Aufgrund der starken Konfundierungen ist das im vorliegenden Fall aber nicht möglich. Einige Interaktionen lassen sich aufgrund perfekter linearer Abhängigkeiten schon gar nicht in die Modelle aufnehmen. Mit der Aufnahme anderer Interaktionen werden die Schätzergebnisse aufgrund der starken Multikollinearität sehr instabil, bis hin zu gedrehten Vorzeichen, die beispielsweise entgegen der Grundmodelle der Autoren nahelegen, dass Einwanderer aus dem Libanon sogar beliebter sein könnten als solche aus Frankreich (Stata do-files zum Nachvollzug dieser Schätzprobleme und Regressionstabellen mit den eben beschriebenen Ergebnissen sind ebenfalls im Online-Anhang verfügbar). Man mag nun argumentieren, dass Ergebnisse einer stärkeren Akzeptanz von Libanesen weniger plausibel sind. Mit einer solchen Argumentation (man wähle einfach das Modell, was einem theoretisch die plausibelsten Ergebnisse produziert) braucht man dann aber auch eigentlich gar keine empirischen Studien mehr durchzuführen. Und es bleibt das Problem, dass Modelle in jedem Fall fehlspezifiziert sind, wenn relevante Interaktionsterme fehlen.

3 Fazit

Die von CSC geschätzten Effekte und entsprechend die aus ihrem Beitrag gezogenen Schlussfolgerungen sind nur korrekt, wenn Interaktionen zwischen den verwendeten Attributen vernachlässigbar sind. Wie dargelegt, ist dies in theoretischer wie empirischer Hinsicht unplausibel. Je stärker der Einfluss von Interaktionen, desto stärker die Verzerrungen der geschätzten Hauptefffekte und umso fehlgeleiteter sind entsprechend die im Beitrag vorgelegten Interpretationen der Daten. Leider gibt es keine Möglichkeiten, ein experimentelles Design mit zu wenig unabhängiger Varianz nach einer Datenerhebung zu reparieren. Künftigen Anwendern von faktoriellen Survey-Experimenten sei daher an der Stelle dringend empfohlen, auf reine Haupteffekte-Designs zu verzichten und stattdessen durch eine höhere Anzahl an Vignetten und mittels lediglich Konfundierungen von tatsächlich vernachlässigbaren Interaktionen (höherer Ordnung) den Informationsgehalt ihrer Designs zu erhöhen (für einschlägige Methodenliteratur zu diesen Aspekten s. z. B. Atzmüller und Steiner 2010; Auspurg und Hinz 2015; Dülmer 2007, 2015). So hätte man etwa im vorliegenden Fall die 192 Vignetten auf 24 Fragebogenversionen (Decks) à 8 Vignetten aufteilen können, womit alle Effekte zumindest über unterschiedliche Befragte hinweg unabhängig voneinander schätzbar wären. Zudem sollten auftretende Konfundierungen in jedem Fall transparent für die Leser dargestellt werden. Jedes Experiment ist schließlich nur so gut wie sein Design, und eindeutig identifizieren lassen sich nur die Effekte solcher Faktoren, die komplett unabhängig voneinander variiert wurden. Faktorielle Survey-Experimente, bei denen nur eine kleine Fraktion aus dem Universum aller möglichen Vignetten zum Einsatz kommt, sind daher immer durch Fehlschlüsse aufgrund von problematischen Konfundierungen bedroht. Tückischerweise machen Korrelationstabellen lediglich der Haupteffekte diese Problem nicht sichtbar – eher im Gegenteil.

Fußnoten

  1. 1.
  2. 2.

    Einwanderer aus Frankreich dürften fehlende Deutschkenntnisse oftmals mittels ebenfalls gut auf dem Arbeitsmarkt verwertbaren Englischkenntnissen ausgleichen können. Ähnliches kann man Einwanderern aus Kenia unterstellen, da dort Englisch eine der beiden Amtssprachen ist (und gängige Unterrichtssprache in Schulen). Wer dagegen aus dem Libanon kommend ausschließlich Arabisch (und kein Deutsch) spricht, dürfte sich dagegen selbst bei guten Bildungsqualifikationen kaum einfach in den deutschen Arbeitsmarkt integrieren lassen.

Notes

Danksagung

Ein besonderer Dank gilt Josef Brüderl und Thomas Hinz sowie einem anonymen Gutachtenden und den Herausgebenden der KZfSS für hilfreiche Rückmeldungen zu einer früheren Version dieses Beitrags. Verbleibene Unzulänglichkeiten sind allein der Autorin anzulasten.

Literatur

  1. Atzmüller, Christiane, und Peter M. Steiner. 2010. Experimental vignette studies in survey research. Methodology: European Journal of Research Methods for the Behavioral and Social Sciences 6:128–138.CrossRefGoogle Scholar
  2. Auspurg, Katrin, und Thomas Hinz. 2015. Factorial survey experiments. Thousand Oaks, CA: Sage.CrossRefGoogle Scholar
  3. Czymara, Christian S., und Alexander W. Schmidt-Catran. 2016. Wer ist in Deutschland willkommen? Eine Vignettenanalyse zur Akzeptanz von Einwanderern. Kölner Zeitschrift für Soziologie und Sozialpsychologie 68:193–227.CrossRefGoogle Scholar
  4. Diehl, Claudia, Thomas Hinz und Katrin Auspurg. 2018. Who is afraid of skilled migrants from Europe? Exploring support for immigration control in Switzerland. Swiss Journal of Sociology 44 (i.E.).Google Scholar
  5. Dülmer, Hermann. 2007. Experimental plans in factorial surveys. Random or quota design? Sociological Methods and Research 35:382–409.CrossRefGoogle Scholar
  6. Dülmer, Hermann. 2015. The factorial survey: Design selection and its impact on reliability and internal validity. Sociological Methods and Research, Online First.CrossRefGoogle Scholar
  7. Hainmueller, Jens, und Daniel J. Hopkins. 2014. The hidden American immigration consensus: A conjoint analysis of attitudes toward immigrants. American Journal of Political Science 59:529–548.CrossRefGoogle Scholar
  8. Hainmueller, Jens, Dominik Hangartner und Teppei Yamamoto. 2015. Validating vignette and conjoint survey experiments against real-world behavior. Proceedings of the National Academy of Science 112:2395–2400.CrossRefGoogle Scholar
  9. Helbling, Marc, und Hanspeter Kriesi. 2014. Why citizens prefer high- over low-skilled immigrants. Labor market competition, welfare state, and deservingness. European Sociological Review 30:595–614.CrossRefGoogle Scholar
  10. Jasso, Guillermina. 1988. Whom shall we welcome? Elite judgments of the criteria for the selection of immigrants. American Sociological Review 53:919–932.CrossRefGoogle Scholar
  11. Rossi, Peter H., und Andy B. Anderson. 1982. The factorial survey approach: An introduction. In Measuring social judgments: The factorial survey approach, Hrsg. Peter H. Rossi und Steven L. Nock, 15–67. Beverly Hills: Sage.Google Scholar
  12. Wallander, Lisa. 2009. 25 Years of factorial surveys in sociology: A review. Social Science Research 38:505–520.Google Scholar

Copyright information

© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2018

Authors and Affiliations

  1. 1.Institut für SoziologieLudwig-Maximilians-Universität MünchenMünchenDeutschland

Personalised recommendations