Advertisement

Empirisch-statistische Analyse

Chapter
  • 4.4k Downloads

Auszug

In den nachfolgenden Abschnitten werden zentrale theoretische Annahmen der in Abschnitt 2 und 3 diskutierten und entwickelten theoretischen Modelle empirisch überprüft. Hierzu werden Hypothesen im Gegenstandsbereich individuellen Geldspendens an soziale Hilfsorganisationen für Entwicklungshilfe und soziale Wohltätigkeit formuliert und anhand empirisch-statistischer Analysen getestet. Die zentralen theoretischen Annahmen betreffen (a) das generische „duale“ Prozessmodell der Einstellungs-Verhaltens-Forschung als „theoretisches Ergebnis“ von Abschnitt 2 sowie (b) das handlungstheoretische Modell der Frame-Selektion in seiner Ursprungsform nach Esser (Abschnitt 3.3.2.1), die modifizierte MdFS-Variante nach Kroneberg (Abschnitt 3.3.2.3) sowie das MdFSE (Abschnitt 3.3.2.4).

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Literatur

  1. 135.
    Die Stichprobe wurde nach dem Gabler-Häder-Verfahren gezogen (vgl. Gabler/ Häder 1997: 7ff; Gabler/Häder 1999: 45ff). Dieses Verfahren basiert auf einer Zufallsauswahl von Privathaushalten mit Telefonanschlüssen unter Berücksichtigung der im Telefonbuch nicht eingetragenen Haushalte. Auf der zweiten Stufe wurde schließlich die Zielperson im ausgewählten Haushalt mittels der „Last Birthday Methode“ ausgewählt. Die Grundgesamtheit bildet die deutschsprachige Wohnbevölkerung in Deutschland mit Telefonanschluss ab einem Alter von 18 Jahren.Google Scholar
  2. 141.
    So schreibt Bengt Muthén, Entwickler der Statistiksoftware Mplus, im Diskussionsforum auf der offiziellen Homepage von Mplus (www.statmodel.com): „In more recent work, we conclude that perhaps 1.0 is a better cutoff than 0.9.“ (B. Muthén am 15.11.2001). Ein Problem der Interpretation des WRMR ist dabei, dass dieser einen Wertebereich von null bis unendlich aufweist (im Unterschied zu den übrigen vorgestellten Fit-Indices mit einem normierten Wertebereich von 0 bis 1), sodass unklar ist, wie weit z.B. der WRMR-Wert „1,3“ von „1,0“ weg ist, d.h. wie „schlecht“ dann der Fit ist. Für den WRMR liegen bislang zudem weniger Erfahrungen vor als für die anderen genannten Fit-Indices, sodass der WRMR mit gegebener Vorsicht zu interpretieren ist — insbesondere dann, wenn die Schwellenwerte nur im Bereich der zweiten oder dritten Kommastelle verfehlt werden.Google Scholar
  3. 145.
    Signifikanztests sind auch aus wissenschaftstheoretischer Perspektive essenziell für die Sozialwissenschaften, da diese mangels Alternativen stets eine spezielle Form nicht-deterministischer Gesetze bzw. induktiver Erklärungen anwenden: eine Erklärung mittels statistischer Gleichung und Irrtumsvariablen (vgl. Opp 2002). Aufgrund dieser Irrtumsvariablen ist kein deduktiver Schluss möglich. Signifikanztests lassen jedoch Falsifikationsversuche der Nullhypothese zu (mit einer gewissen Irrtumswahrscheinlichkeit). Diese Form von nicht-deterministischer Erklärung inklusive Verwendung von Signifikanztests nähert sich einer deduktiv-nomologischen Erklärung zudem sehr schnell an, wenn in Betracht gezogen wird, dass alle Beobachtungssätze nach Popper stets hypothetisch und falsifizierbar sind. Insofern hat auch jede deduktiv-nomologische Erklärung in der Forschungspraxis bei Hypothesentests stets eine gewisse Irrtumswahrscheinlichkeit.Google Scholar
  4. 146.
    Die Monte Carlo Simulationen werden nachfolgend stets in zwei Schritten durchgeführt (vgl. Muthén/ Muthén 2006: 294ff). Im ersten Schritt werden die ermittelten Schätzwerte mittels der Anweisung „estimates“ (Unterpunkt der Option „savedata“) als Populationsparameter abgespeichert. Diese Schätzwerte können dann in einem zweiten Schritt schnell und fehlerlos in der Monte Carlo Simulation automatisiert eingelesen werden. Die Option „estimates“ erfordert jedoch die Schätzung mit „meanstructure“ bei der ML-Schätzung sowie die theta-Parameterisierung (mit Messfehlervarianzen) anstatt der default-mäßigen und bei Multigruppenanalysen von Muthén/Muthén (2006: 335, 469) empfohlenen delta-Parameterisierung (mit sog. „Scale Factors“) bei der kategorialen WLSMV-Schätzung. Dies hat zur Folge, dass sich die ML-und MLMV-Schätzungen der unstandardisierten und standardisierten Pfadkoeffizienten von denjenigen mit meanstructure im Bereich der dritten Kommastellen unterscheiden können, was inhaltlich jedoch vernachlässigt werden kann. Bei der WLSMV-Schätzung unterscheiden sich zwar die unstandardisierten Koeffizienten zwischen der theta-und delta-Parameterisierung zum Teil auch im Bereich der ersten oder zweiten Kommastelle, die Standardfehler betrifft dies aber in gleichem Maße, sodass die Signifikanztests im Ergebnis wieder sehr nahe beieinander liegen und sich inhaltlich keine anderen Ergebnisse zeigen. Zudem sind die standardisierten Effektstärken bei der theta-und delta-Parameterisierung nahezu identisch mit Abweichungen im Bereich der dritten Kommastelle, sodass sich die Teststärken bei theta-und delta-Parameterisierung gleichen. Diese Übereinstimmung der Schätzwerte beider Parameterisierungen trifft in dieser Arbeit auf alle WLSMV-Analysen zu bis auf diejenige in Abschnitt 4.7. Daher wird dort die Powerschätzung mittels delta-Parameterisierung durchgeführt, bei der nicht-automatisiert alle Populationsparameter „per Hand“ eingegeben werden. Da aufgrund der berichteten geringfügigen Abweichungen auch minimale Schwankungen bei den Teststärken im Bereich der dritten Kommastelle zu erwarten sind, werden die Teststärken auf die zweite Kommastelle gerundet berichtet. Ihre inhaltliche Aussagekraft wird davon nicht beeinträchtigt.Google Scholar
  5. 147.
    Vgl. Mayerl/ Urban (2008) für eine ausführliche Erläuterung der Messung und Datenbehandlung von Antwortreaktionszeiten in Survey-Studien.Google Scholar
  6. 148.
    In CAPI-Studien wurden Reaktionszeitmessungen z.B. von Fazio/ Williams (1986) und Stocké (2002c, 2003, 2006; Stocké/Langfeldt 2003) angewandt.Google Scholar
  7. 149.
    Neben der aktiven Zeitmessung durch die Interviewer setzte Bassili (1996b) auch den sog. „voicekey“ ein, der auf eine bestimmte Dezibellautstärke des Befragten reagiert und die Zeitmessung automatisch beendet. Neben dem apparativen Aufwand dieser Messung ist ihr größtes Problem, dass der voice-key ebenso auf inhaltliche Antworten wie auf Husten, Räuspern, Lachen etc. reagiert. Auch ein zu leises Sprechen der Befragten kann ein Problem sein. Insgesamt berichtet Bassili (1996b) ca. 60 % gültige Messungen des voice-key sowie ca. 90 % gültige Messungen durch die Interviewer. Die Korrelation zwischen der aktiven Messung und derjenigen des voice-key beträgt in der Studie von Bassili/Fletcher (1991) r = 0,94, was auf eine hohe Reliabilität hinweist. Aufgrund der theoretischen überlegungen und der empirischen Ergebnisse schlussfolgern die Autoren, dass die „[...] adjusted interviewer latencies can be just as powerful in hypothesis testing as voice-key latencies.“ (Bassili/ Fletcher 1991: 343). Aufgrund des hohen technischen und finanziellen Aufwands wendeten auch Bassili und Fletcher in neueren Studien (z.B. Bassili 2000; Fletcher 2000) den voice-key nicht mehr an und setzten ausschließlich die aktiven Zeitmessungen ein. Daher kam auch bei den Antwortreaktionszeitmessungen der vorliegenden Studie kein voice-key zum Einsatz.Google Scholar
  8. 150.
    Bei der Interpretation von Antwortreaktionszeit als die chronische Zugänglichkeit mentaler Objekte bzw. Assoziationsstärke zwischen einem Objekt und ihrer Bewertung liegt mittlerweile eine Vielzahl von Anwendungen unterschiedlicher sozialwissenschaftlicher Konstrukte vor. Neben der Zugänglichkeit von Einstellungen (z.B. Bassili/ Fletcher 1991; Brömer 1999; Fazio 1986, 1989, 1990a; Stocké 2006) wurde Antwortreaktionszeit als die kognitive Zugänglichkeit von Vorurteilen (Devine et al. 2002; Neumann et al. 1998; Neumann/Seibt 2001), Stereotypen (Moskowitz et al. 1999), persönlichen Stärken und Schwächen (Dodgson/Wood 1998), Parteiidentifikationen (Grant et al. 2000; Huckfeldt et al. 1999), beliefs (Ajzen et al. 1995), Präferenzen (Aaker et al. 1980; Huckfeldt et al. 1998), Wissen (Naumann/Richter 2000), Intentionen (Bassili 1995; Doll/Ajzen 1992; Goschke/Kuhl 1993; Mayerl/Urban 2007), wahrgenommener Verhaltenskontrolle (Doll/Ajzen 1992), sozialen Werten (Dehue et al. 1993), Umwelt-Hinweisreizen (Aarts et al. 1999) und kognitiven und affektiven Komponenten von Einstellungen (Verplanken et al. 1998) interpretiert.Google Scholar
  9. 151.
    CATI-Bevölkerungsumfragen werden stets mit mehreren Interviewern durchgeführt, die sich ebenfalls in ihren „Basisgeschwindigkeiten“ beim Durchführen der Zeitmessungen unterscheiden. Die Basisgeschwindigkeit kann daher auch als additives Modell aus der Basisgeschwindigkeit des Befragten sowie derjenigen des jeweiligen Interviewers begriffen werden (Mayerl 2003, 2005; Mayerl et al. 2005; Urban et al. 2007). Da mit der Erhebung und Kontrolle der Basisgeschwindigkeiten immer auch die durch unterschiedliche Interviewer hervorgerufenen Reaktionszeitdifferenzen erfasst werden, kann auf eine separate Kontrolle von Interviewereffekten verzichtet werden (vgl. hierzu empirisch Mayerl 2005; Mayerl et al. 2005; Urban et al. 2007).Google Scholar
  10. 152.
    Eine weitere Möglichkeit besteht darin, aufwändige und unaufwändige Fragen zu kombinieren oder z.B. den Durchschnitt bei allen Fragen zu berücksichtigen (vgl. Mayerl et al. 2005).Google Scholar
  11. 154.
    Dass die Kombination aus Interviewervalidierung und outlier-Bereinigung sinnvoll ist, konnte im o.g. Forschungsprojekt ARIS gezeigt werden (vgl. Mayerl/ Urban 2008; Urban et al. 2007). Nur ca. 10–20 % derjenigen Fälle, die von der Interviewervalidierung als ungültig identifiziert wurden, werden auch von der outlier-Bereinigung als ungültig identifiziert. Das heißt, dass ca. 80–90 % der von Interviewern als ungültig ausgewiesenen Fälle nicht durch die outlier-Bereinigung identifiziert werden. Und ca. 30–60 % derjenigen Fälle, die durch die outlier-Bereinigung als ungültig identifiziert werden, werden auch von der Interviewervalidierung als ungültig identifiziert. Dies heißt, dass ca. 40–70 % der outlier-Fälle nicht durch die Interviewervalidierung identifiziert werden.Google Scholar
  12. 156.
    Vgl. z.B. Aarts et al. 1999; Bargh/Chartrand 2000; Brömer 1999; Dehue et al. 1993; Devine et al. 2002; Dodgson/Wood 1998; Fazio 1990b; Freedman/Lips 1996; Hertel et al. 2000; Huckfeldt et al. 1998; Huckfeldt et al. 1999; Johnson et al. 2002; Knowles/Condon 1999; Kreuter 2002; Mussweiler/Bodenhausen 2002; Neumann/Strack 2000; Smith et al. 1994; Tormala/Petty 2001. Da manche Latenzzeit-Indices, so auch der Residual-Index, Werte kleiner oder gleich Null aufweisen (s.o.) und der natürliche Logarithmus Werte größer Null erfordert, muss in diesen Fällen bei der Logarithmierung jeder Latenzzeitwert mit einer Konstante addiert werden.Google Scholar
  13. 173.
    Ein exploratives empirisches Ergebnis leitet sich zudem aus den in Anhang A6 berichteten Effekten der subjektiven Norm auf die Verhaltensintention ab, zu denen keine Hypothesen formuliert wurden, da das generische Prozessmodell nur Aussagen über die Einstellungs-Verhaltens-Relation macht: Bei allen drei Schätzverfahren ist der Effekt der subjektiven Norm in der Gruppe „spontan und hohe Zugänglichkeit“ nicht-signifikant (p>0,10), während er in den anderen drei Gruppen hoch signifikant (stets p ≤ 0,05) und in der Effektstärke in etwa gleich hoch ist. Bei hoher direkter Erfahrung mit dem Objekt und spontanem Prozessieren wird demnach alleine die Einstellung berücksichtigt bei der Ausbildung einer Intention. Bei niedriger direkter Erfahrung wird die Norm hingegen unabhängig vom Modus stets mitberücksichtigt. Und bei überlegtem Prozessieren übt demnach die Norm stets einen Effekt aus, unabhängig von der direkten Erfahrung. Dies zeigt einmal mehr, dass sich die subjektive Norm anders verhält als die Einstellung und normatives Handeln nicht mit einem automatisch-spontanem Prozessieren verbunden sein muss, wie Esser (2005) dies vorsieht (vgl. zur modusspezifischen Wirkung von Normen auch Smith/Terry 2003; Terry et al. 2000; Urban/Mayerl 2007b). Eine mögliche Begründung der vorliegenden Befunde könnte auch sein, dass die Zugänglichkeit von Normen nicht dieselben Bestimmungsfaktoren aufweist wie diejenige der Einstellung (hier: direkte Erfahrung mit dem Objekt), sodass sich das hier verwendete Zugänglichkeitsmaß alleine auf die Einstellung, aber nicht auf die Norm wie erwartet auswirkt.Google Scholar
  14. 176.
    Das äquivalenzgewichtete monatliche Haushalts-Netto-Einkommen berücksichtigt die Haushaltsgröße sowie das Alter der weiteren im Haushalt lebenden Personen (vgl. hierzu z.B. Klocke 2000). Dadurch kann mit einbezogen werden, wie viele Personen von dem gemeinsamen HH-Netto-Einkommen auskommen müssen. Bei der Berechnung des Äquivalenzgewichts wird davon ausgegangen, dass für Kinder weniger Bedarf am HH-Netto-Einkommen anfällt als für weitere erwachsene Haushaltsmitglieder. Mit diesem Einkommensma zum ungewichteten HH-Netto-Einkommen deutlich besser berücksichtigt werden, wie viel Geld Personen im Monat in etwa zur Verfügung haben — und das heißt hier: ob die Geldspendesituation eine Hoch-oder Niedrigkostensituation ist. Nachfolgend wird das Bedarfsgewicht nach der neuen OECD-Skala (z.B. Engels 2005; Noll/Weick 2005) ermittelt. Dabei geht die erste erwachsene Person im Haushalt im Alter ab 18 Jahren mit einem Gewicht von 1,0, jede weitere Person ab 14 Jahren mit einem Gewicht von 0,5 und jedes Kind unter 14 Jahren mit einem Gewicht von 0,3 in die Berechnungen ein. Das äquivalenzgewichtete HH-Netto-Einkommen ergibt sich dann durch den Quotienten aus dem HH-Netto-Einkommen und dem Äquivalenzgewicht des Haushaltes. Die neue OECD-Skala wird jedoch in der Literatur uneinheitlich verwendet. So findet sich neben der Regel „ab 14“ häufig auch die Regel „ab 15“ (vgl. zur Diskussion Engels 2005: 4f). Nachfolgend wird der oben dargestellten Operationalisierung nach Engels (2005) und Noll/Weick (2005) gefolgt.Google Scholar
  15. 192.
    Vgl. folgende Überblicksartikel über jeweils etliche empirische Studien zur Bedeutung von Motivation und Möglichkeit für den Elaborationsgrad: Chaiken (1987) im Kontext des HSM, Petty/ Wegener (1999) für das ELM und Fazio/Towles-Schwen (1999) im Kontext des MODE-Modells.Google Scholar
  16. 196.
    Ein solcher Einsatz von Speed-Accuracy-Anweisungen ist in der Einstellungsforschung keineswegs neu. So verwenden beispielsweise Gordon/ Anderson (1995) zur situativen Variation des Zeitdrucks ebenfalls speed-Anweisungen. Im Effekt weisen Gordon/Anderson (1995) bei Rassismus-Fragen nach, dass bei einer sehr starken speed-Anweisung die Antworten stärker auf Stereotypen basierten als bei Instruktionen, die weniger bzw. keinen Zeitdruck ausübten. Speed-Anweisungen als Zeitdruckbedingung haben sich demnach bereits in der Literatur als brauchbar erwiesen.Google Scholar
  17. 199.
    Ein methodischer Befund dieser Ergebnisse ist, dass bei der Kombination aus „speed“-und „accuracy“-Anweisungen, die z.B. Fazio (1990b) für Reaktionszeitmessungen empfiehlt, die speed-Anweisung dominiert und Personen nicht motivierter sind sowie unter gleichem Zeitdruck stehen im Vergleich zu reinen speed-Anweisungen. Eine generelle Bevorzugung der kombinierten Anweisung für Reaktionszeitmessungen kann daher keineswegs grundsätzlich empfohlen werden, wie dies Fazio (1990b) vorsieht (vgl. hierzu auch Mayerl/Urban 2008; Urban et al. 2007).Google Scholar
  18. 204.
    In der ANOVA sind die Ergebnisse für Elaborationsselbstreport und Antwortlatenzzeit hoch signifikant mit p ≤ 0,01, sodass die inhomogenen Varianzen beider Maße (p ≤ 0,01) angesichts des 1 %-Signifikanzniveaus der ANOVA akzeptiert werden können (vgl. Bühl/Zöfel 1998: 369) (logarithmierter Latenzzeitindex: F = 7,614; df = 2; p = 0,001; arithmetische Mittel: „accuracy“: 6,217; „speed“: 6,176; „speed und accuracy“: 6,175; Elaborationsselbstreport: F = 5,610; df = 2; p = 0,004; arithmetische Mittel: „accuracy“: 2,52; „speed“: 2,15; „speed und accuracy“: 2,27). Auch bei einem nicht-parametrischen Kruskall-Wallis-Test sind die Differenzen signifikant auf mindestens 5 % Signifikanzniveau. Lediglich beim Median-Test ist das Signifikanzniveau beim Latenzzeitindex auf 6 % Signifikanzniveau anzuheben, während bei der Selbstreport-Messung auch hier das Signifikanzniveau von 5 % erfüllt wird. Insgesamt betrachtet zeigen diese Ergebnisse jedoch deutlich, dass beide Elaborationsmaße wie erwartet auf die Instruktionen reagieren und in dieser Hinsicht valide sind.Google Scholar
  19. 206.
    So liegen bei den nachfolgend vorgestellten SEM-Analysen die Korrelationen zwischen den Interaktionstermen und den Haupteffekten stets auf einem Niveau von r < 0,5, sodass das Multikollinearitätsproblem als gering eingestuft werden kann (vgl. Urban/ Mayerl 2006: Kapitel 4.5).Google Scholar
  20. 212.
    Die in Abschnitt 2.2.1.1 erläuterte problematische Stellung von Normen, die empirisch in beiden Modi der Informationsverarbeitung für die jeweiligen Selektionsprozesse von Bedeutung zu sein scheinen, betrifft die folgenden Frame-Analysen („Einstellungen versus Normen“) nicht, da ausschließlich der spontane Modus betrachtet wird, bei dem — auch empirisch nachgewiesen (vgl. z.B. Urban/ Mayerl 2007b) — Normen und Einstellungen als „spontane Frames“ wirken können.Google Scholar
  21. 213.
    Ein solches Vorgehen mit Latenzzeit als Match-Indikator wird auch von Kroneberg (2005a: 358, FN 11) explizit vorgeschlagen. Dass sich die Latenzzeit auch bereits als proximales Zugänglichkeitsmaß aller möglichen Urteile empirisch bewährte, wurde in Abschnitt 4.2.3 dargestellt.Google Scholar
  22. 218.
    Da in dieser Analyse die Fallzahl mit N = 384 nicht sehr hoch ist, könnte auch die Teststärke des Differenzentests nicht ausreichend sein. Eine Teststärkeanalyse der RMSEA-Differenzen auf Grundlage der Arbeiten von MacCallum et al. (1996, 2006) und der darauf basierenden Online-Computer-Software von Preacher/Coffman (2006) zeigt dann auch, dass die Teststärke bei der ML-Schätzung hier nur 0,52 anstatt den geforderten 0,80 beträgt (bei einem Fehler erster Art von 5 %). Da die Freiheitsgrade bei der WLSMV-und MLMV-Schätzung geschätzt werden, kann diese Poweranalyse bei diesen Schätzverfahren nicht durchgeführt werden. Gleichwohl ist anzunehmen, dass die Teststärke bei der MLMV-Schätzung sehr ähnlich mit derjenigen der ML-Schätzung ist, da auch die Teststärken der Pfadkoeffizienten nahezu identisch sind. Die Teststärke bei WLSMV ist uninteressant, da hier die Differenz ja auf 5 %-Signifikanzniveau signifikant ist. Da die berichtete Teststärke deutlich unter dem Schwellenwert von 0,80 liegt, kann daher auch gerechtfertigt werden, das Signifikanzniveau auf 10 % anzuheben. In diesem Fall trifft dann auch bei den ML-und MLMVSchätzungen zumindest für den VE-Effekt die Testbedingung TB-c klar zu.Google Scholar

Copyright information

© VS Verlag für Sozialwissenschaften | GWV Fachverlage GmbH, Wiesbaden 2009

Personalised recommendations