Gütekriterien

Kreuter, Frauke

doi:10.1007/978-3-663-10562-6_4

Gütekriterien

Frauke Kreuter²

Chapter

377 Accesses

Part of the book series: Methodische Aspekte kriminologischer Forschung ((MAKF,volume 1))

Zusammenfassung

Kriminalitätsfurcht wird in der Regel mit Hilfe von Einstellungsfragen in Form von standardisierten Surveys gemessen (vgl. Kapitel 3). Die Ergebnisse dieser Messungen unterscheiden sich zwischen verschiedenen Surveys zum Teil erheblich, und nicht selten kommt es zu widersprüchlichen Resultaten. Dies legt den Verdacht nahe, dass Kriminalitätsfurcht mit Hilfe dieser Survey-Fragen nicht gemessen wurde oder möglicherweise gar nicht gemessen werden kann. In Kapitel 2 wurde bereits die Vermutung formuliert, dass sich Kriminalitätsfurcht im einfachsten Fall aus der Wahrnehmung des eigenen Risikos und den mit einer möglichen Viktimisierung verbundenen Kosten ergibt. Die Antwort auf die Frage zur Kriminalitätsfurcht würde einen kognitiven Prozess erfordern, den die Befragten möglicherweise nicht leisten wollen oder können und der — falls sie ihn leisten wollen — Störeffekten der Befragungssituation unterliegen kann.

This is a preview of subscription content, log in via an institution.

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 49.99; Price excludes VAT (USA)

Softcover Book: USD 64.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Learn about institutional subscriptions

Preview

Unable to display preview. Download preview PDF.

Literatur

Bereits bei Rugg und Cantril (1944: 48–49) findet sich der Hinweis darauf, dass Antwortfehler weniger wahrscheinlich sind, wenn die Personen eindeutige Beurteilungsstandards besitzen.
Google Scholar
Hätte eine kontinuierliche Veränderung der Einstellung stattgefunden, müsste der Zusammenhang zwischen der Einstellung zum ersten Messzeitpunkt und den Einstellungen zu den folgenden Messzeitpunkten zunehmend schwächer werden.
Google Scholar
Zur Entdeckung der „equal probability“—Strategie müssten zum Beispiel eine Reihe von Fragen eine ähnliche Einstellung abfragen und unter Annahme einer vorhandenen Einstellung auch ähnlich beantwortet werden. Zur Entdeckung des „positive-response-set” ist es genau umgekehrt. Hier sollten zumindest einige Fragen bei Zustimmung konträre Einstellungen widerspiegeln.
Google Scholar
Im gleichen Zusammenhang werden auch die Begriffe „schema“ oder „frame” verwendet (Turner/Martin 1984:291).
Google Scholar
Schuman und Presser (1981) berichten, dass der Anteil derer, die eine „weißnicht“-Kategorie wählen um 14 Prozentpunkte niedriger ist als bei der Anwendung eines „weiß-nicht”-Filters.
Google Scholar
Ohne die Präsentation einer „weiß-nicht“-Option scheinen vor allem Befragte niedrigerer Bildungsschichten dazu zu neigen, irgendeine Antwort zu geben. Schuman und Presser (1981: 159) stellten jedoch fest, dass dieser Effekt bei der Hinzugabe von Filtern oder speziellen Kategorien verschwindet. Knäuper u. a. (1997) sehen diesen Effekt vor allem durch kognitive Fähigkeiten hervorgebracht. Er tritt bei schwierigen Fragen besonders stark auf. Frageschwierigkeit wird von ihnen über Fragelänge, Instruktionen und Uneindeutigkeiten operationalisiert, sowie über den Fragetyp, d. h. ob es sich um Retrospektiv-oder Häufigkeitsfragen handelt, ob nach numerischen Größen gefragt wird und welches Format die Antwortskalen besitzen.
Google Scholar
Zum Beispiel bei einer Likert-Skala immer die Kategorie 2 zu wählen, oder immer „Ja“ zu sagen, egal ob dies eine Zustimmung oder Ablehnung bedeutet.
Google Scholar
In der Methodenliteratur sind solche Effekte unter dem Stichwort „Akquieszenz” zu finden.
Google Scholar
Solche Effekte ließen sich zum Beispiel bei Zufriedenheits-und Einstellungsfragen im Sozio-ökonomischen Panel (SOEP) finden (vgl. Schräpler 1997).
Google Scholar
Innes (1977: 10) verwendet pti für den Anteil der Antworten. Hier wurde _pi durch ai ersetzt, um eine Verwechslung mit den von Blau (1977) verwendeten Anteilen zu vermeiden.
Google Scholar
Diese Interpretation setzt voraus, dass alle Items in der gleichen Richtung kodiert sind. Das heißt, werden bei langen Item-Batterien Items gedreht, um die Aufmerksamkeit der Befragten zu erhöhen oder Aufmerksamkeitsdefizite zu entdecken, dann müssen sie vor Beginn der Analyse an die anderen Items entsprechend angepasst werden.
Google Scholar
Die Anzahl der Differenzen ergibt sich aus n(n — 1)/2.
Google Scholar
Eine Aufstellung von verschiedenen Kontexteffekten findet sich zum Beispiel bei Schwarz/Seymour (1992).
Google Scholar
Vgl. unter anderem Schuman/Presser (1981), Molenaar (1982), Jobe/Mingay (1991).
Google Scholar
Zu Effekten der Itempolung auf das Antwortverhalten vgl. Matschinger/Angermeyer (1992).
Google Scholar
Eines der klassischen Beispiele dafür ist die Nennung der Zahl 1, wenn die Probanden aufgefordert werden die „erste“ Zahl zu nennen, die ihnen in den Sinn kommt. Referenzen für derartige Experimente finden sich bei Strack (1992).
Google Scholar
Für die Untersuchung der Anfälligkeiten dieser Frage vgl. auch Fox/Kahneman (1992), Smith (1992) und Landua (1993).
Google Scholar
Kontexteffekte durch Fragen anderer Themengebiete scheinen hingegen eher selten aufzutreten (vgl. Smith 1992: 174).
Google Scholar
Die in Abschnitt 4.2.3 angesprochenen messtheoretischen Überlegungen müssen jedoch auch hier berücksichtigt werden.
Google Scholar
Eine Variante dieser Art experimenteller Variation bietet das von Saris und Batista-Foguet durchgeführte Experiment zur Untersuchung der Einstellungsstabilität bezogen auf die Rolle der Frau in der Gesellschaft (Batista-Foguet/Saris 1997).
Google Scholar
Zu beachten ist auch, dass die Befragten sich während des Interviews eine Meinung bilden könnten und diese dann stabil äußern, so dass möglicherweise bei der ersten Messung noch keine Meinung vorhanden war, die Antworten einer zweiten und dritten Messung jedoch stabil sind (vgl. Batista-Foguet/Saris 1997: 274).
Google Scholar
Zur klassischen Testtheorie vgl. z. B. McDonald ( 1999: 64 ).
Google Scholar
Oder um eine Veränderung durch einen induzierten Stimulus, wie bei dem im vorherigen Abschnitt erwähnten Experiment von Batista-Foguet und Saris (1997).
Google Scholar
Sie wendeten diese Technik in den Umfragen zur Präsidentschaftswahl in den Vereinigten Staaten im Jahr 1984 an (vgl. Fazio/Williams 1986).
Google Scholar
Es handelte sich um eine Untersuchung bei der „Ontario 1990 Provincial Election“ (vgl. Bassili 1993 ).
Google Scholar
Zur Diskussion der psychologischen Hintergründe von Reaktionszeitmessungen vergleiche Luce (1986).
Google Scholar
Trotz dieser Schwierigkeiten sprechen Bassili und Fletcher ( 1991: 343) dieser Technik eine höhere Präzision zu. Dazu muss angemerkt werden, dass in dem von Bassili und Fletcher (1991) durchgeführten experimentellen Vergleich ein einziger Interviewer 410 Zielpersonen kontaktierte und 246 Interviews durchführte. Von Bassili und Fletcher (1991: 334 und 343) wird dies als Vorteil dargestellt, da dieser Interviewer mit den technischen Aspekten der Messung vertraut war. Ein so hohes Arbeitspensum steht jedoch im Widerspruch zu jedweder Empfehlung der Survey-Forschung (vgl. Schnell 1998a ).
Google Scholar
Die Erfahrungen von Fazio (1990) deuten darauf hin, dass fünfstufige Skalen für Reaktionszeitmessungen noch ausreichend sensitiv sind.
Google Scholar
Die Salienz der Charakteristika wurde im Rahmen eines Pretests festgestellt. Bei der Beurteilung von Nutzen und Kosten bestimmter Freizeitaktivitäten wurden die Eigenschaften einer Freizeitaktivität als salient bezeichnet, die von mehr als 30 Prozent der 70 Probanden genannt wurden (Ajzen u. a. 1995: 1401 ).
Google Scholar
In der von Ajzen u. a. (1995: 1401) veröffentlichten Tabelle ist unter den salienten „beliefs“ der Reaktionszeitmittelwert von 0.91 abgedruckt. Dies muss jedoch ein Druckfehler sein. Der später im Text abgedruckte Mittelwert von 2.57 kann nur erreicht werden, wenn die Tabelle anstatt 0.91 den Wert 1.91 enthält. Da eine mittlere Reaktionszeit von unter einer Sekunde ungewöhnlich niedrig erscheint, wird hier als Minimum der Wert 1.91 präsentiert.
Google Scholar
Die im Rahmen der CATI-Erhebung (vgl. Abschnitt 5.3.1) durchgeführten Reaktionszeitmessungen wurden nur auf Grund einer Abstimmungsunklarheit in Zehntelsekunden gemessen und beinhalten zudem die Zeit, die der Interviewer zum Vorlesen der Frage benötigte. Diese Reaktionszeitmessung erlaubt zwar die Beurteilung der Gesamtdauer einzelner Fragen, sie können aber keine Information über die Dauer der Antwortgenerierung liefern. Die Reaktionszeitmessungen aus dieser Erhebung können deshalb nicht wie geplant ausgewertet werden. Die Auswertung der Reaktionszeitmessungen im empirischen Teil dieser Arbeit beziehen sich deshalb ausschließlich auf die im Rahmen der experimentellen Studien erhobenen Reaktionszeiten.
Google Scholar
Wenn alle Interviews von demselben Interviewer durchgeführt würden, würde der auf die Interviewer zurückzuführende Varianzanteil ebenfalls verschwinden — es besteht dann jedoch die oben erläuterte Gefahr einer systematischen Verzerrung aller Interviews.
Google Scholar
Als Beispiel sei hier das Ergebnis von Collins und Butcher (1982: 44) aufgeführt, die für den „UK Consumer Attitudes Survey 1979“ bei 20 Faktenfragen im Mittel einen Intervieweranteil an der Gesamtvarianz von 0.3% mit einer durchschnittlichen Zahl von 20 Interviews pro Interviewer berechneten und bei 20 Einstellungsfragen einen mittleren Anteil der Interviewer an der Gesamtvarianz von 0.9%. Zur Erklärung der Varianzanteile vgl. Abschnitt 4.2.5.2.
Google Scholar
Der Mittelwert des Interviewer-Intraklassenkorrelationskoeffizienten (vgl. Abschnitt 4.2.5.2) lag bei Faktenfragen bei 0.0098, bei Einstellungsfragen bei 0.0085.
Google Scholar
Vgl. dazu auch die Studie von Johnson u. a. (2000) zu Interviewereffekten bei Surveys zum Drogenkonsum, sowie die Studie von Siddiqui u. a. (1996).
Google Scholar
Zu diesem Mechanismus vgl. Esser (1986).
Google Scholar
Für den Allbus 1980 stellte Hermann (1983:247) fest, dass die Interviewereffekte geringer sind, je geringer die Priorität des Fragethemas für den Interviewer ist, und dass die Interviewereffekte größer sind, je geringer die Priorität des Fragethemas für den Befragten ist. Auch dieser Befund wird damit erklärt, dass die Befragten sich in solchen Fällen stark an den Signalen des Interviewers orientieren, die dieser nur sendet, wenn das Thema für ihn von Bedeutung ist (Hermann 1983: 243).
Google Scholar
Oder wenn bei diesen Faktenfragen unklare Begrifflichkeiten verwendet werden. Bailey u. a. (1978: 21) vermuten dies als Ursache für die beobachteten Interviewereffekte bei Fragen zu Überfällen.
Google Scholar
Zu den verschiedenen Möglichkeiten der Berechnung des Intraklassenkorrelationskoeffizienten vgl. McGraw/Wong (1996).
Google Scholar
Es stehen noch andere Möglichkeiten zur Schätzung von deff zur Verfügung. Siehe dazu Schnell (1997a: 67).
Google Scholar
Bei einer starken Variation der Zahl der Interviews pro Interviewer ersetzen Davis und Scott ( 1995: 100) das einfache arithmetische Mittel durch nl = E n?/n, wobei nti die Zahl der Befragten ist, die vom i-ten Interviewer interviewt wurden, und n = E n; die Zahl aller Respondenten angibt. Zu beachten ist, dass nl immer größer ist als der Wert für das durchschnittliche „workload” der Interviewer, wenn es mit Hilfe des einfachen arithmetischen Mittels berechnet wird. Dadurch wird nI bei einer größeren Streuung der einzelnen nz deutlich größer.
Google Scholar
Negative Design-Effekte sind theoretisch denkbar. Dies würde bedeuten, dass die Antworten auf die Interviews innerhalb eines Interviewers gleichmäßiger verteilt sind als bei einer Zufallszuweisung aller möglichen Interviews zu den Interviewern (vgl. Kish 1965: 163). In Klumpen mit sehr kleiner Fallzahl (z. B. n = 2) kann es zu solchen Effekten kommen.
Google Scholar
Diese Notation weicht etwas von der von Groves und Magilvay (1986) verwendeten ab, damit die Zuordnung zur „between-group variance“ und „within-group variance” deutlicher wird. Unter diesen Bezeichnungen werden die Varianzanteile in den Ergebnistabellen der meisten Statistiksoftwarepakete präsentiert.
Google Scholar
So weisen große Klumpen von Interviews in der Regel kleinere Werte für p auf (Kish 1965: 164).
Google Scholar
Es sind mehrere Typen von Klumpenstichproben denkbar. Ein Beispiel für eine „einstufige Klumpenstichprobe“ wäre die Auswahl von Schulen und danach die Auswahl von Schülern innerhalb der ausgewählten Schulen. Ein Beispiel für eine „mehrstufige Klumpenstichprobe” wäre die Auswahl von Schulen, innerhalb der Schulen die Auswahl einzelner Klassen und innerhalb der Klassen die Auswahl einzelner Schüler (vgl. Levy/Lemeshow 1999: 227 ).
Google Scholar
Die Stimmbezirksdatei des Bundeswahlleiters wird vor der Stichprobenziehung einigen Bearbeitungsschritten unterworfen. Nähere Erläuterungen zu dieser Vorgehensweise finden sich bei Behrens/Löffler (1999).
Google Scholar
Dies ist in der Bundesrepublik der Fall. Die Einwohnermelderegister sind dezentral organisiert und können somit nicht für eine einfache Zufallsstichprobe verwendet werden.
Google Scholar
Zur detaillierten Darstellung dieses Verfahrens vgl. Schnell u. a. (1999: 268–270) und Behrens/Löffler (1999).
Google Scholar

Download references

Author information

Authors and Affiliations

Konstanz, Deutschland
Frauke Kreuter

Authors

Frauke Kreuter
View author publications
You can also search for this author in PubMed Google Scholar

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Kreuter, F. (2002). Gütekriterien. In: Kriminalitätsfurcht: Messung und methodische Probleme. Methodische Aspekte kriminologischer Forschung, vol 1. VS Verlag für Sozialwissenschaften, Wiesbaden. https://doi.org/10.1007/978-3-663-10562-6_4

Download citation

DOI: https://doi.org/10.1007/978-3-663-10562-6_4
Publisher Name: VS Verlag für Sozialwissenschaften, Wiesbaden
Print ISBN: 978-3-8100-3477-9
Online ISBN: 978-3-663-10562-6
eBook Packages: Springer Book Archive

Publish with us

Policies and ethics