Item-Response-Theorie (IRT)

Moosbrugger, Helfried

doi:10.1007/978-3-540-71635-8_10

Item-Response-Theorie (IRT)

Helfried Moosbrugger Prof. Dr.²

Chapter

16k Accesses
1 Citations

Part of the book series: Springer-Lehrbuch ((SLB))

Auszug

Entgegen einer oft zu hörenden Auffassung ist die Item-Response-Theorie (IRT) ² (Lord, 1980; Hambleton & Swaminathan, 1985; Fischer, 1996) nicht als Alternative zur Klassischen Testtheorie (KTT) (s. Moosbrugger, 2007a, ▸ Kap. 5 in diesem Band) aufzufassen, sondern besser als Ergänzung. Der KTT sind große Verdienste in der Psychodiagnostik zuzuschreiben: Mit ihrer Hilfe ist es möglich, auf Basis der Reaktionen in mehreren Items die wahre Ausprägung (true score) des zu erfassenden Merkmals zu schätzen und die Messgenauigkeit des Testergebnisses (Reliablilität, s. Schermelleh-Engel & Werner, 2007, ▸ Kap. 6 in diesem Band) zu bestimmen. Mit Hilfe der Reliabilität bzw. des Standardmessfehlers ist es darüber hinaus möglich, ein Konfidenzintervall für den true score anzugeben.

Einige Abschnitte dieses Kapitels sind dem gleichnamigen Beitrag von Moosbrugger (2006) entnommen.

Neben der international etablierten Bezeichnung „Item-Response-Theorie“ ist auch die Bezeichnung „Probabilistische Testtheorie“ gebräuchlich; s. z. B. Fischer (1974); Kubinger (1992).

This is a preview of subscription content, log in via an institution.

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 29.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Learn about institutional subscriptions

Preview

Unable to display preview. Download preview PDF.

Literatur

Amelang, M., Bartussek, D., Stemmler, G. & Hagemann, D.(2006). Differentielle Psychologie und Persönlichkeitsforschung (6. Aufl.). Stuttgart: Kohlhammer.
Google Scholar
Amthauer, R.(1970). Intelligenz-Struktur-Test(I-S-T70). Göttingen: Hogrefe.
Google Scholar
Andersen, E. B. (1973). A goodness of fit test for the Rasch model. Psychometrika, 38, 123–140.
Article Google Scholar
Andersen, E. B. (1980). Discrete statistical models with social science applications. Amsterdam: North Holland.
Google Scholar
Andersen, E. B. (1995). Polytomous Rasch models and their estimation. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 271–291). New York: Springer.
Google Scholar
Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43, 561–573.
Article Google Scholar
Baumert, J., Artelt, C., Klieme, E. & Stanat, P. (2001). PISA. Programme for International Student Assessment. Zielsetzung, theoretische Konzeption und Entwicklung von Messverfahren. In F. E. Weinert (Hrsg.) Leistungsmessung in Schulen. Weinheim: Beltz.
Google Scholar
Beaton, E. & Allen, N. (1992). Interpreting scales through scale anchoring. Journal of Educational Statistics, 17, 191–204.
Article Google Scholar
Beck, B. & Klieme, E. (2003). DESI — Eine Large scale-Studie zur Untersuchung des Sprachunterrichts in deutschen Schulen. Zeitschrift für empirische Pädagogik, 17, 380–395.
Google Scholar
Birnbaum, A. (1968). Some latent trait models. In F. M. Lord & M. R. Novick (Eds.), Statistical theories of mental test scores (pp. 395–479). Reading, MA: Addison-Wesley.
Google Scholar
Bos, W., Lankes, E.-M., Schwippert, K., Valtin, R., Voss, A., Badel, I. & Plaßmeier, N. (2003). Lesekompetenzen deutscherGrundschülerinnen und Grundschüler am Ende der vierten Jahrgangsstufe im internationalen Vergleich. In W. Bos, E.-M. Lankes, M. Prenzel, K. Schwippert, G. Walther & R. Valtin (Hrsg.) Erste Ergebnisse aus IGLU. Münster, New York: Waxmann.
Google Scholar
De Boeck, P. & Wilson, M. (2004). Explanatory Item Response Models. A Generalized Linear and Nonlinear Approach. New York: Springer.
Google Scholar
Embretson, S. E. (1983). Construct validity: Construct representation versus nomothetic span. Psychological Bulletin, 93, 179–197.
Article Google Scholar
Embretson, S. E. (1998). A cognitive design system approach for generating valid tests: Approaches to abstract reasoning. Psychological Methods, 3, 300–396.
Article Google Scholar
Embretson, S. E. (2006). The Continued Search for nonarbitrary metrics in psychology. American Psychologist, 61, 50–55.
Article PubMed Google Scholar
Fahrenberg, J., Hampel, R. & Selg, H. (2001). Das Freiburger Persönlichkeitsinventar FPI-R mit neuer Normierung. Handanweisung (7. Auflage). Göttingen: Hogrefe.
Google Scholar
Fischer, G. H. (1974). Einführung in die Theorie psychologischer Tests. Bern: Huber.
Google Scholar
Fischer, G. H. (1978). Probabilistic test models and their application. The German Journal of Psychology 2, 298–319.
Google Scholar
Fischer, G. H. (1983). Neuere Testtheorie. In J. Bredenkamp & H. Feger (Hrsg.), Messen und Testen (S. 604–692). Göttingen: Hogrefe.
Google Scholar
Fischer, G. H. (1995a). Linear logistic models for change. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 157–180). New York: Springer.
Google Scholar
Fischer, G. H. (1995b). The linear logistic test model, In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 131–155). New York: Springer.
Google Scholar
Fischer, G. H. (1996). IRT-Modelle als Forschungsinstrumente der Differentiellen Psychologie. In K. Pawlik (Hrsg.), Grundlagen und Methoden der Differentiellen Psychologie (S. 673–729). Göttingen: Hogrefe.
Google Scholar
Fischer, G. H. & Molenaar, I. W. (Eds.). (1995). Rasch models: Foundations, recent developments, and applications. New York: Springer.
Google Scholar
Fischer, G. H. & Parzer, P. (1991). An extension of the rating scale model with an application to the measurement of treatment effects. Psychometrika, 56, 637–651.
Article Google Scholar
Fischer, G. H. & Ponocny, I. (1995). Extended rating scale and partial credit models for assessing change. In G. H.Fischer, I. W. Molenaar (Eds.). Rasch models: Foundations, recent developments, and applications (pp. 353–370). New York: Springer.
Google Scholar
Fischer, G. H. & Spada, H. (1973). Die psychometrischen Grundlagen des Rorschachtests und der Holtzman Inkblot Technique. Bern: Huber.
Google Scholar
Formann, A. K. (1984). DieLatent-Class-Analyse. Weinheim: Beltz.
Google Scholar
Formann, A. K. (1993). Some simple latent class models for attitudinal scaling in the presence of polytomous items. Methodika, 7, 62–78.
Google Scholar
Frey, A. (2007). Adaptives Testen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer. Gittler, G. (1990). Dreidimensionaler Würfeltest (3DW). Ein Raschskalierter Test zur Messung des räumlichen Vorstellungsvermögens. Wein heim: Beltz.
Google Scholar
Gittler, G. & Wild, B. (1988). Der Einsatz des LLTM bei der Konstruktion eines Itempools für das adaptive Testen. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 115–139). Weinheim: Psychologie Verlags Union.
Google Scholar
Glas, C. A. W. & Verhelst, N. D. (1989). Extensions of the partial credit model. Psychometrika, 54, 635–659.
Article Google Scholar
Gollwitzer, M. (2007). Latent Class-Analysis. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Google Scholar
Goodman, L. A. (1974). Exploratory latent structure analysis using both identifiable and unidentifiable models. Biometrika, 61, 215–231.
Article Google Scholar
Graf, M., Greb. K. & Jeising, E. (In Vorbereitung). Mathematiktest Eingangsuntersuchung. In: Faust, G. & F. Lipowsky (Hrsg.). Dokumentation der Erhebungsinstrumente zur Eingangsuntersuchung im Projekt „Persönlichkeits-und Lernentwicklung von Grundschulkindern (PERLE)“.
Google Scholar
Greb, K. (2007). Measuring number reading skills of students entering elementary school. Poster präsentiert auf der Summer Academy 2007 on Educational Measurement. Berlin.
Google Scholar
Guttman, L. (1950). The basis for scalogram analysis. In S. A. Stouffer (Ed.), The American Soldier. Studies in social psychology in World War II. Princeton: Princeton University Press.
Google Scholar
Guttmann, G. & Ettlinger, S. C. (1991). Susceptibility to stress and anxiety in relation to performance, emotion, and personality: The ergopsychometric approach. In C. D. Spielberger, I. G. Sarason, J. Strelau & J. M. T. Brebner (Eds.), Stress and anxiety, Vol. 13 (pp.23–52). New York: Hemisphere Publishing Corporation.
Google Scholar
Hambleton, R. K. & Swaminathan, H. (1985). Item response theory. Principles and applications. Boston: Kluwer-Nijhoff Publishing.
Google Scholar
Hartig, J. (2007). Skalierung und Definition von Kompetenzniveaus. In Klieme, E. & Beck, B. (Hrsg.) 2007. Sprachliche Kompetenzen — Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleistungen International) (S. 83–99). Weinheim: Beltz.
Google Scholar
Hartig, J., Frey, A.& Jude, N. (2007). Validität. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Google Scholar
Hartig, J. & Klieme, E. (2006). Kompetenz und Kompetenzdiagnostik. In K. Schweizer (Hrsg.): Leistung und Leistungsdiagnostik (S. 127–143). Berlin: Springer. Helmke, A. & Hosenfeld, I. (2004). Vergleichsarbeiten — Standards — Kompetenzstufen: Begriffliche Klärungen und Perspektiven. In R. S. Jäger & A. Frey (Hrsg.) Lernprozesse, Lernumgebung und Lerndiagnostik. Wissenschaftliche Beiträge zum Lernen im 21. Jahrhundert. Landau: Verlag Empirische Pädagogik.
Google Scholar
Hill, C. H., Schilling, S.G., Loewenberg Ball, D. (2004). Developing Measures of Teachers’ Mathematics Knowledge for Teaching. The Elementary School Journal, 105(1), 11–30.
Article Google Scholar
Jonkisz, E.& Moosbrugger, H. (2007). Planung und Entwicklung von psychologischen Tests und Fragebogen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Google Scholar
Kelava, A. & Moosbrugger, M. (2007). Deskriptivstatistische Analyse von Items (Itemanalyse) und Testwertverteilungen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Google Scholar
Klauer, K. C. (1991). An exact and optimal standardized person fit test for assessing consistency with the Rasch model. Psychometrika, 56, 213–228.
Article Google Scholar
Klauer, K. C. (1995). The assessment of person fit. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp.97-110). New York: Springer.
Google Scholar
Klieme, E., Baumert, J., Köller, O. & Bos, W. (2000). Mathematische und naturwissenschaftliche Grundbildung: Konzeptuelle Grundlagen und die Erfassung und Skalierung von Kompetenzen.In J. Baumert, W. Bos & R.H. Lehmann (Hrsg.) TIMSS/III. Dritte internationale Mathematik-und Naturwissenschaftsstudie. Band 1: Mathematische und naturwissenschaftliche Grundbildung am Ende der Pflichtschulzeit. Opladen: Leske + Buderich.
Google Scholar
Klieme, E. & Beck, B. (Hrsg.). 2007. Sprachliche Kompetenzen — Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleistungen International) Weinheim: Beltz.
Google Scholar
Köller, O. (1993). Die Identifikation von Ratern bei Leistungstests mit Hilfe des Mixed-Rasch-Modells. Vortrag auf der 1. Tagung der Fachgruppe Methoden der Deutschen Gesellschaftfür Psychologie in Kiel. Empirische Pädagogik (o. A.).
Google Scholar
Kubinger, K. D. (Hrsg.). (1989). Moderne Testtheorie — Ein Abriß samt neuesten Beiträgen (2. Aufl.). Wein heim: Beltz.
Google Scholar
Kubinger, K. D. (1995). Einführung in die Diagnostik. Weinheim: Psychologie Verlags Union.
Google Scholar
Kubinger, K. D. (2003). Adaptives Testen. In K. D. Kubinger & R.S. Jäger (Hrsg.), Schlüsselbegriffe der Psychologischen Diagnostik. Weinheim: Beltz PVU.
Google Scholar
Kubinger, K. D. & Wurst, E. (2000). Adaptives Intelligenz Diagnostikum (AID 2). Göttingen: Hogrefe.
Google Scholar
Lazarsfeld, P. F. & Henry, N.W. (1968). Latent structure analysis. Boston: Houghton Mifflin.
Google Scholar
Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale: Erlbaum.
Google Scholar
Lord, F. N. & Nowick, M. R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley.
Google Scholar
Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149–174.
Article Google Scholar
Masters, G. N. & Wright, B. D. (1984). The essential process in a family of measurement models. Psychometrika, 49, 529–544.
Article Google Scholar
Molenaar, I. W. (1995). Estimation of item parameters. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 39–51). Berlin, Heidelberg, New York: Springer
Google Scholar
Molenaar, I. W. & Hoijtink, H. (1990). The many null distributions of person fit indices. Psychometrika, 55, 75–106.
Article Google Scholar
Moosbrugger, H. (1984). Konzeptuelle Probleme und praktische Brauchbarkeit von Modellen zur Erfassung von Persönlichkeitsmerkmalen. In M. Amelang & H. J. Ahrens (Hrsg.), Brennpunkte der Persönlichkeitsforschung (S. 67–86). Göttingen: Hogrefe.
Google Scholar
Moosbrugger, H. (2002). Lineare Modelle. Regressions-und Varianzanalysen. (3. Auflage). Bern, Göttingen: Verlag Hans Huber.
Google Scholar
Moosbrugger, H. (2006). Item-Response-Theorie (IRT). In Amelang &Schmidt-Atzert, Psychologische Diagnostikund Intervention. (4. Auflage). Heidelberg: Springer.
Google Scholar
Moosbrugger, H. (2007a). Klassische Testtheorie: Testtheoretische Grundlagen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer. Moosbrugger, H. & Frank, D. (1992). Clusteranalytische Methoden in der Persönlichkeitsforschung. Bern, Göttingen: Huber.
Google Scholar
Moosbrugger, H.& Frank, D. (1995). Clusteranalytische Verfahren zur typologischen Analyse. In K. Pawlik & M. Amelang (Hrsg.), Enzyklopädie der Psychologie: SerieVIII: Differentielle Psychologie (Bd. 1, S. 731–774). [plGöttingen: Hogrefe].
Google Scholar
Moosbrugger, H. & Goldhammer, F. (2007). FAKT II. Frankfurter Adaptiver Konzentrationsleistungs-Test. (2. Aufl.). Bern: Huber.
Google Scholar
Moosbrugger, H. & Kelava, A. (2007). Qualitätsanforderungen an einen psychologischen Test. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Chapter Google Scholar
Müller, H. (1987). A Rasch model for continuous ratings. Psychometrika, 52, 165–181.
Article Google Scholar
Müller, H. (1999). Probabilistische Testmodelle für diskrete und kontinuierliche Ratingskalen. Bern: Huber.
Google Scholar
Nold, G. & Rossa, H. (2007). Hörverstehen. In Klieme, E. & Beck, B. (Hrsg.) 2007. Sprachliche Kompetenzen — Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleistungen International) (S. 178–196). Weinheim: Beltz.
Google Scholar
OECD (2001). Lernen für das Leben. Erste Ergebnisse der internationalen Schulleistungsstudie PISA 2000. Paris: OECD.
Google Scholar
OECD. (2004a). Lernen für die Welt von morgen. Erste Ergebnisse von PISA 2003. Paris: OECD.
Book Google Scholar
OECD. (2004b). Problem Solving for Tomorrow’s World — First Measures of Cross-Curricular Skills from PISA 2003. Paris: OECD.
Google Scholar
PISA-Konsortium Deutschland (Hrsg.) (2004). PISA 2003. Der Bildungsstand derJugendlichen in Deutschland — Ergebnisse des zweiten internationalen Vergleichs. Münster: Waxmann.
Google Scholar
Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Kopenhagen: The Danish Institute for Educational Research.
Google Scholar
Rasch, G. (1961). On general laws and the meaning of measurement in psychology. In J. Neyman (Ed.), Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability (Vol. 4, pp. 321–333). Berkeley, CA: University of California Press.
Google Scholar
Rauch, D. & Hartig J. (2007). Interpretation von Testwerten in der IRT. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Google Scholar
Roskam, E. E. (1996). Latent-Trait-Modelle. In E. Erdfelder, R. Mausfeld, Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 431–458). Weinheim: Psychologie Verlags Union.
Google Scholar
Rost, J. (1988). Quantitative und qualitative probabilistische Testtheorie. Bern: Huber.
Google Scholar
Rost, J. (1990). Rasch models in latent classes: An integration of two approaches to item analysis. Applied Psychological Measurement, 14, 271–282.
Article Google Scholar
Rost, J. (2004). Lehrbuch Testtheorie — Testkonstruktion (2. Aufl.). Bern: Huber.
Google Scholar
Rost, J. (2006). Item-Response-Theorie. In F. Petermann & M. Eid (Hrsg.), Handbuch der psychologischen Diagnostik. Göttingen: Hogrefe.
Google Scholar
Rost, J. & Langenheine, R. (Eds.). (1996). Applications of latent trait and latent class models in the social sciences. Münster: Waxmann.
Google Scholar
Rost, J. & Spada, H. (1983). Die Quantifizierung von Lerneffekten anhand von Testdaten. Zeitschrift für Differentielle und Diagnostische Psychologie, 4, 29–49.
Google Scholar
Rost, J. & Strauß, B. (1992). Review: Recent developments in psychometrics and test-theory. The German Journal of Psychology, 16,2, 91–119.
Google Scholar
Scheiblechner, H. (1972). Das Lernen und Lösen komplexer Denkaufgaben. Zeitschrift für experimentelle und angewandte Psychologie, 19, 476–506.
Google Scholar
Scheiblechner, H. (1996). Item-Response-Theorie: Prozeßmodelle. In E. Erdfelder, R. Mausfeld, Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 459–466). Weinheim: Psychologie Verlags Union.
Google Scholar
Schermelleh-Engel, K. & Werner, Ch. (2007) Methoden der Reliabilitätsbestimmung. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Google Scholar
Skrondal, A. & Rabe-Hesketh, S. (2004). Generalized latent variable modeling: Multilevel, longitudinal, and structural equation models. Boca Raton, London, New York, Washington, D.C.: Chapman & Hall/CRC.
Chapter Google Scholar
Steyer, R. & Eid, M. (2001). Messen und Testen. 2. Aufl., Berlin, Heidelberg, New York: Springer.
Google Scholar
Strauß, B., Köller, O. & Möller, J. (1996). Geschlechtsrollentypologien — eine empirische Prüfung des additiven und des balancierten Modells. Zeitschrift für Differentielle und Diagnostische Psychologie, 17, 67–83.
Google Scholar
Tarnai, C. & Rost, J. (1990). Identifying aberrant response patterns in the Rasch model. The Q Index. Sozialwissenschaftliche Forschungsdokumentation. Münster: Institut für sozialwissenschaftliche Forschung e.V. van der Linden, W. J. & Hambleton, R. K. (Eds.). (1996). Handbook of modern item response theory. New York: Springer.
Google Scholar
van den Wollenberg, A. L. (1988). Testing a latent trait model. In R. Langeheine & J. Rost (Eds.), Latent trait and latent class models (pp. 31–50). New York: Plenum.
Google Scholar
von Davier, M. (2001). WINMIRA (Version 2001) [Computer Software]. University Ave, St. Paul: Assessment Systems Corporation.
Google Scholar
Weiss, D. J. & Davison, M. L. (1981). Test theory and methods. Annual Review of Psychology, 32, 629–658.
Article Google Scholar
Wilson, M. R. (2003). On choosing a model for measuring. Methods of Psychological Research Online, 8, 1–22.
Google Scholar
Wilson, M. & De Boeck, P. (2004). Descriptive and explanatory item response models. In P. De Boeck, & M. Wilson (Eds.), Explanatory item response models: A generalized linear and nonlinear approach (S. 43–74). New York: Springer.
Google Scholar
Wright, B. D. & Masters, G. N. (1982). Rating scale analysis. Chicago: MESA Press.
Google Scholar

Download references

Author information

Authors and Affiliations

Lehrstuhlinhaber für Psychologische Methodenlehre, Evaluation und Forschungsmethodik, J.W. Goethe-Universität Frankfurt am Main Institut für Psychologie, Mertonstraße 17, 60054, Frankfurt am Main
Helfried Moosbrugger Prof. Dr.

Authors

Helfried Moosbrugger Prof. Dr.
View author publications
You can also search for this author in PubMed Google Scholar

Editor information

Editors and Affiliations

Institut für Psychologie, Abteilung Psychologische Methodenlehre, Evaluation und Forschungsmethodik, Johann Wolfgang Goethe-Universität Frankfurt, Mertonstraße 17, 60054, Frankfurt a.M.
Helfried Moosbrugger & Augustin Kelava &

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Moosbrugger, H. (2008). Item-Response-Theorie (IRT). In: Moosbrugger, H., Kelava, A. (eds) Testtheorie und Fragebogenkonstruktion. Springer-Lehrbuch. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-540-71635-8_10

Download citation

DOI: https://doi.org/10.1007/978-3-540-71635-8_10
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-540-71634-1
Online ISBN: 978-3-540-71635-8
eBook Packages: Humanities, Social Science (German Language)

Publish with us

Policies and ethics