Auszug
Entgegen einer oft zu hörenden Auffassung ist die Item-Response-Theorie (IRT) 2 (Lord, 1980; Hambleton & Swaminathan, 1985; Fischer, 1996) nicht als Alternative zur Klassischen Testtheorie (KTT) (s. Moosbrugger, 2007a, ▸ Kap. 5 in diesem Band) aufzufassen, sondern besser als Ergänzung. Der KTT sind große Verdienste in der Psychodiagnostik zuzuschreiben: Mit ihrer Hilfe ist es möglich, auf Basis der Reaktionen in mehreren Items die wahre Ausprägung (true score) des zu erfassenden Merkmals zu schätzen und die Messgenauigkeit des Testergebnisses (Reliablilität, s. Schermelleh-Engel & Werner, 2007, ▸ Kap. 6 in diesem Band) zu bestimmen. Mit Hilfe der Reliabilität bzw. des Standardmessfehlers ist es darüber hinaus möglich, ein Konfidenzintervall für den true score anzugeben.
Einige Abschnitte dieses Kapitels sind dem gleichnamigen Beitrag von Moosbrugger (2006) entnommen.
Neben der international etablierten Bezeichnung „Item-Response-Theorie“ ist auch die Bezeichnung „Probabilistische Testtheorie“ gebräuchlich; s. z. B. Fischer (1974); Kubinger (1992).
This is a preview of subscription content, log in via an institution.
Buying options
Tax calculation will be finalised at checkout
Purchases are for personal use only
Learn about institutional subscriptionsPreview
Unable to display preview. Download preview PDF.
Literatur
Amelang, M., Bartussek, D., Stemmler, G. & Hagemann, D.(2006). Differentielle Psychologie und Persönlichkeitsforschung (6. Aufl.). Stuttgart: Kohlhammer.
Amthauer, R.(1970). Intelligenz-Struktur-Test(I-S-T70). Göttingen: Hogrefe.
Andersen, E. B. (1973). A goodness of fit test for the Rasch model. Psychometrika, 38, 123–140.
Andersen, E. B. (1980). Discrete statistical models with social science applications. Amsterdam: North Holland.
Andersen, E. B. (1995). Polytomous Rasch models and their estimation. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 271–291). New York: Springer.
Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43, 561–573.
Baumert, J., Artelt, C., Klieme, E. & Stanat, P. (2001). PISA. Programme for International Student Assessment. Zielsetzung, theoretische Konzeption und Entwicklung von Messverfahren. In F. E. Weinert (Hrsg.) Leistungsmessung in Schulen. Weinheim: Beltz.
Beaton, E. & Allen, N. (1992). Interpreting scales through scale anchoring. Journal of Educational Statistics, 17, 191–204.
Beck, B. & Klieme, E. (2003). DESI — Eine Large scale-Studie zur Untersuchung des Sprachunterrichts in deutschen Schulen. Zeitschrift für empirische Pädagogik, 17, 380–395.
Birnbaum, A. (1968). Some latent trait models. In F. M. Lord & M. R. Novick (Eds.), Statistical theories of mental test scores (pp. 395–479). Reading, MA: Addison-Wesley.
Bos, W., Lankes, E.-M., Schwippert, K., Valtin, R., Voss, A., Badel, I. & Plaßmeier, N. (2003). Lesekompetenzen deutscherGrundschülerinnen und Grundschüler am Ende der vierten Jahrgangsstufe im internationalen Vergleich. In W. Bos, E.-M. Lankes, M. Prenzel, K. Schwippert, G. Walther & R. Valtin (Hrsg.) Erste Ergebnisse aus IGLU. Münster, New York: Waxmann.
De Boeck, P. & Wilson, M. (2004). Explanatory Item Response Models. A Generalized Linear and Nonlinear Approach. New York: Springer.
Embretson, S. E. (1983). Construct validity: Construct representation versus nomothetic span. Psychological Bulletin, 93, 179–197.
Embretson, S. E. (1998). A cognitive design system approach for generating valid tests: Approaches to abstract reasoning. Psychological Methods, 3, 300–396.
Embretson, S. E. (2006). The Continued Search for nonarbitrary metrics in psychology. American Psychologist, 61, 50–55.
Fahrenberg, J., Hampel, R. & Selg, H. (2001). Das Freiburger Persönlichkeitsinventar FPI-R mit neuer Normierung. Handanweisung (7. Auflage). Göttingen: Hogrefe.
Fischer, G. H. (1974). Einführung in die Theorie psychologischer Tests. Bern: Huber.
Fischer, G. H. (1978). Probabilistic test models and their application. The German Journal of Psychology 2, 298–319.
Fischer, G. H. (1983). Neuere Testtheorie. In J. Bredenkamp & H. Feger (Hrsg.), Messen und Testen (S. 604–692). Göttingen: Hogrefe.
Fischer, G. H. (1995a). Linear logistic models for change. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 157–180). New York: Springer.
Fischer, G. H. (1995b). The linear logistic test model, In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 131–155). New York: Springer.
Fischer, G. H. (1996). IRT-Modelle als Forschungsinstrumente der Differentiellen Psychologie. In K. Pawlik (Hrsg.), Grundlagen und Methoden der Differentiellen Psychologie (S. 673–729). Göttingen: Hogrefe.
Fischer, G. H. & Molenaar, I. W. (Eds.). (1995). Rasch models: Foundations, recent developments, and applications. New York: Springer.
Fischer, G. H. & Parzer, P. (1991). An extension of the rating scale model with an application to the measurement of treatment effects. Psychometrika, 56, 637–651.
Fischer, G. H. & Ponocny, I. (1995). Extended rating scale and partial credit models for assessing change. In G. H.Fischer, I. W. Molenaar (Eds.). Rasch models: Foundations, recent developments, and applications (pp. 353–370). New York: Springer.
Fischer, G. H. & Spada, H. (1973). Die psychometrischen Grundlagen des Rorschachtests und der Holtzman Inkblot Technique. Bern: Huber.
Formann, A. K. (1984). DieLatent-Class-Analyse. Weinheim: Beltz.
Formann, A. K. (1993). Some simple latent class models for attitudinal scaling in the presence of polytomous items. Methodika, 7, 62–78.
Frey, A. (2007). Adaptives Testen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer. Gittler, G. (1990). Dreidimensionaler Würfeltest (3DW). Ein Raschskalierter Test zur Messung des räumlichen Vorstellungsvermögens. Wein heim: Beltz.
Gittler, G. & Wild, B. (1988). Der Einsatz des LLTM bei der Konstruktion eines Itempools für das adaptive Testen. In K. D. Kubinger (Hrsg.), Moderne Testtheorie (S. 115–139). Weinheim: Psychologie Verlags Union.
Glas, C. A. W. & Verhelst, N. D. (1989). Extensions of the partial credit model. Psychometrika, 54, 635–659.
Gollwitzer, M. (2007). Latent Class-Analysis. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Goodman, L. A. (1974). Exploratory latent structure analysis using both identifiable and unidentifiable models. Biometrika, 61, 215–231.
Graf, M., Greb. K. & Jeising, E. (In Vorbereitung). Mathematiktest Eingangsuntersuchung. In: Faust, G. & F. Lipowsky (Hrsg.). Dokumentation der Erhebungsinstrumente zur Eingangsuntersuchung im Projekt „Persönlichkeits-und Lernentwicklung von Grundschulkindern (PERLE)“.
Greb, K. (2007). Measuring number reading skills of students entering elementary school. Poster präsentiert auf der Summer Academy 2007 on Educational Measurement. Berlin.
Guttman, L. (1950). The basis for scalogram analysis. In S. A. Stouffer (Ed.), The American Soldier. Studies in social psychology in World War II. Princeton: Princeton University Press.
Guttmann, G. & Ettlinger, S. C. (1991). Susceptibility to stress and anxiety in relation to performance, emotion, and personality: The ergopsychometric approach. In C. D. Spielberger, I. G. Sarason, J. Strelau & J. M. T. Brebner (Eds.), Stress and anxiety, Vol. 13 (pp.23–52). New York: Hemisphere Publishing Corporation.
Hambleton, R. K. & Swaminathan, H. (1985). Item response theory. Principles and applications. Boston: Kluwer-Nijhoff Publishing.
Hartig, J. (2007). Skalierung und Definition von Kompetenzniveaus. In Klieme, E. & Beck, B. (Hrsg.) 2007. Sprachliche Kompetenzen — Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleistungen International) (S. 83–99). Weinheim: Beltz.
Hartig, J., Frey, A.& Jude, N. (2007). Validität. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Hartig, J. & Klieme, E. (2006). Kompetenz und Kompetenzdiagnostik. In K. Schweizer (Hrsg.): Leistung und Leistungsdiagnostik (S. 127–143). Berlin: Springer. Helmke, A. & Hosenfeld, I. (2004). Vergleichsarbeiten — Standards — Kompetenzstufen: Begriffliche Klärungen und Perspektiven. In R. S. Jäger & A. Frey (Hrsg.) Lernprozesse, Lernumgebung und Lerndiagnostik. Wissenschaftliche Beiträge zum Lernen im 21. Jahrhundert. Landau: Verlag Empirische Pädagogik.
Hill, C. H., Schilling, S.G., Loewenberg Ball, D. (2004). Developing Measures of Teachers’ Mathematics Knowledge for Teaching. The Elementary School Journal, 105(1), 11–30.
Jonkisz, E.& Moosbrugger, H. (2007). Planung und Entwicklung von psychologischen Tests und Fragebogen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Kelava, A. & Moosbrugger, M. (2007). Deskriptivstatistische Analyse von Items (Itemanalyse) und Testwertverteilungen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Klauer, K. C. (1991). An exact and optimal standardized person fit test for assessing consistency with the Rasch model. Psychometrika, 56, 213–228.
Klauer, K. C. (1995). The assessment of person fit. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp.97-110). New York: Springer.
Klieme, E., Baumert, J., Köller, O. & Bos, W. (2000). Mathematische und naturwissenschaftliche Grundbildung: Konzeptuelle Grundlagen und die Erfassung und Skalierung von Kompetenzen.In J. Baumert, W. Bos & R.H. Lehmann (Hrsg.) TIMSS/III. Dritte internationale Mathematik-und Naturwissenschaftsstudie. Band 1: Mathematische und naturwissenschaftliche Grundbildung am Ende der Pflichtschulzeit. Opladen: Leske + Buderich.
Klieme, E. & Beck, B. (Hrsg.). 2007. Sprachliche Kompetenzen — Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleistungen International) Weinheim: Beltz.
Köller, O. (1993). Die Identifikation von Ratern bei Leistungstests mit Hilfe des Mixed-Rasch-Modells. Vortrag auf der 1. Tagung der Fachgruppe Methoden der Deutschen Gesellschaftfür Psychologie in Kiel. Empirische Pädagogik (o. A.).
Kubinger, K. D. (Hrsg.). (1989). Moderne Testtheorie — Ein Abriß samt neuesten Beiträgen (2. Aufl.). Wein heim: Beltz.
Kubinger, K. D. (1995). Einführung in die Diagnostik. Weinheim: Psychologie Verlags Union.
Kubinger, K. D. (2003). Adaptives Testen. In K. D. Kubinger & R.S. Jäger (Hrsg.), Schlüsselbegriffe der Psychologischen Diagnostik. Weinheim: Beltz PVU.
Kubinger, K. D. & Wurst, E. (2000). Adaptives Intelligenz Diagnostikum (AID 2). Göttingen: Hogrefe.
Lazarsfeld, P. F. & Henry, N.W. (1968). Latent structure analysis. Boston: Houghton Mifflin.
Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale: Erlbaum.
Lord, F. N. & Nowick, M. R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley.
Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149–174.
Masters, G. N. & Wright, B. D. (1984). The essential process in a family of measurement models. Psychometrika, 49, 529–544.
Molenaar, I. W. (1995). Estimation of item parameters. In G. H. Fischer & I. W. Molenaar (Eds.), Rasch models: Foundations, recent developments, and applications (pp. 39–51). Berlin, Heidelberg, New York: Springer
Molenaar, I. W. & Hoijtink, H. (1990). The many null distributions of person fit indices. Psychometrika, 55, 75–106.
Moosbrugger, H. (1984). Konzeptuelle Probleme und praktische Brauchbarkeit von Modellen zur Erfassung von Persönlichkeitsmerkmalen. In M. Amelang & H. J. Ahrens (Hrsg.), Brennpunkte der Persönlichkeitsforschung (S. 67–86). Göttingen: Hogrefe.
Moosbrugger, H. (2002). Lineare Modelle. Regressions-und Varianzanalysen. (3. Auflage). Bern, Göttingen: Verlag Hans Huber.
Moosbrugger, H. (2006). Item-Response-Theorie (IRT). In Amelang &Schmidt-Atzert, Psychologische Diagnostikund Intervention. (4. Auflage). Heidelberg: Springer.
Moosbrugger, H. (2007a). Klassische Testtheorie: Testtheoretische Grundlagen. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer. Moosbrugger, H. & Frank, D. (1992). Clusteranalytische Methoden in der Persönlichkeitsforschung. Bern, Göttingen: Huber.
Moosbrugger, H.& Frank, D. (1995). Clusteranalytische Verfahren zur typologischen Analyse. In K. Pawlik & M. Amelang (Hrsg.), Enzyklopädie der Psychologie: SerieVIII: Differentielle Psychologie (Bd. 1, S. 731–774). [plGöttingen: Hogrefe].
Moosbrugger, H. & Goldhammer, F. (2007). FAKT II. Frankfurter Adaptiver Konzentrationsleistungs-Test. (2. Aufl.). Bern: Huber.
Moosbrugger, H. & Kelava, A. (2007). Qualitätsanforderungen an einen psychologischen Test. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Müller, H. (1987). A Rasch model for continuous ratings. Psychometrika, 52, 165–181.
Müller, H. (1999). Probabilistische Testmodelle für diskrete und kontinuierliche Ratingskalen. Bern: Huber.
Nold, G. & Rossa, H. (2007). Hörverstehen. In Klieme, E. & Beck, B. (Hrsg.) 2007. Sprachliche Kompetenzen — Konzepte und Messung. DESI-Studie (Deutsch Englisch Schülerleistungen International) (S. 178–196). Weinheim: Beltz.
OECD (2001). Lernen für das Leben. Erste Ergebnisse der internationalen Schulleistungsstudie PISA 2000. Paris: OECD.
OECD. (2004a). Lernen für die Welt von morgen. Erste Ergebnisse von PISA 2003. Paris: OECD.
OECD. (2004b). Problem Solving for Tomorrow’s World — First Measures of Cross-Curricular Skills from PISA 2003. Paris: OECD.
PISA-Konsortium Deutschland (Hrsg.) (2004). PISA 2003. Der Bildungsstand derJugendlichen in Deutschland — Ergebnisse des zweiten internationalen Vergleichs. Münster: Waxmann.
Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Kopenhagen: The Danish Institute for Educational Research.
Rasch, G. (1961). On general laws and the meaning of measurement in psychology. In J. Neyman (Ed.), Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability (Vol. 4, pp. 321–333). Berkeley, CA: University of California Press.
Rauch, D. & Hartig J. (2007). Interpretation von Testwerten in der IRT. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Roskam, E. E. (1996). Latent-Trait-Modelle. In E. Erdfelder, R. Mausfeld, Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 431–458). Weinheim: Psychologie Verlags Union.
Rost, J. (1988). Quantitative und qualitative probabilistische Testtheorie. Bern: Huber.
Rost, J. (1990). Rasch models in latent classes: An integration of two approaches to item analysis. Applied Psychological Measurement, 14, 271–282.
Rost, J. (2004). Lehrbuch Testtheorie — Testkonstruktion (2. Aufl.). Bern: Huber.
Rost, J. (2006). Item-Response-Theorie. In F. Petermann & M. Eid (Hrsg.), Handbuch der psychologischen Diagnostik. Göttingen: Hogrefe.
Rost, J. & Langenheine, R. (Eds.). (1996). Applications of latent trait and latent class models in the social sciences. Münster: Waxmann.
Rost, J. & Spada, H. (1983). Die Quantifizierung von Lerneffekten anhand von Testdaten. Zeitschrift für Differentielle und Diagnostische Psychologie, 4, 29–49.
Rost, J. & Strauß, B. (1992). Review: Recent developments in psychometrics and test-theory. The German Journal of Psychology, 16,2, 91–119.
Scheiblechner, H. (1972). Das Lernen und Lösen komplexer Denkaufgaben. Zeitschrift für experimentelle und angewandte Psychologie, 19, 476–506.
Scheiblechner, H. (1996). Item-Response-Theorie: Prozeßmodelle. In E. Erdfelder, R. Mausfeld, Th. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden (S. 459–466). Weinheim: Psychologie Verlags Union.
Schermelleh-Engel, K. & Werner, Ch. (2007) Methoden der Reliabilitätsbestimmung. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion. Heidelberg: Springer.
Skrondal, A. & Rabe-Hesketh, S. (2004). Generalized latent variable modeling: Multilevel, longitudinal, and structural equation models. Boca Raton, London, New York, Washington, D.C.: Chapman & Hall/CRC.
Steyer, R. & Eid, M. (2001). Messen und Testen. 2. Aufl., Berlin, Heidelberg, New York: Springer.
Strauß, B., Köller, O. & Möller, J. (1996). Geschlechtsrollentypologien — eine empirische Prüfung des additiven und des balancierten Modells. Zeitschrift für Differentielle und Diagnostische Psychologie, 17, 67–83.
Tarnai, C. & Rost, J. (1990). Identifying aberrant response patterns in the Rasch model. The Q Index. Sozialwissenschaftliche Forschungsdokumentation. Münster: Institut für sozialwissenschaftliche Forschung e.V. van der Linden, W. J. & Hambleton, R. K. (Eds.). (1996). Handbook of modern item response theory. New York: Springer.
van den Wollenberg, A. L. (1988). Testing a latent trait model. In R. Langeheine & J. Rost (Eds.), Latent trait and latent class models (pp. 31–50). New York: Plenum.
von Davier, M. (2001). WINMIRA (Version 2001) [Computer Software]. University Ave, St. Paul: Assessment Systems Corporation.
Weiss, D. J. & Davison, M. L. (1981). Test theory and methods. Annual Review of Psychology, 32, 629–658.
Wilson, M. R. (2003). On choosing a model for measuring. Methods of Psychological Research Online, 8, 1–22.
Wilson, M. & De Boeck, P. (2004). Descriptive and explanatory item response models. In P. De Boeck, & M. Wilson (Eds.), Explanatory item response models: A generalized linear and nonlinear approach (S. 43–74). New York: Springer.
Wright, B. D. & Masters, G. N. (1982). Rating scale analysis. Chicago: MESA Press.
Author information
Authors and Affiliations
Editor information
Editors and Affiliations
Rights and permissions
Copyright information
© 2008 Springer Medizin Verlag Heidelberg
About this chapter
Cite this chapter
Moosbrugger, H. (2008). Item-Response-Theorie (IRT). In: Moosbrugger, H., Kelava, A. (eds) Testtheorie und Fragebogenkonstruktion. Springer-Lehrbuch. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-540-71635-8_10
Download citation
DOI: https://doi.org/10.1007/978-3-540-71635-8_10
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-540-71634-1
Online ISBN: 978-3-540-71635-8
eBook Packages: Humanities, Social Science (German Language)