Zusammenfassung
Das Kapitel gibt einen Überblick über wichtige generelle Schritte und Entscheidungen bei der Durchführung von Clusteranalysen und stellt drei zentrale Varianten vor: (1) die hierarchisch-agglomerative Clusteranalyse, (2) das K-Means-Verfahren und (3) die modellbasierte Gruppenbildung auf Basis angenommener Wahrscheinlichkeitsverteilungen. Im Zuge der Beschreibung der grundlegenden Funktionsweise dieser Verfahren wird auch auf Umsetzungsbeispiele in der politikwissenschaftlichen Forschung sowie auf verfügbare Softwarelösungen verwiesen. Außerdem verdeutlicht die Anwendung der Verfahren auf Beispieldaten, wie die behandelten Verfahren Strukturen in Daten auffinden, wie die Ergebnisse zu interpretieren sind und inwieweit die Varianten im direkten Vergleich zu ähnlichen Ergebnissen gelangen.
Notes
- 1.
Die Clusteranalyse kann zwar auch zu konfirmatorischen Zwecken eingesetzt werden. Konfirmatorischen Analysen im engeren Sinn steht jedoch der Umstand entgegen, dass gängige Verfahren der Clusteranalyse keine statistischen Hypothesentests beinhalten, anhand welcher der Grad der Entsprechung zu einer bestimmten Clusterstruktur bewertet werden könnte (Wiedenbeck und Züll 2010, S. 525). Hierzu muss man sich mit speziellen Teststatistiken zum Vergleich zwischen Clusterlösungen oder der Bootstrapping-Technik behelfen (Bacher et al. 2010, S. 245–246; Huang et al. 2016).
- 2.
Daneben gibt es spezielle Verfahren, die Variablen unterschiedliche Gewichte, gegebenenfalls auch gar kein Gewicht, zuweisen und darüber ihren Einfluss auf die Clusterbildung variieren (Everitt et al. 2011, S. 66; De Amorim 2012; Steinley und Brusco 2008). Allerdings gibt es für dieses sogenannte feature weighting keine feststehende beste Lösung, und indem man die Auswahl der relevanten Variablen rein dem Verfahren zur Optimierung eines bestimmten Kriteriums überlässt, entfernt man sich weit von einer theoretisch informierten und angeleiteten Analyse.
- 3.
Hierbei sollte berücksichtigt werden, dass sehr unterschiedliche Methoden, die für die Aufdeckung merklich verschiedenartiger Strukturen geeignet sind, folglich auch eher unterschiedliche Ergebnisse liefern. Die Ergebnisse für solche unterschiedlichen Methoden untereinander abzugleichen, ist dann wenig sinnvoll für die Bewertung der Güte einer bestimmten Clusterzahl (Hennig 2016, S. 727).
- 4.
Dabei können Ähnlichkeitsdaten sogar direkt in die Analyse eingehen. Eine Datenmatrix, die Fälle und Variablen enthält, ist also nicht erforderlich.
- 5.
Sie können dabei auf die Lance-Williams-Formel zurückgeführt werden, nach der es nicht nötig ist, die Abstände zwischen den Clustern nach jedem Fusionierungsschritt erneut zu berechnen. Stattdessen kann die Information der vorherigen Ähnlichkeiten sowie dazu, welche Cluster miteinander verschmolzen wurden, genutzt werden (Backhaus et al. 2016, S. 459–460; Everitt et al. 2011, S. 78–80.
- 6.
Ein weiteres Verfahren, das auf eine Visualisierung der Datenbasis und Gruppenstruktur hinausläuft, besteht darin, zunächst eine Dimensionsreduktion über die verwendeten Variablen durchzuführen (üblicherweise über eine Hauptkomponentenanalyse) und die ersten beiden extrahierten Dimensionen (Komponenten) für eine zweidimensionale räumliche Darstellung der Objekte zu nutzen. Diese Abfolge von Schritten führt das R-Paket clusplot auf einen Schlag durch.
- 7.
Die beiden Merkmale basieren auf einer Hauptkomponentenanalyse, in die zum einen Items zum Vertrauen in politische Institutionen sowie zum anderen die Positionen von Personen auf einer sozioökonomischen und einer libertär-autoritären Dimension eingegangen sind. Dies hat den Zweck, feinere Abstufungen auf den so gebildeten Variablen zu erhalten, was insbesondere für die Visualisierung weiter unten von Bedeutung ist.
- 8.
Ähnliche Aussagen lassen sich zudem anhand von Stripes Plots treffen, die für jedes Cluster visuell Auskunft über die einzelnen Objekte eines Clusters geben, wie eindeutig diese dem Cluster im Vergleich zum zweitnächsten Cluster zugeordnet werden (Everitt et al. 2011).
- 9.
Einen ähnlichen Informationswert wie die Silhouetten-Koeffizienten haben die Shadow Values (Everitt et al. 2011, S. 274), aus denen sich ebenfalls ein Indexwert für die Clustertrennung errechnen lässt.
- 10.
Allerdings ist die Bezeichnung K-Means selbst wiederum nicht einheitlich, und es gibt eine große Spanne von Varianten von partitionierenden Algorithmen, die unter K-Means verortet werden oder damit eng verwandt sind.
- 11.
Das Prozedere kann mit einzelnen Objekten nacheinander oder mit allen auf einmal geschehen. Alternativ kann anstelle der direkten Zuordnung auch ein Austausch zwischen Clustern erfolgen. Darüber hinaus gibt es eine Vielzahl spezieller Weiterentwicklungen (Everitt et al. 2011, S. 121–123).
- 12.
Für diese Gleichverteilung werden Datenpunkte in einem niedrig-dimensionalen Raum erzeugt, welcher auf Basis einer vorangehenden Hauptkomponentenanalyse über die Daten beschrieben wird (Everitt et al. 2011, S. 129).
- 13.
Verwendet wurde das R-Paket NbClust.
- 14.
Daneben gibt es noch weitere, seltener genutzte Verfahren, die mit K-Means verwandt sind (Steinley 2016).
- 15.
Dazu zählt auch die Analyse latenter Klassen, die ein clusteranalytisches Verfahren für Daten mit kategorialen Variablen darstellt (allerdings sind auch Erweiterungen für Berechnungen mit gemischten Skalenniveaus möglich). Durch die Anforderungen an die Datenstruktur sind die Anwendungsfelder des Verfahrens recht beschränkt, weshalb diese nicht eigens behandelt, sondern stattdessen das modellbasierte Cluster auf Basis von Wahrscheinlichkeitsdichten vorgestellt wird. Die Analyse latenter Klassen fußt auf der Annahme, dass sich gegebene Objekte in homogene Klassen einteilen lassen. Dafür werden die Klassen so gebildet, dass die Merkmale der Objekte innerhalb der Klassen unabhängig voneinander sind, und ihr gemeinsames Auftreten durch die Klassen aufgeklärt wird (Bacher und Vermunt 2010).
Literatur
Aggarwal, Charu C., und Cheng Xiang Zhai, Hrsg. 2012. Mining text data. New York: Springer.
Ahlquist, John S., und Christian Breunig. 2012. Model-based clustering and typologies in the social sciences. Political Analysis 20(1): 92–112. https://doi.org/10.1093/pan/mpr039.
Arts, W. I. L., und John Gelissen. 2002. Three worlds of welfare capitalism or more? A state-of-the-art report. Journal of European Social Policy 12(2): 137–158. https://doi.org/10.1177/0952872002012002114.
Bacher, Johann, und Jeroen K. Vermunt. 2010. „Analyse latenter Klassen“. In Handbuch der sozialwissenschaftlichen Datenanalyse, Hrsg. Christof von Wolf und Henning Best, 553–574. Wiesbaden: VS Verlag für Sozialwissenschaften. https://doi.org/10.1007/978-3-531-92038-2_22.
Bacher, Johann, Andreas Pöge, und Knut Wenzig. 2010. Clusteranalyse: anwendungsorientierte Einführung in Klassifikationsverfahren, 3., erg. vollst. überarb. u. neu gestaltete Aufl. München: Oldenbourg.
Backhaus, Klaus, Bernd Erichson, Wulff Plinke, und Rolf Weiber. 2016. Multivariate Analysemethoden: eine anwendungsorientierte Einführung, 14., überarb. u. ak. Aufl. Lehrbuch. Berlin/Heidelberg: Springer Gabler.
Bambra, Clare. 2007. Defamilisation and welfare state regimes: A cluster analysis. International Journal of Social Welfare 16(4): 326–338. https://doi.org/10.1111/j.1468-2397.2007.00486.x.
Banfield, Jeffrey D., und Adrian E. Raftery. 1993. Model-based gaussian and non-gaussian clustering. Biometrics 49(3): 803. https://doi.org/10.2307/2532201.
Castles, Francis Geoffrey, Hrsg. 1993. Families of nations. Patterns of public policy in western democracies. Aldershot: Dartmouth.
De Amorim, Renato Cordeiro. 2012. Feature weighting for clustering. Saarbrücken: Lap Lambert Academic Publ.
Ennser, Laurenz. 2012. The homogeneity of West European party families: The radical right in comparative perspective. Party Politics 18(2): 151–171. https://doi.org/10.1177/1354068810382936.
Esping-Andersen, Gosta. 1990. The three worlds of welfare capitalism. Cambridge: Polity Press.
Everitt, Brian S., und Torsten Hothorn. 2011a. An introduction to applied multivariate analysis with R. New York: Springer New York. https://doi.org/10.1007/978-1-4419-9650-3.
Everitt, Brian S., und Torsten Hothorn. 2011b. Cluster analysis. In An introduction to applied multivariate analysis with R, 163–200. New York: Springer New York. https://doi.org/10.1007/978-1-4419-9650-3_6.
Everitt, Brian S., Sabine Landau, Morven Leese, und Daniel Stahl, Hrsg. 2011. Cluster analysis, Wiley series in probability and statistics, 5. Aufl. Chichester: Wiley.
Francia, Peter L., John C. Green, Paul S. Herrnson, Lynda W. Powell, und Clyde Wilcox. 2005. Limousine liberals and corporate conservatives: The financial constituencies of the democratic and republican parties. Social Science Quarterly 86(4): 761–778. https://doi.org/10.1111/j.0038-4941.2005.00354.x.
Gehne, David H. 2008. Bürgermeisterwahlen in Nordrhein-Westfalen, Stadtforschung aktuell, Bd. 111. Wiesbaden: VS Verlag für Sozialwissenschaften.
Geiling, Heiko, Hrsg. 2011. Migration – Teilhabe – Milieus: Spätaussiedler und türkeistämmige Deutsche im sozialen Raum, 1. Aufl. Wiesbaden: VS Verlag für Sozialwissenschaften.
Gnanadesikan, R., J. R. Kettenring, und S. L. Tsao. 1995. Weighting and selection of variables for cluster analysis. Journal of Classification 12(1): 113–136. https://doi.org/10.1007/BF01202271.
Grimmer, Justin. 2010. A bayesian hierarchical topic model for political texts: Measuring expressed agendas in senate press releases. Political Analysis 18(1): 1–35. https://doi.org/10.1093/pan/mpp034.
Grimmer, Justin, und Brandon M. Stewart. 2013. Text as data: The promise and pitfalls of automatic content analysis methods for political texts. Political Analysis 21(3): 267–297. https://doi.org/10.1093/pan/mps028.
Handl, Andreas, und Torben Kuhlenkasper. 2017. Multivariate Analysemethoden: Theorie und Praxis mit R, 3., wesentl. überarb. Aufl. Statistik und ihre Anwendungen. Berlin: Springer Spektrum.
Hellbrück, Reiner. 2016. Angewandte Statistik mit R. Wiesbaden: Springer Fachmedien Wiesbaden. https://doi.org/10.1007/978-3-658-12862-3.
Hennig, Christian M. 2016. Clustering strategy and method selection. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 703–730. Boca Raton: CRC Press, Taylor & Francis Group.
Hennig, Christian M., Marina Meilă, Fionn Murtagh, und Roberto Rocci, Hrsg. 2016. Handbook of cluster analysis, Chapman & Hall/CRC handbooks of modern statistical methods 9. Boca Raton: CRC Press, Taylor & Francis Group.
Höppner, Frank, Frank Klawonn, Rudolf Kruse, und Thomas Runkler. 1999. Fuzzy cluster analysis: Methods for classification, data analysis, and image recognition. Chichester/New York: J. Wiley.
Huang, Hanwen, Yufeng Liu, David N. Hayes, Andrew Nobel, J. S. Marron, und Christian M. Hennig. 2016. Significance testing in clustering. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 315–335. Boca Raton: CRC Press, Taylor & Francis Group.
Jain, Anil K. 2010. Data clustering: 50 years beyond K-means. Pattern Recognition Letters 31(8): 651–666. https://doi.org/10.1016/j.patrec.2009.09.011.
Jang, Jaewon, und David Hitchcock. 2012. Model-based cluster analysis of democracies. Journal of Data Science 10(2): 321–343.
Jayaram, Balasubramaniam, und Frank Klawonn. 2013. Can fuzzy clustering avoid local minima and undesired partitions? In Computational intelligence in intelligent data analysis, Hrsg. Christian Moewes und Andreas Nürnberger, 31–44. Berlin/Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-642-32378-2_3.
Jefferson West, W. 2005. Regional cleavages in turkish politics: An electoral geography of the 1999 and 2002 national elections. Political Geography 24(4): 499–523. https://doi.org/10.1016/j.polgeo.2005.01.003.
Kaufman, Leonard, und Peter J. Rousseeuw. 2005. Finding groups in data: An introduction to cluster analysis, Wiley series in probability and mathematical statistics. Hoboken: Wiley.
Klawonn, Frank. 2004. Fuzzy clustering: Insights and new approach. Mathware and Soft Computing 11(2–3): 125–142.
Leisch, Friedrich. 2016. Resampling methods for exploring cluster stability. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 637–652. Boca Raton: CRC Press, Taylor & Francis Group.
Lemke, Matthias, und Gregor Wiedemann, Hrsg. 2016. Text Mining in den Sozialwissenschaften. Wiesbaden: Springer Fachmedien Wiesbaden. https://doi.org/10.1007/978-3-658-07224-7.
Lijphart, Arend. 1999. Patterns of democracy : Government forms and performance in thirty-six countries. New Haven: Yale University Press.
Maag, Simon, und Hanspeter Kriesi. 2016. Politicisation, conflicts and the structuring of the EU political space. In Politicising Europe, Hrsg. Swen Hutter, Edgar Grande und Hanspeter Kriesi, 207–239. Cambridge: Cambridge University Press. https://doi.org/10.1017/CBO9781316422991.010.
Milligan, Glenn W., und Martha C. Cooper. 1988. A study of standardization of variables in cluster analysis. Journal of Classification 5(2): 181–204. https://doi.org/10.1007/BF01897163.
Mirkin, Boris. 2016. Quadratic error and k-means. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 33–54. Boca Raton: CRC Press, Taylor & Francis Group.
Mochmann, Ingvill C., und Yasemin El-menouar. 2005. Lifestyle groups, social milieus and party preference in eastern and western Germany: Theoretical considerations and empirical results. German Politics 14(4): 417–437. https://doi.org/10.1080/09644000500340594.
Mojena, Richard. 1977. Hierarchical grouping methods and stopping rules: An evaluation. The Computer Journal 20(4): 359–363. https://doi.org/10.1093/comjnl/20.4.359.
Obinger, Herbert, und Uwe Wagschal. 2001. Families of nations and public policy. West European Politics 24(1): 99–114. https://doi.org/10.1080/01402380108425419.
Powell, Martin, und Armando Barrientos. 2004. Welfare regimes and the welfare mix. European Journal of Political Research 43(1): 83–105. https://doi.org/10.1111/j.1475-6765.2004.00146.x.
Rabe-Hesketh, Sophia, und Brian S. Everitt. 2007. A handbook of statistical analyses using Stata, 4. Aufl. Boca Raton: Chapman & Hall/CRC.
Rousseeuw, Peter J. 1987. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics 20:53–65. https://doi.org/10.1016/0377-0427(87)90125-7.
Saint-Arnaud, Sébastien, und Paul Bernard. 2003. Convergence or resilience? A hierarchical cluster analysis of the welfare regimes in advanced countries. Current Sociology 51(5): 499–527. https://doi.org/10.1177/00113921030515004.
Schneider, Martin R., und Mihai Paunescu. 2012. Changing varieties of capitalism and revealed comparative advantages from 1990 to 2005: A test of the hall and soskice claims. Socio-Economic Review 10(4): 731–753. https://doi.org/10.1093/ser/mwr038.
Stahl, Daniel, und Hannah Sallis. 2012. Model-based cluster analysis. Wiley Interdisciplinary Reviews: Computational Statistics 4(4): 341–358. https://doi.org/10.1002/wics.1204.
Steinley, Douglas. 2016. K-Medoids and other criteria for crisp clustering. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 55–66. Boca Raton: CRC Press, Taylor & Francis Group.
Steinley, Douglas, und Michael J. Brusco. 2007. Initializing K-means batch clustering: A critical evaluation of several techniques. Journal of Classification 24(1): 99–121. https://doi.org/10.1007/s00357-007-0003-0.
Steinley, Douglas, und Michael J. Brusco. 2008. Selection of variables in cluster analysis: An empirical comparison of eight procedures. Psychometrika 73(1): 125–144. https://doi.org/10.1007/s11336-007-9019-y.
Tenscher, Jens, und Philipp Scherer. 2012. Jugend, Politik und Medien: politische Orientierungen und Verhaltensweisen von Jugendlichen in Rheinland-Pfalz, Studien zur politischen Kommunikation, Bd. 4. Wien: Lit.
Tibshirani, Robert, Guenther Walther, und Trevor Hastie. 2001. Estimating the number of clusters in a data set via the gap statistic. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 63(2): 411–423. https://doi.org/10.1111/1467-9868.00293.
Wagschal, Uwe. 1999. Statistik für Politikwissenschaftler. München: Oldenbourg.
Weiss, Sholom M., Nitin Indurkhya, und Tong Zhang. 2010. Fundamentals of predictive text mining, Texts in computer science. London: Springer London. https://doi.org/10.1007/978-1-84996-226-1.
Wiedenbeck, Michael, und Cornelia Züll. 2010. Clusteranalyse. In Handbuch der sozialwissenschaftlichen Datenanalyse, Hrsg. Christof Wolf und Henning Best, 525–552. Wiesbaden: VS Verlag für Sozialwissenschaften. https://doi.org/10.1007/978-3-531-92038-2_21.
Wolfson, Murray, Zagros Madjd-Sadjadi, und Patrick James. 2004. Identifying national types: A cluster analysis of politics, economics, and conflict. Journal of Peace Research 41(5): 607–623. https://doi.org/10.1177/0022343304045975.
Xu, Rui, und Donald C. Wunsch. 2009. Clustering, IEEE Press series on computational intelligence. Hoboken/Piscataway: Wiley/IEEE Press.
Author information
Authors and Affiliations
Corresponding author
Editor information
Editors and Affiliations
Rights and permissions
Copyright information
© 2018 Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature
About this entry
Cite this entry
König, P.D. (2018). Clusteranalysen. In: Wagemann, C., Goerres, A., Siewert, M. (eds) Handbuch Methoden der Politikwissenschaft. Springer Reference Sozialwissenschaften. Springer VS, Wiesbaden. https://doi.org/10.1007/978-3-658-16937-4_32-1
Download citation
DOI: https://doi.org/10.1007/978-3-658-16937-4_32-1
Received:
Accepted:
Published:
Publisher Name: Springer VS, Wiesbaden
Print ISBN: 978-3-658-16937-4
Online ISBN: 978-3-658-16937-4
eBook Packages: Springer Referenz Sozialwissenschaften und Recht