Clusteranalysen

König, Pascal D.

doi:10.1007/978-3-658-16937-4_32-1

Pascal D. König⁴

Part of the book series: Springer Reference Sozialwissenschaften ((SRS))

1308 Accesses
1 Citations
1 Altmetric

Zusammenfassung

Das Kapitel gibt einen Überblick über wichtige generelle Schritte und Entscheidungen bei der Durchführung von Clusteranalysen und stellt drei zentrale Varianten vor: (1) die hierarchisch-agglomerative Clusteranalyse, (2) das K-Means-Verfahren und (3) die modellbasierte Gruppenbildung auf Basis angenommener Wahrscheinlichkeitsverteilungen. Im Zuge der Beschreibung der grundlegenden Funktionsweise dieser Verfahren wird auch auf Umsetzungsbeispiele in der politikwissenschaftlichen Forschung sowie auf verfügbare Softwarelösungen verwiesen. Außerdem verdeutlicht die Anwendung der Verfahren auf Beispieldaten, wie die behandelten Verfahren Strukturen in Daten auffinden, wie die Ergebnisse zu interpretieren sind und inwieweit die Varianten im direkten Vergleich zu ähnlichen Ergebnissen gelangen.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Institutional subscriptions

Notes

1.
Die Clusteranalyse kann zwar auch zu konfirmatorischen Zwecken eingesetzt werden. Konfirmatorischen Analysen im engeren Sinn steht jedoch der Umstand entgegen, dass gängige Verfahren der Clusteranalyse keine statistischen Hypothesentests beinhalten, anhand welcher der Grad der Entsprechung zu einer bestimmten Clusterstruktur bewertet werden könnte (Wiedenbeck und Züll 2010, S. 525). Hierzu muss man sich mit speziellen Teststatistiken zum Vergleich zwischen Clusterlösungen oder der Bootstrapping-Technik behelfen (Bacher et al. 2010, S. 245–246; Huang et al. 2016).
2.
Daneben gibt es spezielle Verfahren, die Variablen unterschiedliche Gewichte, gegebenenfalls auch gar kein Gewicht, zuweisen und darüber ihren Einfluss auf die Clusterbildung variieren (Everitt et al. 2011, S. 66; De Amorim 2012; Steinley und Brusco 2008). Allerdings gibt es für dieses sogenannte feature weighting keine feststehende beste Lösung, und indem man die Auswahl der relevanten Variablen rein dem Verfahren zur Optimierung eines bestimmten Kriteriums überlässt, entfernt man sich weit von einer theoretisch informierten und angeleiteten Analyse.
3.
Hierbei sollte berücksichtigt werden, dass sehr unterschiedliche Methoden, die für die Aufdeckung merklich verschiedenartiger Strukturen geeignet sind, folglich auch eher unterschiedliche Ergebnisse liefern. Die Ergebnisse für solche unterschiedlichen Methoden untereinander abzugleichen, ist dann wenig sinnvoll für die Bewertung der Güte einer bestimmten Clusterzahl (Hennig 2016, S. 727).
4.
Dabei können Ähnlichkeitsdaten sogar direkt in die Analyse eingehen. Eine Datenmatrix, die Fälle und Variablen enthält, ist also nicht erforderlich.
5.
Sie können dabei auf die Lance-Williams-Formel zurückgeführt werden, nach der es nicht nötig ist, die Abstände zwischen den Clustern nach jedem Fusionierungsschritt erneut zu berechnen. Stattdessen kann die Information der vorherigen Ähnlichkeiten sowie dazu, welche Cluster miteinander verschmolzen wurden, genutzt werden (Backhaus et al. 2016, S. 459–460; Everitt et al. 2011, S. 78–80.
6.
Ein weiteres Verfahren, das auf eine Visualisierung der Datenbasis und Gruppenstruktur hinausläuft, besteht darin, zunächst eine Dimensionsreduktion über die verwendeten Variablen durchzuführen (üblicherweise über eine Hauptkomponentenanalyse) und die ersten beiden extrahierten Dimensionen (Komponenten) für eine zweidimensionale räumliche Darstellung der Objekte zu nutzen. Diese Abfolge von Schritten führt das R-Paket clusplot auf einen Schlag durch.
7.
Die beiden Merkmale basieren auf einer Hauptkomponentenanalyse, in die zum einen Items zum Vertrauen in politische Institutionen sowie zum anderen die Positionen von Personen auf einer sozioökonomischen und einer libertär-autoritären Dimension eingegangen sind. Dies hat den Zweck, feinere Abstufungen auf den so gebildeten Variablen zu erhalten, was insbesondere für die Visualisierung weiter unten von Bedeutung ist.
8.
Ähnliche Aussagen lassen sich zudem anhand von Stripes Plots treffen, die für jedes Cluster visuell Auskunft über die einzelnen Objekte eines Clusters geben, wie eindeutig diese dem Cluster im Vergleich zum zweitnächsten Cluster zugeordnet werden (Everitt et al. 2011).
9.
Einen ähnlichen Informationswert wie die Silhouetten-Koeffizienten haben die Shadow Values (Everitt et al. 2011, S. 274), aus denen sich ebenfalls ein Indexwert für die Clustertrennung errechnen lässt.
10.
Allerdings ist die Bezeichnung K-Means selbst wiederum nicht einheitlich, und es gibt eine große Spanne von Varianten von partitionierenden Algorithmen, die unter K-Means verortet werden oder damit eng verwandt sind.
11.
Das Prozedere kann mit einzelnen Objekten nacheinander oder mit allen auf einmal geschehen. Alternativ kann anstelle der direkten Zuordnung auch ein Austausch zwischen Clustern erfolgen. Darüber hinaus gibt es eine Vielzahl spezieller Weiterentwicklungen (Everitt et al. 2011, S. 121–123).
12.
Für diese Gleichverteilung werden Datenpunkte in einem niedrig-dimensionalen Raum erzeugt, welcher auf Basis einer vorangehenden Hauptkomponentenanalyse über die Daten beschrieben wird (Everitt et al. 2011, S. 129).
13.
Verwendet wurde das R-Paket NbClust.
14.
Daneben gibt es noch weitere, seltener genutzte Verfahren, die mit K-Means verwandt sind (Steinley 2016).
15.
Dazu zählt auch die Analyse latenter Klassen, die ein clusteranalytisches Verfahren für Daten mit kategorialen Variablen darstellt (allerdings sind auch Erweiterungen für Berechnungen mit gemischten Skalenniveaus möglich). Durch die Anforderungen an die Datenstruktur sind die Anwendungsfelder des Verfahrens recht beschränkt, weshalb diese nicht eigens behandelt, sondern stattdessen das modellbasierte Cluster auf Basis von Wahrscheinlichkeitsdichten vorgestellt wird. Die Analyse latenter Klassen fußt auf der Annahme, dass sich gegebene Objekte in homogene Klassen einteilen lassen. Dafür werden die Klassen so gebildet, dass die Merkmale der Objekte innerhalb der Klassen unabhängig voneinander sind, und ihr gemeinsames Auftreten durch die Klassen aufgeklärt wird (Bacher und Vermunt 2010).

Literatur

Aggarwal, Charu C., und Cheng Xiang Zhai, Hrsg. 2012. Mining text data. New York: Springer.
Google Scholar
Ahlquist, John S., und Christian Breunig. 2012. Model-based clustering and typologies in the social sciences. Political Analysis 20(1): 92–112. https://doi.org/10.1093/pan/mpr039.
Article Google Scholar
Arts, W. I. L., und John Gelissen. 2002. Three worlds of welfare capitalism or more? A state-of-the-art report. Journal of European Social Policy 12(2): 137–158. https://doi.org/10.1177/0952872002012002114.
Article Google Scholar
Bacher, Johann, und Jeroen K. Vermunt. 2010. „Analyse latenter Klassen“. In Handbuch der sozialwissenschaftlichen Datenanalyse, Hrsg. Christof von Wolf und Henning Best, 553–574. Wiesbaden: VS Verlag für Sozialwissenschaften. https://doi.org/10.1007/978-3-531-92038-2_22.
Bacher, Johann, Andreas Pöge, und Knut Wenzig. 2010. Clusteranalyse: anwendungsorientierte Einführung in Klassifikationsverfahren, 3., erg. vollst. überarb. u. neu gestaltete Aufl. München: Oldenbourg.
Google Scholar
Backhaus, Klaus, Bernd Erichson, Wulff Plinke, und Rolf Weiber. 2016. Multivariate Analysemethoden: eine anwendungsorientierte Einführung, 14., überarb. u. ak. Aufl. Lehrbuch. Berlin/Heidelberg: Springer Gabler.
Google Scholar
Bambra, Clare. 2007. Defamilisation and welfare state regimes: A cluster analysis. International Journal of Social Welfare 16(4): 326–338. https://doi.org/10.1111/j.1468-2397.2007.00486.x.
Article Google Scholar
Banfield, Jeffrey D., und Adrian E. Raftery. 1993. Model-based gaussian and non-gaussian clustering. Biometrics 49(3): 803. https://doi.org/10.2307/2532201.
Article Google Scholar
Castles, Francis Geoffrey, Hrsg. 1993. Families of nations. Patterns of public policy in western democracies. Aldershot: Dartmouth.
Google Scholar
De Amorim, Renato Cordeiro. 2012. Feature weighting for clustering. Saarbrücken: Lap Lambert Academic Publ.
Google Scholar
Ennser, Laurenz. 2012. The homogeneity of West European party families: The radical right in comparative perspective. Party Politics 18(2): 151–171. https://doi.org/10.1177/1354068810382936.
Article Google Scholar
Esping-Andersen, Gosta. 1990. The three worlds of welfare capitalism. Cambridge: Polity Press.
Google Scholar
Everitt, Brian S., und Torsten Hothorn. 2011a. An introduction to applied multivariate analysis with R. New York: Springer New York. https://doi.org/10.1007/978-1-4419-9650-3.
Book Google Scholar
Everitt, Brian S., und Torsten Hothorn. 2011b. Cluster analysis. In An introduction to applied multivariate analysis with R, 163–200. New York: Springer New York. https://doi.org/10.1007/978-1-4419-9650-3_6.
Chapter Google Scholar
Everitt, Brian S., Sabine Landau, Morven Leese, und Daniel Stahl, Hrsg. 2011. Cluster analysis, Wiley series in probability and statistics, 5. Aufl. Chichester: Wiley.
Google Scholar
Francia, Peter L., John C. Green, Paul S. Herrnson, Lynda W. Powell, und Clyde Wilcox. 2005. Limousine liberals and corporate conservatives: The financial constituencies of the democratic and republican parties. Social Science Quarterly 86(4): 761–778. https://doi.org/10.1111/j.0038-4941.2005.00354.x.
Article Google Scholar
Gehne, David H. 2008. Bürgermeisterwahlen in Nordrhein-Westfalen, Stadtforschung aktuell, Bd. 111. Wiesbaden: VS Verlag für Sozialwissenschaften.
Google Scholar
Geiling, Heiko, Hrsg. 2011. Migration – Teilhabe – Milieus: Spätaussiedler und türkeistämmige Deutsche im sozialen Raum, 1. Aufl. Wiesbaden: VS Verlag für Sozialwissenschaften.
Google Scholar
Gnanadesikan, R., J. R. Kettenring, und S. L. Tsao. 1995. Weighting and selection of variables for cluster analysis. Journal of Classification 12(1): 113–136. https://doi.org/10.1007/BF01202271.
Article Google Scholar
Grimmer, Justin. 2010. A bayesian hierarchical topic model for political texts: Measuring expressed agendas in senate press releases. Political Analysis 18(1): 1–35. https://doi.org/10.1093/pan/mpp034.
Article Google Scholar
Grimmer, Justin, und Brandon M. Stewart. 2013. Text as data: The promise and pitfalls of automatic content analysis methods for political texts. Political Analysis 21(3): 267–297. https://doi.org/10.1093/pan/mps028.
Article Google Scholar
Handl, Andreas, und Torben Kuhlenkasper. 2017. Multivariate Analysemethoden: Theorie und Praxis mit R, 3., wesentl. überarb. Aufl. Statistik und ihre Anwendungen. Berlin: Springer Spektrum.
Google Scholar
Hellbrück, Reiner. 2016. Angewandte Statistik mit R. Wiesbaden: Springer Fachmedien Wiesbaden. https://doi.org/10.1007/978-3-658-12862-3.
Book Google Scholar
Hennig, Christian M. 2016. Clustering strategy and method selection. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 703–730. Boca Raton: CRC Press, Taylor & Francis Group.
Google Scholar
Hennig, Christian M., Marina Meilă, Fionn Murtagh, und Roberto Rocci, Hrsg. 2016. Handbook of cluster analysis, Chapman & Hall/CRC handbooks of modern statistical methods 9. Boca Raton: CRC Press, Taylor & Francis Group.
Google Scholar
Höppner, Frank, Frank Klawonn, Rudolf Kruse, und Thomas Runkler. 1999. Fuzzy cluster analysis: Methods for classification, data analysis, and image recognition. Chichester/New York: J. Wiley.
Google Scholar
Huang, Hanwen, Yufeng Liu, David N. Hayes, Andrew Nobel, J. S. Marron, und Christian M. Hennig. 2016. Significance testing in clustering. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 315–335. Boca Raton: CRC Press, Taylor & Francis Group.
Google Scholar
Jain, Anil K. 2010. Data clustering: 50 years beyond K-means. Pattern Recognition Letters 31(8): 651–666. https://doi.org/10.1016/j.patrec.2009.09.011.
Article Google Scholar
Jang, Jaewon, und David Hitchcock. 2012. Model-based cluster analysis of democracies. Journal of Data Science 10(2): 321–343.
Google Scholar
Jayaram, Balasubramaniam, und Frank Klawonn. 2013. Can fuzzy clustering avoid local minima and undesired partitions? In Computational intelligence in intelligent data analysis, Hrsg. Christian Moewes und Andreas Nürnberger, 31–44. Berlin/Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-642-32378-2_3.
Chapter Google Scholar
Jefferson West, W. 2005. Regional cleavages in turkish politics: An electoral geography of the 1999 and 2002 national elections. Political Geography 24(4): 499–523. https://doi.org/10.1016/j.polgeo.2005.01.003.
Article Google Scholar
Kaufman, Leonard, und Peter J. Rousseeuw. 2005. Finding groups in data: An introduction to cluster analysis, Wiley series in probability and mathematical statistics. Hoboken: Wiley.
Google Scholar
Klawonn, Frank. 2004. Fuzzy clustering: Insights and new approach. Mathware and Soft Computing 11(2–3): 125–142.
Google Scholar
Leisch, Friedrich. 2016. Resampling methods for exploring cluster stability. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 637–652. Boca Raton: CRC Press, Taylor & Francis Group.
Google Scholar
Lemke, Matthias, und Gregor Wiedemann, Hrsg. 2016. Text Mining in den Sozialwissenschaften. Wiesbaden: Springer Fachmedien Wiesbaden. https://doi.org/10.1007/978-3-658-07224-7.
Book Google Scholar
Lijphart, Arend. 1999. Patterns of democracy : Government forms and performance in thirty-six countries. New Haven: Yale University Press.
Google Scholar
Maag, Simon, und Hanspeter Kriesi. 2016. Politicisation, conflicts and the structuring of the EU political space. In Politicising Europe, Hrsg. Swen Hutter, Edgar Grande und Hanspeter Kriesi, 207–239. Cambridge: Cambridge University Press. https://doi.org/10.1017/CBO9781316422991.010.
Chapter Google Scholar
Milligan, Glenn W., und Martha C. Cooper. 1988. A study of standardization of variables in cluster analysis. Journal of Classification 5(2): 181–204. https://doi.org/10.1007/BF01897163.
Article Google Scholar
Mirkin, Boris. 2016. Quadratic error and k-means. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 33–54. Boca Raton: CRC Press, Taylor & Francis Group.
Google Scholar
Mochmann, Ingvill C., und Yasemin El-menouar. 2005. Lifestyle groups, social milieus and party preference in eastern and western Germany: Theoretical considerations and empirical results. German Politics 14(4): 417–437. https://doi.org/10.1080/09644000500340594.
Article Google Scholar
Mojena, Richard. 1977. Hierarchical grouping methods and stopping rules: An evaluation. The Computer Journal 20(4): 359–363. https://doi.org/10.1093/comjnl/20.4.359.
Article Google Scholar
Obinger, Herbert, und Uwe Wagschal. 2001. Families of nations and public policy. West European Politics 24(1): 99–114. https://doi.org/10.1080/01402380108425419.
Article Google Scholar
Powell, Martin, und Armando Barrientos. 2004. Welfare regimes and the welfare mix. European Journal of Political Research 43(1): 83–105. https://doi.org/10.1111/j.1475-6765.2004.00146.x.
Article Google Scholar
Rabe-Hesketh, Sophia, und Brian S. Everitt. 2007. A handbook of statistical analyses using Stata, 4. Aufl. Boca Raton: Chapman & Hall/CRC.
Google Scholar
Rousseeuw, Peter J. 1987. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics 20:53–65. https://doi.org/10.1016/0377-0427(87)90125-7.
Article Google Scholar
Saint-Arnaud, Sébastien, und Paul Bernard. 2003. Convergence or resilience? A hierarchical cluster analysis of the welfare regimes in advanced countries. Current Sociology 51(5): 499–527. https://doi.org/10.1177/00113921030515004.
Article Google Scholar
Schneider, Martin R., und Mihai Paunescu. 2012. Changing varieties of capitalism and revealed comparative advantages from 1990 to 2005: A test of the hall and soskice claims. Socio-Economic Review 10(4): 731–753. https://doi.org/10.1093/ser/mwr038.
Article Google Scholar
Stahl, Daniel, und Hannah Sallis. 2012. Model-based cluster analysis. Wiley Interdisciplinary Reviews: Computational Statistics 4(4): 341–358. https://doi.org/10.1002/wics.1204.
Article Google Scholar
Steinley, Douglas. 2016. K-Medoids and other criteria for crisp clustering. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 55–66. Boca Raton: CRC Press, Taylor & Francis Group.
Google Scholar
Steinley, Douglas, und Michael J. Brusco. 2007. Initializing K-means batch clustering: A critical evaluation of several techniques. Journal of Classification 24(1): 99–121. https://doi.org/10.1007/s00357-007-0003-0.
Article Google Scholar
Steinley, Douglas, und Michael J. Brusco. 2008. Selection of variables in cluster analysis: An empirical comparison of eight procedures. Psychometrika 73(1): 125–144. https://doi.org/10.1007/s11336-007-9019-y.
Article Google Scholar
Tenscher, Jens, und Philipp Scherer. 2012. Jugend, Politik und Medien: politische Orientierungen und Verhaltensweisen von Jugendlichen in Rheinland-Pfalz, Studien zur politischen Kommunikation, Bd. 4. Wien: Lit.
Google Scholar
Tibshirani, Robert, Guenther Walther, und Trevor Hastie. 2001. Estimating the number of clusters in a data set via the gap statistic. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 63(2): 411–423. https://doi.org/10.1111/1467-9868.00293.
Article Google Scholar
Wagschal, Uwe. 1999. Statistik für Politikwissenschaftler. München: Oldenbourg.
Google Scholar
Weiss, Sholom M., Nitin Indurkhya, und Tong Zhang. 2010. Fundamentals of predictive text mining, Texts in computer science. London: Springer London. https://doi.org/10.1007/978-1-84996-226-1.
Book Google Scholar
Wiedenbeck, Michael, und Cornelia Züll. 2010. Clusteranalyse. In Handbuch der sozialwissenschaftlichen Datenanalyse, Hrsg. Christof Wolf und Henning Best, 525–552. Wiesbaden: VS Verlag für Sozialwissenschaften. https://doi.org/10.1007/978-3-531-92038-2_21.
Wolfson, Murray, Zagros Madjd-Sadjadi, und Patrick James. 2004. Identifying national types: A cluster analysis of politics, economics, and conflict. Journal of Peace Research 41(5): 607–623. https://doi.org/10.1177/0022343304045975.
Article Google Scholar
Xu, Rui, und Donald C. Wunsch. 2009. Clustering, IEEE Press series on computational intelligence. Hoboken/Piscataway: Wiley/IEEE Press.
Google Scholar

Download references

Author information

Authors and Affiliations

Institut für Politikwissenschaft, Goethe Universität Frankfurt, Frankfurt, Deutschland
Pascal D. König

Authors

Pascal D. König
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Pascal D. König .

Editor information

Editors and Affiliations

Methodenzentrum Sozialwissenschaft, Goethe-Universität Frankfurt Methodenzentrum Sozialwissenschaft, Frankfurt, Hessen, Germany
Claudius Wagemann
Institute for Political Sciences, University of Duisburg-Essen Institute for Political Sciences, Duisburg, Germany
Achim Goerres
Institut für Politikwissenschaft, Goethe-Universität Frankfurt am Main Institut für Politikwissenschaft, Frankfurt, Hessen, Germany
Markus Siewert

Rights and permissions

Reprints and permissions

Copyright information

About this entry

Cite this entry

König, P.D. (2018). Clusteranalysen. In: Wagemann, C., Goerres, A., Siewert, M. (eds) Handbuch Methoden der Politikwissenschaft. Springer Reference Sozialwissenschaften. Springer VS, Wiesbaden. https://doi.org/10.1007/978-3-658-16937-4_32-1

Download citation

DOI: https://doi.org/10.1007/978-3-658-16937-4_32-1
Received: 30 June 2017
Accepted: 26 June 2018
Published: 24 July 2018
Publisher Name: Springer VS, Wiesbaden
Print ISBN: 978-3-658-16937-4
Online ISBN: 978-3-658-16937-4
eBook Packages: Springer Referenz Sozialwissenschaften und Recht

Publish with us

Policies and ethics