Skip to main content

Clusteranalysen

  • Living reference work entry
  • First Online:
Handbuch Methoden der Politikwissenschaft

Part of the book series: Springer Reference Sozialwissenschaften ((SRS))

Zusammenfassung

Das Kapitel gibt einen Überblick über wichtige generelle Schritte und Entscheidungen bei der Durchführung von Clusteranalysen und stellt drei zentrale Varianten vor: (1) die hierarchisch-agglomerative Clusteranalyse, (2) das K-Means-Verfahren und (3) die modellbasierte Gruppenbildung auf Basis angenommener Wahrscheinlichkeitsverteilungen. Im Zuge der Beschreibung der grundlegenden Funktionsweise dieser Verfahren wird auch auf Umsetzungsbeispiele in der politikwissenschaftlichen Forschung sowie auf verfügbare Softwarelösungen verwiesen. Außerdem verdeutlicht die Anwendung der Verfahren auf Beispieldaten, wie die behandelten Verfahren Strukturen in Daten auffinden, wie die Ergebnisse zu interpretieren sind und inwieweit die Varianten im direkten Vergleich zu ähnlichen Ergebnissen gelangen.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Institutional subscriptions

Notes

  1. 1.

    Die Clusteranalyse kann zwar auch zu konfirmatorischen Zwecken eingesetzt werden. Konfirmatorischen Analysen im engeren Sinn steht jedoch der Umstand entgegen, dass gängige Verfahren der Clusteranalyse keine statistischen Hypothesentests beinhalten, anhand welcher der Grad der Entsprechung zu einer bestimmten Clusterstruktur bewertet werden könnte (Wiedenbeck und Züll 2010, S. 525). Hierzu muss man sich mit speziellen Teststatistiken zum Vergleich zwischen Clusterlösungen oder der Bootstrapping-Technik behelfen (Bacher et al. 2010, S. 245–246; Huang et al. 2016).

  2. 2.

    Daneben gibt es spezielle Verfahren, die Variablen unterschiedliche Gewichte, gegebenenfalls auch gar kein Gewicht, zuweisen und darüber ihren Einfluss auf die Clusterbildung variieren (Everitt et al. 2011, S. 66; De Amorim 2012; Steinley und Brusco 2008). Allerdings gibt es für dieses sogenannte feature weighting keine feststehende beste Lösung, und indem man die Auswahl der relevanten Variablen rein dem Verfahren zur Optimierung eines bestimmten Kriteriums überlässt, entfernt man sich weit von einer theoretisch informierten und angeleiteten Analyse.

  3. 3.

    Hierbei sollte berücksichtigt werden, dass sehr unterschiedliche Methoden, die für die Aufdeckung merklich verschiedenartiger Strukturen geeignet sind, folglich auch eher unterschiedliche Ergebnisse liefern. Die Ergebnisse für solche unterschiedlichen Methoden untereinander abzugleichen, ist dann wenig sinnvoll für die Bewertung der Güte einer bestimmten Clusterzahl (Hennig 2016, S. 727).

  4. 4.

    Dabei können Ähnlichkeitsdaten sogar direkt in die Analyse eingehen. Eine Datenmatrix, die Fälle und Variablen enthält, ist also nicht erforderlich.

  5. 5.

    Sie können dabei auf die Lance-Williams-Formel zurückgeführt werden, nach der es nicht nötig ist, die Abstände zwischen den Clustern nach jedem Fusionierungsschritt erneut zu berechnen. Stattdessen kann die Information der vorherigen Ähnlichkeiten sowie dazu, welche Cluster miteinander verschmolzen wurden, genutzt werden (Backhaus et al. 2016, S. 459–460; Everitt et al. 2011, S. 78–80.

  6. 6.

    Ein weiteres Verfahren, das auf eine Visualisierung der Datenbasis und Gruppenstruktur hinausläuft, besteht darin, zunächst eine Dimensionsreduktion über die verwendeten Variablen durchzuführen (üblicherweise über eine Hauptkomponentenanalyse) und die ersten beiden extrahierten Dimensionen (Komponenten) für eine zweidimensionale räumliche Darstellung der Objekte zu nutzen. Diese Abfolge von Schritten führt das R-Paket clusplot auf einen Schlag durch.

  7. 7.

    Die beiden Merkmale basieren auf einer Hauptkomponentenanalyse, in die zum einen Items zum Vertrauen in politische Institutionen sowie zum anderen die Positionen von Personen auf einer sozioökonomischen und einer libertär-autoritären Dimension eingegangen sind. Dies hat den Zweck, feinere Abstufungen auf den so gebildeten Variablen zu erhalten, was insbesondere für die Visualisierung weiter unten von Bedeutung ist.

  8. 8.

    Ähnliche Aussagen lassen sich zudem anhand von Stripes Plots treffen, die für jedes Cluster visuell Auskunft über die einzelnen Objekte eines Clusters geben, wie eindeutig diese dem Cluster im Vergleich zum zweitnächsten Cluster zugeordnet werden (Everitt et al. 2011).

  9. 9.

    Einen ähnlichen Informationswert wie die Silhouetten-Koeffizienten haben die Shadow Values (Everitt et al. 2011, S. 274), aus denen sich ebenfalls ein Indexwert für die Clustertrennung errechnen lässt.

  10. 10.

    Allerdings ist die Bezeichnung K-Means selbst wiederum nicht einheitlich, und es gibt eine große Spanne von Varianten von partitionierenden Algorithmen, die unter K-Means verortet werden oder damit eng verwandt sind.

  11. 11.

    Das Prozedere kann mit einzelnen Objekten nacheinander oder mit allen auf einmal geschehen. Alternativ kann anstelle der direkten Zuordnung auch ein Austausch zwischen Clustern erfolgen. Darüber hinaus gibt es eine Vielzahl spezieller Weiterentwicklungen (Everitt et al. 2011, S. 121–123).

  12. 12.

    Für diese Gleichverteilung werden Datenpunkte in einem niedrig-dimensionalen Raum erzeugt, welcher auf Basis einer vorangehenden Hauptkomponentenanalyse über die Daten beschrieben wird (Everitt et al. 2011, S. 129).

  13. 13.

    Verwendet wurde das R-Paket NbClust.

  14. 14.

    Daneben gibt es noch weitere, seltener genutzte Verfahren, die mit K-Means verwandt sind (Steinley 2016).

  15. 15.

    Dazu zählt auch die Analyse latenter Klassen, die ein clusteranalytisches Verfahren für Daten mit kategorialen Variablen darstellt (allerdings sind auch Erweiterungen für Berechnungen mit gemischten Skalenniveaus möglich). Durch die Anforderungen an die Datenstruktur sind die Anwendungsfelder des Verfahrens recht beschränkt, weshalb diese nicht eigens behandelt, sondern stattdessen das modellbasierte Cluster auf Basis von Wahrscheinlichkeitsdichten vorgestellt wird. Die Analyse latenter Klassen fußt auf der Annahme, dass sich gegebene Objekte in homogene Klassen einteilen lassen. Dafür werden die Klassen so gebildet, dass die Merkmale der Objekte innerhalb der Klassen unabhängig voneinander sind, und ihr gemeinsames Auftreten durch die Klassen aufgeklärt wird (Bacher und Vermunt 2010).

Literatur

  • Aggarwal, Charu C., und Cheng Xiang Zhai, Hrsg. 2012. Mining text data. New York: Springer.

    Google Scholar 

  • Ahlquist, John S., und Christian Breunig. 2012. Model-based clustering and typologies in the social sciences. Political Analysis 20(1): 92–112. https://doi.org/10.1093/pan/mpr039.

    Article  Google Scholar 

  • Arts, W. I. L., und John Gelissen. 2002. Three worlds of welfare capitalism or more? A state-of-the-art report. Journal of European Social Policy 12(2): 137–158. https://doi.org/10.1177/0952872002012002114.

    Article  Google Scholar 

  • Bacher, Johann, und Jeroen K. Vermunt. 2010. „Analyse latenter Klassen“. In Handbuch der sozialwissenschaftlichen Datenanalyse, Hrsg. Christof von Wolf und Henning Best, 553–574. Wiesbaden: VS Verlag für Sozialwissenschaften. https://doi.org/10.1007/978-3-531-92038-2_22.

  • Bacher, Johann, Andreas Pöge, und Knut Wenzig. 2010. Clusteranalyse: anwendungsorientierte Einführung in Klassifikationsverfahren, 3., erg. vollst. überarb. u. neu gestaltete Aufl. München: Oldenbourg.

    Google Scholar 

  • Backhaus, Klaus, Bernd Erichson, Wulff Plinke, und Rolf Weiber. 2016. Multivariate Analysemethoden: eine anwendungsorientierte Einführung, 14., überarb. u. ak. Aufl. Lehrbuch. Berlin/Heidelberg: Springer Gabler.

    Google Scholar 

  • Bambra, Clare. 2007. Defamilisation and welfare state regimes: A cluster analysis. International Journal of Social Welfare 16(4): 326–338. https://doi.org/10.1111/j.1468-2397.2007.00486.x.

    Article  Google Scholar 

  • Banfield, Jeffrey D., und Adrian E. Raftery. 1993. Model-based gaussian and non-gaussian clustering. Biometrics 49(3): 803. https://doi.org/10.2307/2532201.

    Article  Google Scholar 

  • Castles, Francis Geoffrey, Hrsg. 1993. Families of nations. Patterns of public policy in western democracies. Aldershot: Dartmouth.

    Google Scholar 

  • De Amorim, Renato Cordeiro. 2012. Feature weighting for clustering. Saarbrücken: Lap Lambert Academic Publ.

    Google Scholar 

  • Ennser, Laurenz. 2012. The homogeneity of West European party families: The radical right in comparative perspective. Party Politics 18(2): 151–171. https://doi.org/10.1177/1354068810382936.

    Article  Google Scholar 

  • Esping-Andersen, Gosta. 1990. The three worlds of welfare capitalism. Cambridge: Polity Press.

    Google Scholar 

  • Everitt, Brian S., und Torsten Hothorn. 2011a. An introduction to applied multivariate analysis with R. New York: Springer New York. https://doi.org/10.1007/978-1-4419-9650-3.

    Book  Google Scholar 

  • Everitt, Brian S., und Torsten Hothorn. 2011b. Cluster analysis. In An introduction to applied multivariate analysis with R, 163–200. New York: Springer New York. https://doi.org/10.1007/978-1-4419-9650-3_6.

    Chapter  Google Scholar 

  • Everitt, Brian S., Sabine Landau, Morven Leese, und Daniel Stahl, Hrsg. 2011. Cluster analysis, Wiley series in probability and statistics, 5. Aufl. Chichester: Wiley.

    Google Scholar 

  • Francia, Peter L., John C. Green, Paul S. Herrnson, Lynda W. Powell, und Clyde Wilcox. 2005. Limousine liberals and corporate conservatives: The financial constituencies of the democratic and republican parties. Social Science Quarterly 86(4): 761–778. https://doi.org/10.1111/j.0038-4941.2005.00354.x.

    Article  Google Scholar 

  • Gehne, David H. 2008. Bürgermeisterwahlen in Nordrhein-Westfalen, Stadtforschung aktuell, Bd. 111. Wiesbaden: VS Verlag für Sozialwissenschaften.

    Google Scholar 

  • Geiling, Heiko, Hrsg. 2011. Migration – Teilhabe – Milieus: Spätaussiedler und türkeistämmige Deutsche im sozialen Raum, 1. Aufl. Wiesbaden: VS Verlag für Sozialwissenschaften.

    Google Scholar 

  • Gnanadesikan, R., J. R. Kettenring, und S. L. Tsao. 1995. Weighting and selection of variables for cluster analysis. Journal of Classification 12(1): 113–136. https://doi.org/10.1007/BF01202271.

    Article  Google Scholar 

  • Grimmer, Justin. 2010. A bayesian hierarchical topic model for political texts: Measuring expressed agendas in senate press releases. Political Analysis 18(1): 1–35. https://doi.org/10.1093/pan/mpp034.

    Article  Google Scholar 

  • Grimmer, Justin, und Brandon M. Stewart. 2013. Text as data: The promise and pitfalls of automatic content analysis methods for political texts. Political Analysis 21(3): 267–297. https://doi.org/10.1093/pan/mps028.

    Article  Google Scholar 

  • Handl, Andreas, und Torben Kuhlenkasper. 2017. Multivariate Analysemethoden: Theorie und Praxis mit R, 3., wesentl. überarb. Aufl. Statistik und ihre Anwendungen. Berlin: Springer Spektrum.

    Google Scholar 

  • Hellbrück, Reiner. 2016. Angewandte Statistik mit R. Wiesbaden: Springer Fachmedien Wiesbaden. https://doi.org/10.1007/978-3-658-12862-3.

    Book  Google Scholar 

  • Hennig, Christian M. 2016. Clustering strategy and method selection. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 703–730. Boca Raton: CRC Press, Taylor & Francis Group.

    Google Scholar 

  • Hennig, Christian M., Marina Meilă, Fionn Murtagh, und Roberto Rocci, Hrsg. 2016. Handbook of cluster analysis, Chapman & Hall/CRC handbooks of modern statistical methods 9. Boca Raton: CRC Press, Taylor & Francis Group.

    Google Scholar 

  • Höppner, Frank, Frank Klawonn, Rudolf Kruse, und Thomas Runkler. 1999. Fuzzy cluster analysis: Methods for classification, data analysis, and image recognition. Chichester/New York: J. Wiley.

    Google Scholar 

  • Huang, Hanwen, Yufeng Liu, David N. Hayes, Andrew Nobel, J. S. Marron, und Christian M. Hennig. 2016. Significance testing in clustering. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 315–335. Boca Raton: CRC Press, Taylor & Francis Group.

    Google Scholar 

  • Jain, Anil K. 2010. Data clustering: 50 years beyond K-means. Pattern Recognition Letters 31(8): 651–666. https://doi.org/10.1016/j.patrec.2009.09.011.

    Article  Google Scholar 

  • Jang, Jaewon, und David Hitchcock. 2012. Model-based cluster analysis of democracies. Journal of Data Science 10(2): 321–343.

    Google Scholar 

  • Jayaram, Balasubramaniam, und Frank Klawonn. 2013. Can fuzzy clustering avoid local minima and undesired partitions? In Computational intelligence in intelligent data analysis, Hrsg. Christian Moewes und Andreas Nürnberger, 31–44. Berlin/Heidelberg: Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-642-32378-2_3.

    Chapter  Google Scholar 

  • Jefferson West, W. 2005. Regional cleavages in turkish politics: An electoral geography of the 1999 and 2002 national elections. Political Geography 24(4): 499–523. https://doi.org/10.1016/j.polgeo.2005.01.003.

    Article  Google Scholar 

  • Kaufman, Leonard, und Peter J. Rousseeuw. 2005. Finding groups in data: An introduction to cluster analysis, Wiley series in probability and mathematical statistics. Hoboken: Wiley.

    Google Scholar 

  • Klawonn, Frank. 2004. Fuzzy clustering: Insights and new approach. Mathware and Soft Computing 11(2–3): 125–142.

    Google Scholar 

  • Leisch, Friedrich. 2016. Resampling methods for exploring cluster stability. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 637–652. Boca Raton: CRC Press, Taylor & Francis Group.

    Google Scholar 

  • Lemke, Matthias, und Gregor Wiedemann, Hrsg. 2016. Text Mining in den Sozialwissenschaften. Wiesbaden: Springer Fachmedien Wiesbaden. https://doi.org/10.1007/978-3-658-07224-7.

    Book  Google Scholar 

  • Lijphart, Arend. 1999. Patterns of democracy : Government forms and performance in thirty-six countries. New Haven: Yale University Press.

    Google Scholar 

  • Maag, Simon, und Hanspeter Kriesi. 2016. Politicisation, conflicts and the structuring of the EU political space. In Politicising Europe, Hrsg. Swen Hutter, Edgar Grande und Hanspeter Kriesi, 207–239. Cambridge: Cambridge University Press. https://doi.org/10.1017/CBO9781316422991.010.

    Chapter  Google Scholar 

  • Milligan, Glenn W., und Martha C. Cooper. 1988. A study of standardization of variables in cluster analysis. Journal of Classification 5(2): 181–204. https://doi.org/10.1007/BF01897163.

    Article  Google Scholar 

  • Mirkin, Boris. 2016. Quadratic error and k-means. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 33–54. Boca Raton: CRC Press, Taylor & Francis Group.

    Google Scholar 

  • Mochmann, Ingvill C., und Yasemin El-menouar. 2005. Lifestyle groups, social milieus and party preference in eastern and western Germany: Theoretical considerations and empirical results. German Politics 14(4): 417–437. https://doi.org/10.1080/09644000500340594.

    Article  Google Scholar 

  • Mojena, Richard. 1977. Hierarchical grouping methods and stopping rules: An evaluation. The Computer Journal 20(4): 359–363. https://doi.org/10.1093/comjnl/20.4.359.

    Article  Google Scholar 

  • Obinger, Herbert, und Uwe Wagschal. 2001. Families of nations and public policy. West European Politics 24(1): 99–114. https://doi.org/10.1080/01402380108425419.

    Article  Google Scholar 

  • Powell, Martin, und Armando Barrientos. 2004. Welfare regimes and the welfare mix. European Journal of Political Research 43(1): 83–105. https://doi.org/10.1111/j.1475-6765.2004.00146.x.

    Article  Google Scholar 

  • Rabe-Hesketh, Sophia, und Brian S. Everitt. 2007. A handbook of statistical analyses using Stata, 4. Aufl. Boca Raton: Chapman & Hall/CRC.

    Google Scholar 

  • Rousseeuw, Peter J. 1987. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics 20:53–65. https://doi.org/10.1016/0377-0427(87)90125-7.

    Article  Google Scholar 

  • Saint-Arnaud, Sébastien, und Paul Bernard. 2003. Convergence or resilience? A hierarchical cluster analysis of the welfare regimes in advanced countries. Current Sociology 51(5): 499–527. https://doi.org/10.1177/00113921030515004.

    Article  Google Scholar 

  • Schneider, Martin R., und Mihai Paunescu. 2012. Changing varieties of capitalism and revealed comparative advantages from 1990 to 2005: A test of the hall and soskice claims. Socio-Economic Review 10(4): 731–753. https://doi.org/10.1093/ser/mwr038.

    Article  Google Scholar 

  • Stahl, Daniel, und Hannah Sallis. 2012. Model-based cluster analysis. Wiley Interdisciplinary Reviews: Computational Statistics 4(4): 341–358. https://doi.org/10.1002/wics.1204.

    Article  Google Scholar 

  • Steinley, Douglas. 2016. K-Medoids and other criteria for crisp clustering. In Handbook of cluster analysis. Chapman & Hall/CRC handbooks of modern statistical methods 9, Hrsg. Christian M. Hennig, Marina Meilă, Fionn Murtagh und Roberto Rocci, 55–66. Boca Raton: CRC Press, Taylor & Francis Group.

    Google Scholar 

  • Steinley, Douglas, und Michael J. Brusco. 2007. Initializing K-means batch clustering: A critical evaluation of several techniques. Journal of Classification 24(1): 99–121. https://doi.org/10.1007/s00357-007-0003-0.

    Article  Google Scholar 

  • Steinley, Douglas, und Michael J. Brusco. 2008. Selection of variables in cluster analysis: An empirical comparison of eight procedures. Psychometrika 73(1): 125–144. https://doi.org/10.1007/s11336-007-9019-y.

    Article  Google Scholar 

  • Tenscher, Jens, und Philipp Scherer. 2012. Jugend, Politik und Medien: politische Orientierungen und Verhaltensweisen von Jugendlichen in Rheinland-Pfalz, Studien zur politischen Kommunikation, Bd. 4. Wien: Lit.

    Google Scholar 

  • Tibshirani, Robert, Guenther Walther, und Trevor Hastie. 2001. Estimating the number of clusters in a data set via the gap statistic. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 63(2): 411–423. https://doi.org/10.1111/1467-9868.00293.

    Article  Google Scholar 

  • Wagschal, Uwe. 1999. Statistik für Politikwissenschaftler. München: Oldenbourg.

    Google Scholar 

  • Weiss, Sholom M., Nitin Indurkhya, und Tong Zhang. 2010. Fundamentals of predictive text mining, Texts in computer science. London: Springer London. https://doi.org/10.1007/978-1-84996-226-1.

    Book  Google Scholar 

  • Wiedenbeck, Michael, und Cornelia Züll. 2010. Clusteranalyse. In Handbuch der sozialwissenschaftlichen Datenanalyse, Hrsg. Christof Wolf und Henning Best, 525–552. Wiesbaden: VS Verlag für Sozialwissenschaften. https://doi.org/10.1007/978-3-531-92038-2_21.

  • Wolfson, Murray, Zagros Madjd-Sadjadi, und Patrick James. 2004. Identifying national types: A cluster analysis of politics, economics, and conflict. Journal of Peace Research 41(5): 607–623. https://doi.org/10.1177/0022343304045975.

    Article  Google Scholar 

  • Xu, Rui, und Donald C. Wunsch. 2009. Clustering, IEEE Press series on computational intelligence. Hoboken/Piscataway: Wiley/IEEE Press.

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Pascal D. König .

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 2018 Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature

About this entry

Check for updates. Verify currency and authenticity via CrossMark

Cite this entry

König, P.D. (2018). Clusteranalysen. In: Wagemann, C., Goerres, A., Siewert, M. (eds) Handbuch Methoden der Politikwissenschaft. Springer Reference Sozialwissenschaften. Springer VS, Wiesbaden. https://doi.org/10.1007/978-3-658-16937-4_32-1

Download citation

  • DOI: https://doi.org/10.1007/978-3-658-16937-4_32-1

  • Received:

  • Accepted:

  • Published:

  • Publisher Name: Springer VS, Wiesbaden

  • Print ISBN: 978-3-658-16937-4

  • Online ISBN: 978-3-658-16937-4

  • eBook Packages: Springer Referenz Sozialwissenschaften und Recht

Publish with us

Policies and ethics