Skip to main content

Die Nutzung von Webdaten in den Sozialwissenschaften

  • Living reference work entry
  • First Online:
Book cover Handbuch Methoden der Politikwissenschaft

Part of the book series: Springer Reference Sozialwissenschaften ((SRS))

  • 529 Accesses

Zusammenfassung

Das Kapitel bietet einen Überblick der Webdatensammlung für die sozialwissenschaftliche Forschung. Zu diesem Zweck wird nach einem praktischen Beispiel eine Übersicht der grundlegenden Webtechnologien geboten, um in einem zweiten Schritt einen vertiefenden Blick auf das Web Scraping einerseits und Programmierschnittstellen andererseits zu werfen. Die praktische Umsetzung der Webdatensammlung wird mit Code-Beispielen in der Programmiersprache R illustriert. Nach der praktischen Einführung werden Potenziale und Herausforderungen der webbasierten Sozialwissenschaft am Beispiel ausgewählter Anwendungen aus der aktuellen Forschungsliteratur diskutiert. Abschließend werden verschiedene technische und konzeptionelle Problemstellungen der Webdatensammlung dargelegt und einige weiterführende Literaturhinweise für die vertiefte Auseinandersetzung mit den Themen des Kapitels geboten.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Institutional subscriptions

Notes

  1. 1.

    Trotz ihrer engen Verwandtschaft ist das Interesse der Sozialwissenschaft häufig besser mit den Begriffen des Web Scraping oder des Web Harvesting beschrieben. Hier steht die Sammlung einer bestimmten Materialmenge für die weitere Analyse im Vordergrund, während beim Web Crawling, das auch unter dem Begriff des Web Spidering diskutiert wird, das Anliegen eher in der Indexierung von Webseiten und den Beziehungsnetzwerken zwischen Seiten besteht. So machen sich Web Crawler die internen und externen Verlinkungen auf einer Webseite zunutze, um das Beziehungsgeflecht zwischen verschiedenen Seiten zu erfassen. Diese Unterscheidung schließt freilich nicht aus, dass es durchaus sozialwissenschaftliche Anwendungen gibt, die sich Techniken des Web Crawling zunutze machen, etwa in der Analyse von Beziehungsnetzwerken in einem bestimmten Politikfeld (Ackland und O’Neil 2011; McNutt und Pal 2011).

  2. 2.

    Den Code für diese Übung haben wir in folgendem GitHub-Archiv hinterlegt: https://github.com/simonmunzert/munzert-nyhuis-webdaten.

  3. 3.

    Die Details der Schritte werden in Abschn. 3 erläutert.

  4. 4.

    Die Abweichung von der Größe des 18. Deutschen Bundestags mit seinen 630 Mitgliedern ergibt sich durch Nachrücker für ausscheidende Abgeordnete.

  5. 5.

    Die ersten vier Einträge unterscheiden sich von den ersten vier Einträgen zuvor, da wir im Zuge des Downloads neue Namen für die HTML-Seiten nach der Konvention Vorname_Nachname.html vergeben. Die heruntergeladenen Dokumente auf unserer Festplatte sind also anders sortiert als die Einträge auf der Index-Seite der Wikipedia.

  6. 6.

    Der PageRank-Algorithmus wurde 1996 von den Google-Gründern Larry Page und Sergey Brin entwickelt, der später zur Grundlage der Suchmaschine wurde.

  7. 7.

    Die Bedeutung von Programmierschnittstellen für moderne Web-Infrastrukturen geht weit über die Bedürfnisse der automatischen Datensammlung hinaus. Auch Anwendungen von Drittanbietern, die auf Plattformen wie Twitter oder Facebook aufsetzen, machen sich die Zugangs- und Abfragemöglichkeiten von APIs zunutze, beispielsweise der bekannte Twitter-Client Tweetbot.

  8. 8.

    Einen Überblick bietet das Projekt rOpenSci (https://ropensci.org/).

  9. 9.

    Im Original „volume, velocity, variety, vinculation, and validity“ (Monroe 2013, S. 1).

  10. 10.

    Vergleiche hierzu ausführlicher Munzert (2018).

  11. 11.

    Die begleitende Webseite ist frei zugänglich unter http://www.r-datacollection.com.

Literatur

  • Ackland, Robert, und Mathieu O’Neil. 2011. Online collective identity: The case of the environmental movement. Social Networks 33(3): 177–190.

    Article  Google Scholar 

  • Barberà, Pablo. 2015. Birds of the same feather tweet together: Bayesian ideal point estimation using Twitter data. Political Analysis 23(1): 76–91.

    Article  Google Scholar 

  • Benoit, Kenneth, Drew Conway, Benjamin E. Lauderdale, Michael Laver, et al. 2016. Crowd-sourced text analysis: Reproducible and agile production of political data. American Political Science Review 110(2): 278–295.

    Article  Google Scholar 

  • Bonica, Adam. 2013. Ideology and interests in the political marketplace. American Journal of Political Science 57(2): 294–311.

    Article  Google Scholar 

  • Cederman, Lars-Erik, Nils B. Weidmann, und Nils-Christian Bormann. 2015. Triangulating horizontal inequality: Toward improved conflict analysis. Journal of Peace Research 52(6): 806–821.

    Article  Google Scholar 

  • Chen, Xi, und William D. Nordhaus. 2011. Using luminosity data as a proxy for economic statistics. Proceedings of the National Academy of Sciences 108(21): 8589–8594.

    Article  Google Scholar 

  • Gandrud, Christopher. 2015. Reproducible research with R and RStudio. Boca Raton: CRC.

    Google Scholar 

  • Henderson, Vernon, Adam Storeygard, und David N. Weil. 2011. A bright idea for measuring economic growth. American Economic Review 101(3): 194–199.

    Article  Google Scholar 

  • King, Gary, Jennifer Pan, und Margaret E. Roberts. 2013. How censorship in China allows government criticism but silences collective expression. American Political Science Review 107(2): 326–334.

    Article  Google Scholar 

  • King, Gary, Jennifer Pan, und Margaret E. Roberts. 2017. How the Chinese government fabricates social media posts for strategic distraction, not engaged argument. American Political Science Review 111(3): 484–501.

    Article  Google Scholar 

  • Kuhn, Patrick M., und Nils B. Weidmann. 2015. Unequal we fight: Between- and within-group inequality and ethnic civil war. Political Science Research and Methods 3(3): 534–568.

    Article  Google Scholar 

  • Linzer, Drew A. 2013. Dynamic Bayesian forecasting of presidential elections in the states. Journal of the American Statistical Association 108(501): 124–134.

    Article  Google Scholar 

  • McNutt, Kathleen, und Leslie A. Pal. 2011. ‚Modernizing government‘: Mapping global public policy networks. Governance 24(3): 439–467.

    Article  Google Scholar 

  • Mellon, Jonathan. 2013. Where and when can we use Google Trends to measure issue salience? PS: Political Science and Politics 46(2): 280–290.

    Google Scholar 

  • Michels, Robert. 1911. Zur Soziologie des Parteiwesens in der modernen Demokratie: Untersuchungen über die oligarchischen Tendenzen des Gruppenlebens. Leipzig: Klinkhardt.

    Google Scholar 

  • Mitchell, Ryan. 2015. Web scraping with Python: Collecting data from the modern web. Beijing: O’Reilly.

    Google Scholar 

  • Monroe, Burt L. 2013. The five Vs of big data political science: Introduction to the virtual issue on big data in political science. Political Analysis 21(V5): 1–9.

    Article  Google Scholar 

  • Munzert, Simon. 2018. Auf dem Weg zu einer fundierten Softwareausbildung in der Sozialwissenschaft. In Computational Social Science: Die Analyse von Big Data, Hrsg. Joachim Behnke et al., 379–402. Baden-Baden: Nomos.

    Chapter  Google Scholar 

  • Munzert, Simon, Christian Rubba, Peter Meißner, und Dominic Nyhuis. 2014. Automated web data collection with R: A practical guide to web scraping and text mining. Hoboken: Wiley.

    Google Scholar 

  • Nolan, Deborah, und Duncan Temple Lang. 2014. XML and web technologies for data sciences with R. New York: Springer.

    Book  Google Scholar 

  • Nyhuis, Dominic, und Thorsten Faas. 2018. Twitter als Spiegel öffentlicher Meinung? Die Schätzung politischer Bewertungen auf Twitter mittels halbautomatischer Textklassifizierung. In Computational Social Science: Die Analyse von Big Data, Hrsg. Joachim Behnke et al., 235–253. Baden-Baden: Nomos.

    Google Scholar 

  • Shaw, Aaron, und Benjamin M. Hill. 2014. Laboratories of oligarchy? How the iron law extends to peer production. Journal of Communication 64(2): 215–238.

    Article  Google Scholar 

  • Silver, Nate. 2012. The signal and the noise: Why so many predictions fail – But some don’t. New York: Penguin.

    Google Scholar 

  • Squire, Peverill. 1988. Why the 1936 Literary Digest poll failed. Public Opinion Quarterly 52(1): 125–133.

    Article  Google Scholar 

  • Weidmann, Nils B., und Sebastian Schutte. 2017. Using night light emissions for the prediction of local wealth. Journal of Peace Research 54(2): 125–140.

    Article  Google Scholar 

  • Wickham, Hadley, und Garrett Grolemund. 2017. R for data science: Import, tidy, transform, visualize, and model data. Beijing: O’Reilly.

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding authors

Correspondence to Simon Munzert or Dominic Nyhuis .

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 2019 Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature

About this entry

Check for updates. Verify currency and authenticity via CrossMark

Cite this entry

Munzert, S., Nyhuis, D. (2019). Die Nutzung von Webdaten in den Sozialwissenschaften. In: Wagemann, C., Goerres, A., Siewert, M. (eds) Handbuch Methoden der Politikwissenschaft. Springer Reference Sozialwissenschaften. Springer VS, Wiesbaden. https://doi.org/10.1007/978-3-658-16937-4_22-1

Download citation

  • DOI: https://doi.org/10.1007/978-3-658-16937-4_22-1

  • Received:

  • Accepted:

  • Published:

  • Publisher Name: Springer VS, Wiesbaden

  • Print ISBN: 978-3-658-16937-4

  • Online ISBN: 978-3-658-16937-4

  • eBook Packages: Springer Referenz Sozialwissenschaften und Recht

Publish with us

Policies and ethics