Skip to main content

Die Kumpel des Textbergbaus

  • Chapter
  • First Online:
Ansturm der Algorithmen

Part of the book series: Die blaue Stunde der Informatik ((DBSI))

  • 3095 Accesses

Zusammenfassung

Eine maschinelle „Erschließung“ digitalisierter Texte ist tatsächlich nur möglich, wenn der Text berechenbare Strukturen aufweist. Berechenbarkeit ist ja gerade das Wesen der universellen Turing-Maschine, dem Vorbild unseres heutigen Computers. Um Texte auf dem Computer verarbeiten zu können, müssen sie daher zunächst in Zeichen umgewandelt werden, mit denen der Computer umgehen kann.

Warum der Supercomputer Watson die Fernseh-Quiz-Show Jeopardy gewinnen konnte und trotzdem nicht wusste, wovon die Rede war.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 49.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

  1. 1.

    Als Phrase bezeichnet man in der Linguistik eine syntaktische Einheit, die abgeschlossen, also „syntaktisch gesättigt“ ist, im Gegensatz zu Einheiten, denen noch Ergänzungen fehlen.

  2. 2.

    Die Dirichletverteilung, benannt nach dem deutschen Mathematiker Peter Gustav Lejeune Dirichlet (13.02.1805–05.05.1859), ist eines der grundlegenden Funktionen zur Modellierung von proportionalen Daten, wie beispielsweise die Mischung von Worten oder Wortfolgen in einem Text. Sie ist eine Familie von stetigen und mehreren Variablen abhängige Wahrscheinlichkeitsverteilungen. Ihre Dichtefunktion gibt die Wahrscheinlichkeit von K verschiedenen, exklusiven Ereignissen an, wenn jedes Ereignis Ki genau (ki-1) mal beobachtet wurde. Die so genannte multinomiale Verteilung, eine Wahrscheinlichkeitsverteilung mit mehreren möglichen Ergebnissen, gibt die Wahrscheinlichkeiten P1, …, Pk für k unterschiedliche Ereignisse an, also z. B. wie wahrscheinlich es ist, dass in einer Zufallsstichprobe von 10 Wahlberechtigten 5 CDU wählen, 5 SPD wählen und keiner die FDP wählt. Im Gegensatz dazu gibt die Dirichletverteilung an, wie wahrscheinlich eine solche Verteilung auftritt.

Literatur

  1. Whorf B (1963) Sprache-Denken-Wirklichkeit. Rowohlt Verlag, Hamburg, S. 12

    Google Scholar 

  2. Meyer G, Quasthoff U, Witzig T (2012) Text Mining: Wissensrohstoff Text. W3L Verlag, Dortmund, S. 1

    Google Scholar 

  3. Meyer G, Quasthoff U, Witzig T (2012) Text Mining: Wissensrohstoff Text. S. 1

    Google Scholar 

  4. Hippner H, Rentzmann R (2006) Text Mining. https://www.gi.de/service/informatiklexikon/detailansicht/article/text-mining.html. Zuletzt abgerufen: 17.03.2018

    Article  Google Scholar 

  5. Münchrath J (1998) Philosophische Dimensionen einer neuen Kulturtechnik. Verlag Dr. Kovac, Hamburg, S. 191

    Google Scholar 

  6. Frege G: Briefe an Philip Jourdain. Zit. nach: Künne W (2010) Die Philosophische Logik Gottlob Freges, Klostermann Verlag, Frankfurt a. M., S. 590

    Google Scholar 

  7. Putnam H (1991) Repräsentation und Realität, Suhrkamp Verlag, Frankfurt a. M., S. 159.

    Google Scholar 

  8. Bubenhofer N (2009) Sprachgebrauchsmuster: Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. de Gruyter Verlag, Zürich, S. 16

    Google Scholar 

  9. Siehe bspw. unter: http://www.statmt.org oder in: Koehn P (2010) Statistical Machine Translation. Cambridge University Press, New York

  10. Manning C D, Schütze H (2003) Foundations of Statistical Natural Language Processing, MIT Press, Cambridge MA

    MATH  Google Scholar 

  11. Zit. nach Lange B (2017) Jenseits von Babel. Maschinelle Übersetzung mit neuronalen Netzwerken. iX Magazin für professionelle Informationstechnik, Ausgabe März 2017, S. 91

    Google Scholar 

  12. Blei D M, Ng A Y, Jordan M I (2003) Latent Dirichlet Allocation. Journal of Machine Learning Research 3 (2003), S. 993–1022

    MATH  Google Scholar 

  13. Perkuhn R, Keibel H, Kupietz M (2012) Korpuslinguistik, Wilhelm Fink Verlag, Paderborn, S. 100

    Google Scholar 

  14. Bubenhofer N (2009) Sprachgebrauchsmuster: Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. S. 2/3

    Google Scholar 

  15. Evert S, Frötschl B, Wolfgang Lindstrot W (2010) Statistische Grundlagen. In: Carstensen K-U et al. (Hrsg.): Computerlinguistik und Sprachtechnologie, Spektrum Verlag, Heidelberg, S. 115

    Google Scholar 

  16. Goodfellow I, Bengio Y, Courville A (2016) Deep Learning, MIT Press, Cambridge MA, S. 446

    Google Scholar 

  17. Möbius B, Haber U (2010) Verarbeitung gesprochener Sprache. In: Carstensen K-U et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. S. 219

    Google Scholar 

  18. Yogeshwar R (2017) Nächste Ausfahrt Zukunft, Kiepenheuer & Witsch, Köln, S. 170 f.

    Google Scholar 

  19. Lenzen M (2002) Natürliche und Künstliche Intelligenz – Einführung in die Kognitionswissenschaft, Campus Verlag, Frankfurt a. M., S. 69

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Wolf Zimmer .

Rights and permissions

Reprints and permissions

Copyright information

© 2019 Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Zimmer, W. (2019). Die Kumpel des Textbergbaus. In: Ansturm der Algorithmen. Die blaue Stunde der Informatik. Springer Vieweg, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-59771-2_17

Download citation

  • DOI: https://doi.org/10.1007/978-3-662-59771-2_17

  • Published:

  • Publisher Name: Springer Vieweg, Berlin, Heidelberg

  • Print ISBN: 978-3-662-59770-5

  • Online ISBN: 978-3-662-59771-2

  • eBook Packages: Computer Science and Engineering (German Language)

Publish with us

Policies and ethics