Zusammenfassung
Eine maschinelle „Erschließung“ digitalisierter Texte ist tatsächlich nur möglich, wenn der Text berechenbare Strukturen aufweist. Berechenbarkeit ist ja gerade das Wesen der universellen Turing-Maschine, dem Vorbild unseres heutigen Computers. Um Texte auf dem Computer verarbeiten zu können, müssen sie daher zunächst in Zeichen umgewandelt werden, mit denen der Computer umgehen kann.
Warum der Supercomputer Watson die Fernseh-Quiz-Show Jeopardy gewinnen konnte und trotzdem nicht wusste, wovon die Rede war.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Notes
- 1.
Als Phrase bezeichnet man in der Linguistik eine syntaktische Einheit, die abgeschlossen, also „syntaktisch gesättigt“ ist, im Gegensatz zu Einheiten, denen noch Ergänzungen fehlen.
- 2.
Die Dirichletverteilung, benannt nach dem deutschen Mathematiker Peter Gustav Lejeune Dirichlet (13.02.1805–05.05.1859), ist eines der grundlegenden Funktionen zur Modellierung von proportionalen Daten, wie beispielsweise die Mischung von Worten oder Wortfolgen in einem Text. Sie ist eine Familie von stetigen und mehreren Variablen abhängige Wahrscheinlichkeitsverteilungen. Ihre Dichtefunktion gibt die Wahrscheinlichkeit von K verschiedenen, exklusiven Ereignissen an, wenn jedes Ereignis Ki genau (ki-1) mal beobachtet wurde. Die so genannte multinomiale Verteilung, eine Wahrscheinlichkeitsverteilung mit mehreren möglichen Ergebnissen, gibt die Wahrscheinlichkeiten P1, …, Pk für k unterschiedliche Ereignisse an, also z. B. wie wahrscheinlich es ist, dass in einer Zufallsstichprobe von 10 Wahlberechtigten 5 CDU wählen, 5 SPD wählen und keiner die FDP wählt. Im Gegensatz dazu gibt die Dirichletverteilung an, wie wahrscheinlich eine solche Verteilung auftritt.
Literatur
Whorf B (1963) Sprache-Denken-Wirklichkeit. Rowohlt Verlag, Hamburg, S. 12
Meyer G, Quasthoff U, Witzig T (2012) Text Mining: Wissensrohstoff Text. W3L Verlag, Dortmund, S. 1
Meyer G, Quasthoff U, Witzig T (2012) Text Mining: Wissensrohstoff Text. S. 1
Hippner H, Rentzmann R (2006) Text Mining. https://www.gi.de/service/informatiklexikon/detailansicht/article/text-mining.html. Zuletzt abgerufen: 17.03.2018
Münchrath J (1998) Philosophische Dimensionen einer neuen Kulturtechnik. Verlag Dr. Kovac, Hamburg, S. 191
Frege G: Briefe an Philip Jourdain. Zit. nach: Künne W (2010) Die Philosophische Logik Gottlob Freges, Klostermann Verlag, Frankfurt a. M., S. 590
Putnam H (1991) Repräsentation und Realität, Suhrkamp Verlag, Frankfurt a. M., S. 159.
Bubenhofer N (2009) Sprachgebrauchsmuster: Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. de Gruyter Verlag, Zürich, S. 16
Siehe bspw. unter: http://www.statmt.org oder in: Koehn P (2010) Statistical Machine Translation. Cambridge University Press, New York
Manning C D, Schütze H (2003) Foundations of Statistical Natural Language Processing, MIT Press, Cambridge MA
Zit. nach Lange B (2017) Jenseits von Babel. Maschinelle Übersetzung mit neuronalen Netzwerken. iX Magazin für professionelle Informationstechnik, Ausgabe März 2017, S. 91
Blei D M, Ng A Y, Jordan M I (2003) Latent Dirichlet Allocation. Journal of Machine Learning Research 3 (2003), S. 993–1022
Perkuhn R, Keibel H, Kupietz M (2012) Korpuslinguistik, Wilhelm Fink Verlag, Paderborn, S. 100
Bubenhofer N (2009) Sprachgebrauchsmuster: Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. S. 2/3
Evert S, Frötschl B, Wolfgang Lindstrot W (2010) Statistische Grundlagen. In: Carstensen K-U et al. (Hrsg.): Computerlinguistik und Sprachtechnologie, Spektrum Verlag, Heidelberg, S. 115
Goodfellow I, Bengio Y, Courville A (2016) Deep Learning, MIT Press, Cambridge MA, S. 446
Möbius B, Haber U (2010) Verarbeitung gesprochener Sprache. In: Carstensen K-U et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. S. 219
Yogeshwar R (2017) Nächste Ausfahrt Zukunft, Kiepenheuer & Witsch, Köln, S. 170 f.
Lenzen M (2002) Natürliche und Künstliche Intelligenz – Einführung in die Kognitionswissenschaft, Campus Verlag, Frankfurt a. M., S. 69
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
Copyright information
© 2019 Springer-Verlag GmbH Deutschland, ein Teil von Springer Nature
About this chapter
Cite this chapter
Zimmer, W. (2019). Die Kumpel des Textbergbaus. In: Ansturm der Algorithmen. Die blaue Stunde der Informatik. Springer Vieweg, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-59771-2_17
Download citation
DOI: https://doi.org/10.1007/978-3-662-59771-2_17
Published:
Publisher Name: Springer Vieweg, Berlin, Heidelberg
Print ISBN: 978-3-662-59770-5
Online ISBN: 978-3-662-59771-2
eBook Packages: Computer Science and Engineering (German Language)