Die Kumpel des Textbergbaus

Zimmer, Wolf

doi:10.1007/978-3-662-59771-2_17

Wolf Zimmer²

Part of the book series: Die blaue Stunde der Informatik ((DBSI))

3095 Accesses

Zusammenfassung

Eine maschinelle „Erschließung“ digitalisierter Texte ist tatsächlich nur möglich, wenn der Text berechenbare Strukturen aufweist. Berechenbarkeit ist ja gerade das Wesen der universellen Turing-Maschine, dem Vorbild unseres heutigen Computers. Um Texte auf dem Computer verarbeiten zu können, müssen sie daher zunächst in Zeichen umgewandelt werden, mit denen der Computer umgehen kann.

Warum der Supercomputer Watson die Fernseh-Quiz-Show Jeopardy gewinnen konnte und trotzdem nicht wusste, wovon die Rede war.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Log in via an institution

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 49.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Notes

1.
Als Phrase bezeichnet man in der Linguistik eine syntaktische Einheit, die abgeschlossen, also „syntaktisch gesättigt“ ist, im Gegensatz zu Einheiten, denen noch Ergänzungen fehlen.
2.
Die Dirichletverteilung, benannt nach dem deutschen Mathematiker Peter Gustav Lejeune Dirichlet (13.02.1805–05.05.1859), ist eines der grundlegenden Funktionen zur Modellierung von proportionalen Daten, wie beispielsweise die Mischung von Worten oder Wortfolgen in einem Text. Sie ist eine Familie von stetigen und mehreren Variablen abhängige Wahrscheinlichkeitsverteilungen. Ihre Dichtefunktion gibt die Wahrscheinlichkeit von K verschiedenen, exklusiven Ereignissen an, wenn jedes Ereignis K_i genau (k_i-1) mal beobachtet wurde. Die so genannte multinomiale Verteilung, eine Wahrscheinlichkeitsverteilung mit mehreren möglichen Ergebnissen, gibt die Wahrscheinlichkeiten P₁, …, P_k für k unterschiedliche Ereignisse an, also z. B. wie wahrscheinlich es ist, dass in einer Zufallsstichprobe von 10 Wahlberechtigten 5 CDU wählen, 5 SPD wählen und keiner die FDP wählt. Im Gegensatz dazu gibt die Dirichletverteilung an, wie wahrscheinlich eine solche Verteilung auftritt.

Literatur

Whorf B (1963) Sprache-Denken-Wirklichkeit. Rowohlt Verlag, Hamburg, S. 12
Google Scholar
Meyer G, Quasthoff U, Witzig T (2012) Text Mining: Wissensrohstoff Text. W3L Verlag, Dortmund, S. 1
Google Scholar
Meyer G, Quasthoff U, Witzig T (2012) Text Mining: Wissensrohstoff Text. S. 1
Google Scholar
Hippner H, Rentzmann R (2006) Text Mining. https://www.gi.de/service/informatiklexikon/detailansicht/article/text-mining.html. Zuletzt abgerufen: 17.03.2018
Article Google Scholar
Münchrath J (1998) Philosophische Dimensionen einer neuen Kulturtechnik. Verlag Dr. Kovac, Hamburg, S. 191
Google Scholar
Frege G: Briefe an Philip Jourdain. Zit. nach: Künne W (2010) Die Philosophische Logik Gottlob Freges, Klostermann Verlag, Frankfurt a. M., S. 590
Google Scholar
Putnam H (1991) Repräsentation und Realität, Suhrkamp Verlag, Frankfurt a. M., S. 159.
Google Scholar
Bubenhofer N (2009) Sprachgebrauchsmuster: Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. de Gruyter Verlag, Zürich, S. 16
Google Scholar
Siehe bspw. unter: http://www.statmt.org oder in: Koehn P (2010) Statistical Machine Translation. Cambridge University Press, New York
Manning C D, Schütze H (2003) Foundations of Statistical Natural Language Processing, MIT Press, Cambridge MA
MATH Google Scholar
Zit. nach Lange B (2017) Jenseits von Babel. Maschinelle Übersetzung mit neuronalen Netzwerken. iX Magazin für professionelle Informationstechnik, Ausgabe März 2017, S. 91
Google Scholar
Blei D M, Ng A Y, Jordan M I (2003) Latent Dirichlet Allocation. Journal of Machine Learning Research 3 (2003), S. 993–1022
MATH Google Scholar
Perkuhn R, Keibel H, Kupietz M (2012) Korpuslinguistik, Wilhelm Fink Verlag, Paderborn, S. 100
Google Scholar
Bubenhofer N (2009) Sprachgebrauchsmuster: Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. S. 2/3
Google Scholar
Evert S, Frötschl B, Wolfgang Lindstrot W (2010) Statistische Grundlagen. In: Carstensen K-U et al. (Hrsg.): Computerlinguistik und Sprachtechnologie, Spektrum Verlag, Heidelberg, S. 115
Google Scholar
Goodfellow I, Bengio Y, Courville A (2016) Deep Learning, MIT Press, Cambridge MA, S. 446
Google Scholar
Möbius B, Haber U (2010) Verarbeitung gesprochener Sprache. In: Carstensen K-U et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. S. 219
Google Scholar
Yogeshwar R (2017) Nächste Ausfahrt Zukunft, Kiepenheuer & Witsch, Köln, S. 170 f.
Google Scholar
Lenzen M (2002) Natürliche und Künstliche Intelligenz – Einführung in die Kognitionswissenschaft, Campus Verlag, Frankfurt a. M., S. 69
Google Scholar

Download references

Author information

Authors and Affiliations

Schildow, Brandenburg, Deutschland
Wolf Zimmer

Authors

Wolf Zimmer
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Wolf Zimmer .

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Zimmer, W. (2019). Die Kumpel des Textbergbaus. In: Ansturm der Algorithmen. Die blaue Stunde der Informatik. Springer Vieweg, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-59771-2_17

Download citation

DOI: https://doi.org/10.1007/978-3-662-59771-2_17
Published: 28 September 2019
Publisher Name: Springer Vieweg, Berlin, Heidelberg
Print ISBN: 978-3-662-59770-5
Online ISBN: 978-3-662-59771-2
eBook Packages: Computer Science and Engineering (German Language)

Publish with us

Policies and ethics