Vergleich natürlichsprachlicher Dokumente mittels Visualisierung von Informationsspuren

Hinterberger, Hans; Teufel, Bernd

doi:10.1007/978-3-642-74276-7_13

Vergleich natürlichsprachlicher Dokumente mittels Visualisierung von Informationsspuren

Hans Hinterberger² &
Bernd Teufel²

Conference paper

23 Accesses

Part of the book series: Informatik-Fachberichte ((INFORMATIK,volume 192))

Kurzfassung

Für grosse natürlichsprachliche Informationsmengen, die in weiten Bereichen des Büros anzutreffen sind, ist es im Sinne einer zweckmässigen Automatisierung wünschenswert, wenn der Rechner Dokumente nicht nur vergleicht und uns das Resultat in geeigneter Form bekannt gibt, sondern dass der Benutzer die Vergleichsbasis und die Form der Darstellung interaktiv bestimmen oder verändern kann. Wir stellen eine Methodik vor, die es erlaubt, in vier unabhängigen Schritten mittels Datenreduktion, Datenverdichtung, Datentransformation und Datenvisualisation, Information aus grossen Datenmengen interaktiv verschiedenartig zu abstrahieren. Gewisse, in der natürlichsprachlichen Information enthaltenen, Strukturen werden dabei vom Volltext zur graphischen Darstellung überführt Zunächst wird durch Anwendung einer Stoppwortliste und Grundformenbildung das Volumen der Daten reduziert. Die so reduzierte Datenmenge wird durch die Abbildung auf Trigramm-Mengen (Informationsspuren) weiter verdichtet. Schliesslich werden die Beziehungen zwischen den einzelnen Zeichen der Trigramme (Übergänge) verschiedenartig visualisiert, um numerische Ähnlichkeitsmasse zu ergänzen. Die beschriebene Methodik ist softwaremässig implementiert, erste Resultate werden vorgestellt.

This is a preview of subscription content, log in via an institution.

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 54.99; Price excludes VAT (USA)

Softcover Book: USD 69.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Learn about institutional subscriptions

Preview

Unable to display preview. Download preview PDF.

Literatur

T. De Heer. Experiments with syntactic traces in information retrieval. Inform. Stor. Retriev. 10, 133–144 (1974).
Article Google Scholar
T. De Heer. The application of the concept of homeosemy to natural language information retrieval. Inform. Process. Mgmt. 18(5), 229–236 (1982).
Article Google Scholar
H. Hinterberger. Data density: A powerful abstraction to manage and analyze multivariate data. Diss. ETH-Zürich Nr. 8330, Zürich (1987).
Google Scholar
A. Inselberg. The plane with parallel coordinates. The Visual Computer 1, 69–91 (1985).
Article MATH Google Scholar
N. Jardine, R. Sibson. Mathematical Taxonomy. J. Wiley & Sons, London (1971).
MATH Google Scholar
H. Karlgren. Homeosemy — on the linguistics of information retrieval. In: D. E. Walker, H. Karlgren und M. Kay (eds.). Natural language in information science. Skriptor, Stokholm (1977).
Google Scholar
R. Kuhlen. Experimentelle Morphologie in der Informations-wissenschaft. Verlag Dokumentation, München (1977).
Google Scholar
J. Nievergelt, H. Hinterberger und K. C. Sevcik. The grid file: an adaptable, symmetric multi-key file structure. ACM Trans. on Database Systems 9(1), 38–71 (1984).
Article Google Scholar
M. F. Porter. An algorithm for suffix stripping. Program 14(3), 130–137 (1980).
Google Scholar
C. J. van Rijsbergen. Information Retrieval. Butterworths, London (1979).
Google Scholar
G. Salton, M. J. McGill. Introduction to modern information retrieval. McGraw-Hill, Singapore (1983).
MATH Google Scholar
C. Schwarz. Freitextrecherche — Grenzen und Möglichkeiten, Anmerkungen aus der Sicht der Informationslinguistik. Nachr. f. Dokwn. 33(6) (1982).
Google Scholar
J. O. Stolley. String retrieval in german texts by means of trigrams. Philips Research Report, Pub.-No. IDR-R-ST/7809/2039, Eindhoven (1978).
Google Scholar
C. Y. Suen. N-gram statistics for natural language understanding and text processing. IEEE Trans. Pattern Analysis Mach. Intell. PAMI-1(2), 164–172 (1979).
Article Google Scholar
B. Teufel, S. Schmidt. Full text retrieval based on syntactic similarities. Inform. Systems 13(1), 65–70 (1988).
Article MATH Google Scholar
B. Teufel. Statistical n-gram indexing of natural language documents. Int. Forum on Inform. and Docum. IFID 13(4), (1988).
Google Scholar
E. J. Wegman. Hyperdimensional data analysis using parallel coordinates. Technical Report No. 1, Center for Computational Statistics and Probability, George Mason University, Fairfax (1986).
Google Scholar

Download references

Author information

Authors and Affiliations

Institut für Informatik, Eidg. Techn. Hochschule Zürich ETH-Zentrum, CH-8092, Zürich, Switzerland
Hans Hinterberger & Bernd Teufel

Authors

Hans Hinterberger
View author publications
You can also search for this author in PubMed Google Scholar
Bernd Teufel
View author publications
You can also search for this author in PubMed Google Scholar

Editor information

Editors and Affiliations

Gesellschaft für Mathematik und Datenverarbeitung mbH Schloß Birlinghoven, Postfach 1240, 5205, Sankt Augustin 1, Germany
Klaus Kansy & Peter Wißkirchen &

Rights and permissions

Reprints and permissions

Copyright information

About this paper

Cite this paper

Hinterberger, H., Teufel, B. (1988). Vergleich natürlichsprachlicher Dokumente mittels Visualisierung von Informationsspuren. In: Kansy, K., Wißkirchen, P. (eds) Graphik im Bürobereich. Informatik-Fachberichte, vol 192. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-74276-7_13

Download citation

DOI: https://doi.org/10.1007/978-3-642-74276-7_13
Publisher Name: Springer, Berlin, Heidelberg
Print ISBN: 978-3-540-50543-3
Online ISBN: 978-3-642-74276-7
eBook Packages: Springer Book Archive

Publish with us

Policies and ethics