Skip to main content

Vergleich natürlichsprachlicher Dokumente mittels Visualisierung von Informationsspuren

  • Conference paper
  • 23 Accesses

Part of the book series: Informatik-Fachberichte ((INFORMATIK,volume 192))

Kurzfassung

Für grosse natürlichsprachliche Informationsmengen, die in weiten Bereichen des Büros anzutreffen sind, ist es im Sinne einer zweckmässigen Automatisierung wünschenswert, wenn der Rechner Dokumente nicht nur vergleicht und uns das Resultat in geeigneter Form bekannt gibt, sondern dass der Benutzer die Vergleichsbasis und die Form der Darstellung interaktiv bestimmen oder verändern kann. Wir stellen eine Methodik vor, die es erlaubt, in vier unabhängigen Schritten mittels Datenreduktion, Datenverdichtung, Datentransformation und Datenvisualisation, Information aus grossen Datenmengen interaktiv verschiedenartig zu abstrahieren. Gewisse, in der natürlichsprachlichen Information enthaltenen, Strukturen werden dabei vom Volltext zur graphischen Darstellung überführt Zunächst wird durch Anwendung einer Stoppwortliste und Grundformenbildung das Volumen der Daten reduziert. Die so reduzierte Datenmenge wird durch die Abbildung auf Trigramm-Mengen (Informationsspuren) weiter verdichtet. Schliesslich werden die Beziehungen zwischen den einzelnen Zeichen der Trigramme (Übergänge) verschiedenartig visualisiert, um numerische Ähnlichkeitsmasse zu ergänzen. Die beschriebene Methodik ist softwaremässig implementiert, erste Resultate werden vorgestellt.

This is a preview of subscription content, log in via an institution.

Buying options

Chapter
USD   29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD   54.99
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD   69.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Learn about institutional subscriptions

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Literatur

  1. T. De Heer. Experiments with syntactic traces in information retrieval. Inform. Stor. Retriev. 10, 133–144 (1974).

    Article  Google Scholar 

  2. T. De Heer. The application of the concept of homeosemy to natural language information retrieval. Inform. Process. Mgmt. 18(5), 229–236 (1982).

    Article  Google Scholar 

  3. H. Hinterberger. Data density: A powerful abstraction to manage and analyze multivariate data. Diss. ETH-Zürich Nr. 8330, Zürich (1987).

    Google Scholar 

  4. A. Inselberg. The plane with parallel coordinates. The Visual Computer 1, 69–91 (1985).

    Article  MATH  Google Scholar 

  5. N. Jardine, R. Sibson. Mathematical Taxonomy. J. Wiley & Sons, London (1971).

    MATH  Google Scholar 

  6. H. Karlgren. Homeosemy — on the linguistics of information retrieval. In: D. E. Walker, H. Karlgren und M. Kay (eds.). Natural language in information science. Skriptor, Stokholm (1977).

    Google Scholar 

  7. R. Kuhlen. Experimentelle Morphologie in der Informations-wissenschaft. Verlag Dokumentation, München (1977).

    Google Scholar 

  8. J. Nievergelt, H. Hinterberger und K. C. Sevcik. The grid file: an adaptable, symmetric multi-key file structure. ACM Trans. on Database Systems 9(1), 38–71 (1984).

    Article  Google Scholar 

  9. M. F. Porter. An algorithm for suffix stripping. Program 14(3), 130–137 (1980).

    Google Scholar 

  10. C. J. van Rijsbergen. Information Retrieval. Butterworths, London (1979).

    Google Scholar 

  11. G. Salton, M. J. McGill. Introduction to modern information retrieval. McGraw-Hill, Singapore (1983).

    MATH  Google Scholar 

  12. C. Schwarz. Freitextrecherche — Grenzen und Möglichkeiten, Anmerkungen aus der Sicht der Informationslinguistik. Nachr. f. Dokwn. 33(6) (1982).

    Google Scholar 

  13. J. O. Stolley. String retrieval in german texts by means of trigrams. Philips Research Report, Pub.-No. IDR-R-ST/7809/2039, Eindhoven (1978).

    Google Scholar 

  14. C. Y. Suen. N-gram statistics for natural language understanding and text processing. IEEE Trans. Pattern Analysis Mach. Intell. PAMI-1(2), 164–172 (1979).

    Article  Google Scholar 

  15. B. Teufel, S. Schmidt. Full text retrieval based on syntactic similarities. Inform. Systems 13(1), 65–70 (1988).

    Article  MATH  Google Scholar 

  16. B. Teufel. Statistical n-gram indexing of natural language documents. Int. Forum on Inform. and Docum. IFID 13(4), (1988).

    Google Scholar 

  17. E. J. Wegman. Hyperdimensional data analysis using parallel coordinates. Technical Report No. 1, Center for Computational Statistics and Probability, George Mason University, Fairfax (1986).

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 1988 Springer-Verlag Berlin Heidelberg

About this paper

Cite this paper

Hinterberger, H., Teufel, B. (1988). Vergleich natürlichsprachlicher Dokumente mittels Visualisierung von Informationsspuren. In: Kansy, K., Wißkirchen, P. (eds) Graphik im Bürobereich. Informatik-Fachberichte, vol 192. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-74276-7_13

Download citation

  • DOI: https://doi.org/10.1007/978-3-642-74276-7_13

  • Publisher Name: Springer, Berlin, Heidelberg

  • Print ISBN: 978-3-540-50543-3

  • Online ISBN: 978-3-642-74276-7

  • eBook Packages: Springer Book Archive

Publish with us

Policies and ethics