Advertisement

Informatik - Forschung und Entwicklung

, Volume 17, Issue 2, pp 68–76 | Cite as

Optimale Dimensionswahl bei der Bearbeitung des Similarity Join

  • Christian Böhm
  • Hans-Peter Kriegel
Originalbeiträge
  • 29 Downloads

Zusammenfassung.

Der Similarity Join spielt zunehmend eine Rolle bei verschiedenen Anwendungen des Data Mining. Obwohl bereits mehrere Algorithmen zur Auswertung dieser Grundoperation in modernen Datenbankanwendungen vorgeschlagen wurden, und trotz einer eindeutigen CPU-Dominanz dieser Algorithmen, gibt es bislang kaum Ansätze, die sich mit dem CPU-Aspekt beschäftigen. Wir schlagen in diesem Beitrag ein allgemeines Prinzip zur Reduktion von Distanzberechnungen vor, das bei vielen Grundalgorithmen für den Similarity Join, z.B. dem R-Tree Similarity Join und seinen Varianten, dem \(\varepsilon\)-kdB-Tree oder einem Spatial Hash-Verfahren eingesetzt werden kann. Unsere Lösung besteht aus einem Plane-Sweep-ähnlichen Verfahren, bei dem die optimale Sortierungsdimension gemäß einem Wahrscheinlichkeitsmodell ermittelt wird. In einer umfangreichen experimentellen Studie weisen wir die Überlegenheit unseres Verfahrens sowohl gegenüber verschiedenen Join-Basisverfahren ohne Plane-Sweep-Auswertung als auch gegenüber dem einfachen Plane-Sweep-ähnlichen Verfahren ohne Dimensionswahl nach.

SchlüsselwörterÄhnlichkeitsverbund, Ähnlichkeitssuche, Multimedia-Datenbank, Data Mining, Indexstruktur 
Keywords: Similarity join, Similarity search, Multimedia database, Data mining, index structure 
CR Subject Classification: H.3.2, H.3.3, H.5.1, I.2.6 

Abstract.

The similarity join plays an increasing role in various applications of data mining. Several algorithms for the computation of this important database primitive of modern applications have been proposed. Although these algorithms are clearly CPU bound, until now no solution concentrates on the CPU aspect. In this paper we propose a general technique for reducing distance calculations. Our technique can be applied on top of many basic algorithms for the similarity join, such as the R-tree similarity join and its variants, the \(\varepsilon\)-kdB-tree, or some spatial hashing method. Our solution is a method which is similar to plane sweeping. The sweep dimension is selected according to a probability model. In an extensive experimental evaluation, we show the superiority of our approach with respect to different basic similarity join algorithms as well as with respect to a simple sweeping without selection of the optimal dimension.

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Copyright information

© Springer-Verlag Berlin Heidelberg 2002

Authors and Affiliations

  • Christian Böhm
    • 1
  • Hans-Peter Kriegel
    • 2
  1. 1.Abteilung für Datenbanksysteme, Private Universität für Medizinische Informatik und Technik, Innrain 98, 6020 Innsbruck, Österreich (e-mail: christian.boehm@umit.at) Austria
  2. 2.Institut für Informatik, Ludwig Maximilians Universität München, Oettingenstr. 67, 80538 München (e-mail: kriegel@dbs.informatik.uni-muenchen.de) Germany

Personalised recommendations