Advertisement

Partitionierung zur effizienten Duplikaterkennung in relationalen Daten

  • Uwe Draisbach

Table of contents

  1. Front Matter
    Pages I-XIII
  2. Uwe Draisbach
    Pages 1-4
  3. Uwe Draisbach
    Pages 5-30
  4. Uwe Draisbach
    Pages 31-33
  5. Uwe Draisbach
    Pages 35-40
  6. Uwe Draisbach
    Pages 61-77
  7. Uwe Draisbach
    Pages 79-82
  8. Back Matter
    Pages 83-91

About this book

Introduction

Duplikate bzw. Dubletten sind mehrere Datensätze, die das gleiche Realweltobjekt beschreiben, etwa mehrfach erfasste Kunden in einem CRM-System oder unterschiedliche Repräsentationen eines Produkts. Das Auffinden dieser Duplikate ist auch für moderne Computer eine komplexe und zeitintensive Aufgabe. Uwe Draisbach vergleicht zwei der einschlägigen Partitionierungsstrategien, die eine intelligente Auswahl von zu vergleichenden Datensatzpaaren treffen. Daraus entwickelt er ein verallgemeinertes Verfahren und zeigt, dass eine intelligente Auswahl der Datensatzpaare den Aufwand signifikant reduzieren kann, ohne die Qualität der Duplikaterkennung wesentlich zu verringern.

 

Die Arbeit wurde mit dem „Information Quality Best Master Degree Award“ der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet.

Keywords

nn

Authors and affiliations

  • Uwe Draisbach
    • 1
  1. 1.PotsdamDeutschland

Bibliographic information

Industry Sectors
Pharma
Chemical Manufacturing
Biotechnology
Finance, Business & Banking
Electronics
IT & Software
Telecommunications
Consumer Packaged Goods
Energy, Utilities & Environment
Engineering