Advertisement

© 2012

Partitionierung zur effizienten Duplikaterkennung in relationalen Daten

Book

Table of contents

  1. Front Matter
    Pages I-XIII
  2. Uwe Draisbach
    Pages 1-4
  3. Uwe Draisbach
    Pages 5-30
  4. Uwe Draisbach
    Pages 31-33
  5. Uwe Draisbach
    Pages 35-40
  6. Uwe Draisbach
    Pages 61-77
  7. Uwe Draisbach
    Pages 79-82
  8. Back Matter
    Pages 83-91

About this book

Introduction

Duplikate bzw. Dubletten sind mehrere Datensätze, die das gleiche Realweltobjekt beschreiben, etwa mehrfach erfasste Kunden in einem CRM-System oder unterschiedliche Repräsentationen eines Produkts. Das Auffinden dieser Duplikate ist auch für moderne Computer eine komplexe und zeitintensive Aufgabe. Uwe Draisbach vergleicht zwei der einschlägigen Partitionierungsstrategien, die eine intelligente Auswahl von zu vergleichenden Datensatzpaaren treffen. Daraus entwickelt er ein verallgemeinertes Verfahren und zeigt, dass eine intelligente Auswahl der Datensatzpaare den Aufwand signifikant reduzieren kann, ohne die Qualität der Duplikaterkennung wesentlich zu verringern.

 

Die Arbeit wurde mit dem „Information Quality Best Master Degree Award“ der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet.

Keywords

nn

Authors and affiliations

  1. 1.PotsdamDeutschland

About the authors

Uwe Draisbach studierte Informatik an der FernUniversität Hagen und ist wissenschaftlicher Mitarbeiter am Hasso-Plattner-Institut in Potsdam.

Bibliographic information

  • Book Title Partitionierung zur effizienten Duplikaterkennung in relationalen Daten
  • Authors Uwe Draisbach
  • DOI https://doi.org/10.1007/978-3-8348-8289-9
  • Copyright Information Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden 2012
  • Publisher Name Vieweg+Teubner Verlag
  • eBook Packages Computer Science and Engineering (German Language)
  • Softcover ISBN 978-3-8348-1772-3
  • eBook ISBN 978-3-8348-8289-9
  • Edition Number 1
  • Number of Pages XIV, 91
  • Number of Illustrations 22 b/w illustrations, 6 illustrations in colour
  • Topics Database Management
  • Buy this book on publisher's site
Industry Sectors
Automotive
Chemical Manufacturing
Biotechnology
IT & Software
Telecommunications
Consumer Packaged Goods
Engineering
Pharma
Materials & Steel
Finance, Business & Banking
Electronics
Energy, Utilities & Environment
Aerospace