Advertisement

Comparing Two Discriminant Probabilistic Interestingness Measures for Association Rules

  • Israël César LermanEmail author
  • Sylvie Guillaume
Chapter
Part of the Studies in Computational Intelligence book series (SCI, volume 471)

Abstract

Preliminary nomalization is needed for probabilistic pairwise comparison between attributes in Data Mining. Normalization plays a very important part in preserving the discriminant property of the probability scale when the number of observations becomes large. Asymmetrical associations between boolean attributes are considered in our paper. Its goal consists of comparison between two approaches. The first one is due to a normalized version of the “Likelihood Linkage Analysis” methodology. The second one is based on the notion of “Test Value” defined with respect to a hypothetical sample, sized 100 and summarizing the initial observed sample. Two facets are developed in our work: theoretical and experimental. A comparative experimental analysis is presented with the well known databases “Wages” and “Abalone”.

Keywords

Contingency Table Association Rule Union Member Random Model Probability Scale 
These keywords were added by machine and not by the authors. This process is experimental and the keywords may be updated as the learning algorithm improves.

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

References

  1. 1.
    Agrawal, R., Imielsky, T., Swami, A.: Mining association rules between sets of items in large databases. In: Proceedings of the 8th ACM SIGKDD Conference on Knowledge Discovery and Data Mining 1993, pp. 207–216. ACM (1993)Google Scholar
  2. 2.
    Bay, S.: The UCI KDD archive. University of California, Department of Information and Computer Science, Irvine (1999), http://kdd.ics.uci.edu/ Google Scholar
  3. 3.
    Berndt, E.: The Practice of Econometrics. Addison-Wesley, NY (1991)Google Scholar
  4. 4.
    Daudé, F.: Analyse et justification de la notion de ressemblance entre variables qualitatives dans l’optique de la classification hiérarchique par avl. Thèse de doctorat, Université de Rennes 1 (1992)Google Scholar
  5. 5.
    Feller, W.: An Introduction to Probability Theory and Its Applications. Wiley, New York (1968)zbMATHGoogle Scholar
  6. 6.
    Gras, R.: Contribution à l’étude expérimentale et à l’analyse de certaines acquisitions cognitives et de certains objectifs didactiques en mathématiques. Thèse de doctorat d’état, Université de Rennes 1 (1979)Google Scholar
  7. 7.
    Gras, R.: L’implication statistique. La pensée sauvage, Paris (1996)Google Scholar
  8. 8.
    Guillaume, S., Lerman, I.C.: Analyse du comportement limite d’indices probabilistes pour une sélection discriminante. In: Khenchaf, A., Poncelet, P. (eds.) EGC 2011. RNTI, vol. RNTI E. 20, pp. 657–664. Hermann (2011)Google Scholar
  9. 9.
    IBM: Ibm intelligent miner user’s guide, version 1, release 1. Tech. rep. (1996)Google Scholar
  10. 10.
    Lagrange, J.B.: Analyse implicative d’un ensemble de variables numériques; application au traitement d’un questionnaire à réponses modales ordonnées. Revue de Statistique Appliquée 46, 71–93 (1998)Google Scholar
  11. 11.
    Lallich, S., Teytaud, O.: Évaluation et validation de l’intérêt des règles d’association. In: Mesures de Qualité pour la Fouille des Données 2004. RNTI, vol. RNTI-E-1, pp. 193–218. Cépaduès (2004)Google Scholar
  12. 12.
    Lenca, P., Meyer, P., Picouet, B., Lallich, S.: Évaluation et analyse multicritère des mesures de qualité des règles d’association. In: Mesures de Qualité pour la Fouille des Données 2004. RNTI, vol. RNTI-E-1, pp. 219–246. Cépaduès (2004)Google Scholar
  13. 13.
    Lerman, I.C.: Sur l’analyse des données préalable à une classification automatique; proposition d’une nouvelle mesure de similarité. Mathématiques et Sciences Humaines 8, 5–15 (1970)MathSciNetGoogle Scholar
  14. 14.
    Lerman, I.C.: Introduction à une méthode de classification automatique illustrée par la recherche d’une typologie des personnages enfants à travers la littérature enfantine. Revue de Statistique Appliquée XXI, 23–49 (1973)Google Scholar
  15. 15.
    Lerman, I.C.: Classification et analyse ordinale des données. Dunod, Paris (1981)Google Scholar
  16. 16.
    Lerman, I.C.: Justification et validité statistique d’une échelle [0,1] de fréquence mathématique pour une structure de proximité sur un ensemble de variables observées. Publications de l’Institut de Statistique des Universités de Paris 29, 27–57 (1984)MathSciNetzbMATHGoogle Scholar
  17. 17.
    Lerman, I.C.: Conception et analyse de la forme limite d’une famille de coefficients statistiques d’association entre variables relationnelles. Mathématiques et Sciences Humaines 118, 33–52 (1992)MathSciNetzbMATHGoogle Scholar
  18. 18.
    Lerman, I.C.: Analyse de la vraisemblance des liens relationnels: une méthodologie d’analyse classificatoire des données. In: Bennani, Y., Viennet, E. (eds.) Apprentissage Artificiel et Fouille de Données 2009. RNTI, vol. RNTI A3, pp. 93–126. Cépaduès (2009)Google Scholar
  19. 19.
    Lerman, I.C.: Facets of the set theoretic representation of categorical data. Publication Interne 1988, IRISA-INRIA (2012)Google Scholar
  20. 20.
    Lerman, I.C., Azé, J.: A new probabilistic measure of interestingness for association rules, based on the likelihood of the link. In: Quality Measures in Data Mining 2007. SCI, vol. 43, pp. 207–236. Springer, Heidelberg (2007)CrossRefGoogle Scholar
  21. 21.
    Lerman, I.C., Gras, R., Rostam, H.: Élaboration et évaluation d’un indice d’implication pour des données binaires i et ii. Mathématiques et Sciences Humaines, 74–75, 5–35, 5–47 (1981)Google Scholar
  22. 22.
    Lerman, I.C., Guillaume, S.: Analyse comparative d’indices d’implication discriminants fondés sur une échelle de probabilité. Rapport de Recherche, INRIA, Rennes, 7187, Février, 85 pages (2010)Google Scholar
  23. 23.
    Morineau, A., Rakotomalala, R.: Critère VT100 de sélection des règles d’association. In: Ritschard, G., Djeraba, C. (eds.) Actes de Extraction et Gestion de Connaissances, EGC 2006. RNTI, pp. 581–592. Cépaduès (2006)Google Scholar
  24. 24.
    Piatetsky-Shapiro, G.: Discovery, analysis, and presentation of strong rules. In: Knowledge Discovery in Databases 1991, pp. 229–248. MIT Press (1991)Google Scholar
  25. 25.
    Rabaseda, S., Rakotomalala, R., Sebban, M.: Discretization of continuous attributes: a survey of methods. In: Proceedings of the Second Annual Joint Conference on Information Sciences, pp. 164–166 (1995)Google Scholar
  26. 26.
    Rakotomalala, R., Morineau, A.: The TVpercent principle for the counterexamples statistic. In: Gras, R., Suzuki, E., Guillet, F., Spagnolo, F. (eds.) Statistical Implicative Analysis, pp. 449–462. Springer (2008)Google Scholar
  27. 27.
    Ritschard, G.: De l’usage de la statistique implicative dans les arbres de classification. In: Gras, R., et al. (eds.) Analyse Statistique Implicative, pp. 305–316. Troisième Rencontre Internationale (2005)Google Scholar
  28. 28.
    Tan, P.N., Kumar, V., Srivastava, J.: Selecting the right interestingness measure for association patterns. In: Proceedings of the 8th ACM SIGKDD Conference on Knowledge Discovery and Data Mining 2002, pp. 32–41. ACM (2002)Google Scholar

Copyright information

© Springer-Verlag Berlin Heidelberg 2013

Authors and Affiliations

  1. 1.IRISA - Université de RennesRennes CedexFrance
  2. 2.Clermont Université, Auvergne, LIMOSClermont-FdFrance

Personalised recommendations