Advertisement

Empirischer Validitätsvergleich

  • Susanne Hensel-Börner
Chapter
Part of the Gabler Edition Wissenschaft book series (GEW)

Zusammenfassung

In Kapitel 3 sind die beiden neuen adaptiven Verfahren CCC und CHIC sowie die ACA vorgestellt worden. Neben der Darstellung der einzelnen Befragungsschritte in der Self-Explicated-, Conjoint- und Kombinationsphase wurden die methodischen Unterschiede zwischen diesen Verfahren aufgezeigt. Nach dieser konzeptionellen Gegenüberstellung werden sie im folgenden einer empirischen Validitätsprüfung unterzogen. Die ACA als etabliertes Verfahren dient dabei als Referenzpunkt für die Ergebnisgüte der beiden neuen Methoden. Gleichzeitig kann ein direkter Vergleich der neuen Verfahren mit der ACA zeigen, ob alternative Vorgehensweise vor allem bei der Datenerhebung in der Conjoint-Phase zu valideren Ergebnissen fuhren. Beispielsweise ist bei der ACA bisher die Konzeption der Paarvergleichsaufgabe häufig als Schwachpunkt des Verfahrens angeführt worden. 281

Preview

Unable to display preview. Download preview PDF.

Unable to display preview. Download preview PDF.

Referenzen

  1. 281.
    Vgl. Green/Srinivasan (1990), S. 11; Green/Krieger/Agarwal (1991), S. 220 f.; Reiners (1996), S. 78 f.; Srinivasan/Park (1997), S. 286.Google Scholar
  2. 282.
    Vgl. hierzu die Ausführungen in Kapitel 2.3.2 und 2.5.2.Google Scholar
  3. 283.
    Dabei sei einschränkend angemerkt, daß nur 2 verschiedene Varianten der Self-Explicated-Methode verglichen werden. da die Vorgehensweise bei der SE-CCC und SE-CHIC identisch ist.Google Scholar
  4. 284.
    Zur Definition und Abgrenzung der Kriterien vgl. Kapitel 2.2.2.1.Google Scholar
  5. 285.
    Es sei darauf hingewiesen, daß an dieser Stelle ebenso die konvergierende Validität getestet werden könnte. Wie in Kapitel 2.2.2.1 diskutiert, entspricht eine Überprüfung der konvergierenden Validität der gleichen Vorgehensweise, wobei lediglich die Ausgangshypothese für die Tests umgekehrt formuliert wird. In diesem Fall werden keine Unterschiede zwischen den verschiedenen Verfahren erwartet.Google Scholar
  6. 286.
    Die Spannweite stellt den Unterschied zwischen maximalem und minimalem Teilnutzenwert einer Eigenschaft dar.Google Scholar
  7. 287.
    Vgl. z.B. Mengen/Simon (1996), S. 234.Google Scholar
  8. 288.
    Vgl. hierzu auch die Argumentation hinsichtlich des eingesetzten Schätzverfahrens bei der CCC in Kapitel 4.3.2.Google Scholar
  9. 289.
    Zum Wilcoxon-Test auf Gleichheit zweier abhängiger Stichproben vgl. Bortz (1993), S. 144 f.Google Scholar
  10. 290.
    Vgl. hierzu die Ergebnisse der Studien von Huber/Herrmann/Gustafsson (2000); Leigh/ MacKay/Summers (1984); Kalish/Nelson (1991) und Stallmeier (1993) in Kapitel 2.2.2.Google Scholar
  11. 291.
    Vgl. Kapitel 2.3.1.Google Scholar
  12. 292.
    Vgl. Teas/Dellva(1985), S. 108; Stallmeier (1993), S. 295.Google Scholar
  13. 293.
    Vgl. Orme/Alpert/Christensen (1997), S. 215.Google Scholar
  14. Zur Überprüfung der Verteilungsannahme wurde ein Kolmogoroff-Smirnoff-Test durchgeführt. Angenommen werden konnte die Hypothese auf Normalverteilung (p > 0, 1) nur bei der ACA für alle 8 Eigenschaften, bei der CHIC-alt für die Eigenschaften „Abtaumöglichkeit“ und „Gefrierfach“, bei der CHIC-neu für die Eigenschaft „Gefrierfach“ und für die Eigenschaft „Garantiedauer“ bei der SE-CCC.Google Scholar
  15. 295.
    Die Anzahl an paarweisen Tests ergibt sich aus (n(n-1)/2)*8 Eigenschaften, wobei n für die Anzahl untersuchter Verfahren steht.Google Scholar
  16. 296.
    Ein ähnliches Vorgehen zur Überprüfung der Korrespondenz zwischen den ermittelten Bedeutungsgewichten bei unterschiedlichen Verfahren berichten Akaah/Korgaonkar (1983). Die Autoren berechnen die Korrelationen zwischen den Bedeutungsgewichten jedoch zunächst auf individueller Basis und aggregieren die Ergebnisse anschließend. Dies ist allerdings nur möglich, wenn ein within-subject Design bei der Datenerhebung verwendet wurde. In der vorliegenden Untersuchung ist aufgrund der unabhängigen Stichproben zwischen den drei hybriden Verfahren eine entsprechende individuelle Analyse nicht für alle paarweisen Vergleiche durchführbar. Ein weiterer Unterschied zu dem Vorgehen von Akaah/Korgaonkar (1983) liegt darin, daß die Autoren den Rangkorrelationskoeffizienten nach Spearman berechnen (vgl. S. 119). Dieser vergleicht jedoch nur die Reihenfolge der geschätzten Wichtigkeiten. Mit dem Korrelationskoeffizient nach Pearson werden dagegen auch die Unterschiede zwischen den verschiedenen Bedeutungsgewichten berücksichtigt und die Präferenzstrukturen detaillierter analysiert.Google Scholar
  17. 297.
    Vgl. Hensel-Börner/Sattler (2000), S. 14.Google Scholar
  18. 298.
    Empirische Belege hierfür liefern Bleicker (1983), S. 16; Böcker (1986), S. 543 ff.; Jacoby/ Olson/Haddock (1971), S. 570 ff.; Kroeber-Riel (1992), S. 281 ff; Rao/Sattler (1998) und Sattler (1991), S. 181.Google Scholar
  19. 299.
    Vgl. hierzu auch die Argumentation hinsichtlich der Häufigkeiten der Gewichtungsfaktoren wi* in Kapitel 4.3.3.Google Scholar
  20. 300.
    Einzige Ausnahme bildet hierbei die Konvergenz zwischen der CHIC mit der SE-CCC. Dies ist jedoch plausibel, da die beiden Self-Explicated-Verfahren SE-CCC und SE-CHIC identisch sind und, wie bereits diskutiert, sehr hoch miteinander korrelieren.Google Scholar
  21. 301.
    Vgl. Baier/Säuberlich (1997), S. 968.Google Scholar
  22. 302.
    Für die ACA sieht das System selbst kein vergleichbares Gütekriterium für die Schätzung innerhalb der Paarvergleichsaufgabe vor und kann auch nicht auf Basis des Interviewprotokolls im nachhinein ermittelt werden.Google Scholar
  23. 303.
    Auch hier weist die ACA die entsprechenden Informationen und Werte nicht aus, so daß ein Vergleich nicht vorgenommen werden kann.Google Scholar
  24. 304.
    Auf einen T-Test auf Mittelwertunterschiede wurde verzichtet, da bei allen die Anwendungsvoraussetzung der Normalverteilung nicht gegeben war.Google Scholar
  25. 305.
    Vgl. hierzu auch Tabelle 4–4, in der eine Häufigkeitsverteilung über die optimalen Gewichtungsfaktoren wi* für alle Probanden bei der CCC und der CHIC angegeben wird.Google Scholar
  26. 306.
    Vgl. hierzu auch die Argumentation in Zusammenhang mit der Überprüfung der diskriminierenden Validität in Kapitel 5.1.Google Scholar
  27. 307.
    Vgl. Johnson (1989), S. 273.Google Scholar
  28. 308.
    Vgl. hierzu Kapitel 2.2.2.1.Google Scholar
  29. 309.
    Vgl. Green/Srinivasan (1990), S. 13; Wittink/Bergestuen (1999), S. 10; Srinivasan/deMaCarty (1998), S. 2 sowie die Dominanz dieses Kriteriums im Literaturüberblick der vorliegenden Arbeit.Google Scholar
  30. 310.
    Da die Marke „Electrolux” nicht als Ausprägung in den durchgeführten Conjoint-Interviews enthalten war, wurden Informationen aus dem abschließenden Interviewteil zur Markeneinschätzung herangezogen. Hierbei wurden die Probanden gebeten, zusätzliche Marken, die nicht als Ausprägung im eigentlichen Befragungsprogramm enthalten waren, auf einer Rating-Skala 0 bis 10 zu bewerten. Diese Vorgehensweise entsprach der ersten Phase der Self-Explicated-Aufgabe der hybriden Verfahren. Somit konnten die Teilnutzenwerte für die Ausprägung „Electrolux“ nachträglich je nach vorgenommener Bewertung durch die Probanden inter- oder extrapoliert werden.Google Scholar
  31. 311.
    Vgl. z.B. Goldberg (1980): [22%–32%], zitiert nach Green/Goldberg/Montemayer (1981), S. 39; Albers/Brockhoff (1985): [60%], S. 197; Mehta/Moore/Pavia (1992): [„...models predicted approximately half of the first choices correctly“], S. 473; Huber et al. (1993): [56%–70%], S. 110; Sattler (1994): [76%–79%], S. 37; Srinivasan/Park (1997): [64%–76%], S. 289; Hensel-Börner/Sattler (2000): [42%–57%] S. 16.Google Scholar
  32. 312.
    Zufallsmodell: Wahrscheinlichkeit, daß die Prognose für den ersten Rang mit der tatsächlichen Entscheidung übereinstimmt. Für die vorliegende Untersuchung beträgt diese Wahrscheinlichkeit 20%, da im Holdout-Set insgesamt 5 Produkte zu bewerten waren. Prozentuale Verbesserung = 100*[(korrekte Prognose durch die Präferenzmeßmethode in Prozent — korrekte Prognose durch das Zufallsmodell in Prozent) / (100 — korrekte Prognose durch das Zufallsmodell in Prozent)]. Vgl. Srinivasan/Park (1997), S. 289.Google Scholar
  33. 313.
    Vgl. Johnson (1989), S. 273.Google Scholar
  34. 314.
    Zur Vorgehensweise dieses Tests vgl. Hartung (1991), 496 ff.Google Scholar
  35. 315.
    Vgl. Srinivasan/Park (1997), S. 290. In ihrer Untersuchung ergibt sich für die Self-Explicated-Methode sogar eine leicht höhere First-Hit-Rate als für die CCA. Es sei zudem angemerkt, daß die Autoren den Vergleich nicht anhand eines zusätzlichen Holdout-Sets, sondern auf Basis tatsächlich getroffener Entscheidungen der Probanden durchführen.Google Scholar
  36. 316.
    Vgl. Goldberg (1980), zitiert nach Green/Goldberg/Montemayer (1981), S. 39; Akaah/Korgaonkar (1983), S. 192 und Green/Shaffer/Patterson (1991), S. 313. Einschränkend muß jedoch angemerkt werden. daß nur in der Studie von Akaah/Korgaonkar (1983) mit 6 Stimuli ein ähnlich großes Holdout-Set prognostiziert wurde. In den beiden anderen Untersuchungen umfaßte die Holdout-Aufgabe mit 9 bzw. 12 deutlich mehr Stimuli, wodurch ein direkter Vergleich der Ergebnisse nur bedingt zulässig ist.Google Scholar
  37. 317.
    Akaah/Korgaonkar(1983), S. 195.Google Scholar
  38. 318.
    Auch wenn bei der First-Hit-Rate der Anteil der Personen betrachtet wird, bei denen die Prognose übereinstimmt, gehen dabei die Informationen jedes einzelnen Probanden ein. Für jeden wird individuell überprüft, ob die Prognose für den ersten Rangplatz mit dessen tatsächlicher Bewertung übereinstimmt. Im Gegensatz dazu wird bei der folgenden Betrachtung simulierter Marktanteile nicht mehr jeder Proband einzeln analysiert, sondern die Teilstichprobe als ganzes betrachtet. Insofern kann die First-Hit-Rate als individuelles Gütekriterium für die Prognosevalidität interpretiert werden (vgl. hierzu auch Huber et al. (1993), die von „...individual hit rates...“ sprechen (S. 109) und Wittink/Bergestuen (1999), S. 11).Google Scholar
  39. 319.
    Einen sehr guten Überblick über die verschiedenen Kaufverhaltensannahmen geben Green/Krieger (1988).Google Scholar
  40. 320.
    Vgl. Finkbeiner (1988), S. 78.Google Scholar
  41. 321.
    Vgl. Green/Krieger (1988), S. 116.Google Scholar
  42. 322.
    Vgl. Curry (1998), S. 2.Google Scholar
  43. 323.
    Vgl. hierzu auch Gutsche (1995), S. 142 f.Google Scholar
  44. 324.
    Vgl. Elrod/Kumar (1989), S. 260.Google Scholar
  45. 325.
    Vgl. Curry (1998), S. 2. Auch Elrod/Kumar (1989) führen im Zusammenhang mit den Nachteilen des First-Choice-Model als bereits bekanntes Phänomen an, daß die Probanden nicht immer die meist präferierte Alternativen auswählen (vgl. S. 260).Google Scholar
  46. 326.
    Vgl. Green/Krieger (1988), S. 118.Google Scholar
  47. 327.
    Vgl. Green/Krieger (1988), S. 115 f.Google Scholar
  48. 328.
    Vgl. Green/Krieger (1988), S. 116.Google Scholar
  49. 329.
    Vgl. auch Hahn (1997), S. 156.Google Scholar
  50. 330.
    Vgl. Curry (1998), S. 3.Google Scholar
  51. 331.
    Zu den Problemen der BTL- und der Logit-Regel vgl. Green/Krieger (1988), S. 116.Google Scholar
  52. 332.
    Vgl. Green/Krieger (1988), S. 116.Google Scholar
  53. 333.
    Veranschaulichende Zahlenbeispiele zum Einfluß der Kaufverhaltensannahme auf die resultierenden Marktanteile gibt Curry (1998).Google Scholar
  54. 334.
    Vgl. hierzu auch Green/Krieger (1988), S. 115.Google Scholar
  55. 335.
    Vgl. Green/Krieger (1988), S. 117 ff.Google Scholar
  56. 336.
    Angemerkt sei, daß lediglich vier verschiedene Kaufverhaltensmodelle im engeren Sinn verglichen wurden. Die Anzahl von 30 ergibt sich aus der Tatsache, daß für das exponential gewichtete Modell insgesamt 27 verschiedene Werte für den Exponenten ß angenommen wurden.Google Scholar
  57. 337.
    Dieser Effekt soll an einem einfachen Zahlenbeispiel veranschaulicht werden. Für die beiden Zahlenreihen (1;2;3;4;5) und (10;20;30;40;50) ergibt sich ein Korrelationskoeffizient nach Pearson von 1, welcher eine perfekte Übereinstimmung impliziert. Keinen Einfluß hat, daß die Werte der zweiten Zahlenreihe um das Zehnfache größer sind als die der ersten.Google Scholar
  58. 338.
    Für die mittlere absolute Abweichung entspricht dieser „Maximalwert“ dem Minimum aller ermittelten Werte.Google Scholar
  59. 339.
    Vgl. hierzu die Ergebnisse in Kapitel 5.3.1 und 5.3.2.Google Scholar
  60. 340.
    Vgl. Wittink/Bergestuen (1999), S. 11 f.Google Scholar
  61. 341.
    Es sei noch einmal darauf hingewiesen, daß das BTL-Model dem exponentiell gewichteten Modell mit einem Exponenten ß=l entspricht.Google Scholar
  62. 342.
    Vgl. Green/Krieger (1988), S. 115.Google Scholar
  63. 343.
    Vgl. Agarwal/Green (1991), S. 144; Huber et al. (1993), S. 109; Pullman/Dodson/Moore (1999), S. 131 f.Google Scholar
  64. 344.
    Die Anzahl dieser paarweisen Vergleiche ergibt sich aus n(n-1)/2, wobei n für die Anzahl der angewendeten Kaufverhaltensmodelle (=30) steht.Google Scholar
  65. 345.
    Vgl. Huber et al. (1993), S. 109.Google Scholar
  66. 346.
    Vgl. Gutsche (1995), S. 142 f. und Green/Krieger (1988), S. 118.Google Scholar
  67. 347.
    Für die Bereitstellung der Daten sei dem GfK-Panelservice, namentlich den Herren H.-J. Finck und Friedemann Stöckle an dieser Stelle Dank ausgesprochen.Google Scholar
  68. 348.
    Einen Überblick über Studien, bei denen die externe Validität überprüft wurde, geben Levin et al. (1983), Louviere (1988) und Green/Srinivasan (1990), wobei die Autoren die externe Validität hierbei nicht ausschließlich auf die Prognose realer Marktanteile beziehen, sondern beispielsweise auch um die Prognose tatsächlichen Entscheidungsverhaltens erweitern. Diese erweiterte Definition der externen Validität entspricht der im Rahmen dieser Arbeit vorgenommenen Abgrenzung der Gütekriterien (vgl. hierzu Kapitel 2.2.2.1).Google Scholar
  69. 349.
    Vgl. Green/Srinivasan (1990), S. 13.Google Scholar
  70. 350.
    Vgl. Srinivasan/deMaCarty (1998), S. 1.Google Scholar
  71. 351.
    Vgl. Wittink/Bergestuen (1999), S. 8.Google Scholar
  72. 352.
    Vgl. Srinivasan/deMaCarty (1998), S. 3.Google Scholar
  73. 353.
    Vgl. Srinivasan/deMaCarty (1998), S. 4 ff.Google Scholar
  74. 354.
    Vgl. Silk/Urban (1978), S. 177; Erichson (1979); S. 261 f.; Hammann/Erichson (1994), S. 378 ff.; Gaul/Baier/Aperis (1996), S. 210.Google Scholar
  75. 355.
    Aus Gründen der Vergleichbarkeit zur Prognosevalidität sollten jeweils nur die Marken betrachtet werden. die auch in der simulierten Kaufentscheidung enthalten waren. Da eine dieser Marken jedoch nicht im GfK-Handelspanel berücksichtigt ist, wird die Marktanteilsprognose an dieser Stelle nur für die verbleibenden 4 Marken des Holdout-Sets vorgenommen.Google Scholar
  76. 356.
    Diese Vorgehensweise war notwendig, da die Marktanteilsdaten nur für Tischkühlschränke insgesamt und nicht für die verschiedenen Modelle differenziert vorlagen.Google Scholar
  77. 357.
    Um Verzerrungen des Verfahrensvergleichs aufgrund unterschiedlicher Bekanntheitsgrade zwischen den befragten Teilstichproben zu vermeiden, werden die Bekanntheitsgrade jeweils über die drei Teilstichproben gemittelt.Google Scholar
  78. 358.
    Dabei muß berücksichtigt werden. daß es sich um die Distributionsgrade für die gesamte Bundesrepublik handelte, wohingegen die Daten der vorliegenden Befragung mit der regionalen Begrenzung auf die drei Städte Hamburg, Frankfurt/Main und München erhoben wurden. Die direkte Übertragbarkeit der GfK-Daten auf die vorliegende Untersuchung ist insofern mit Einschränkungen in der Ergebnisinterpretation verbunden.Google Scholar
  79. 359.
    Aus Gründen der Geheimhaltung können die realen Marktanteile der untersuchten Marken nicht berichtet werden.Google Scholar

Copyright information

© Springer Fachmedien Wiesbaden 2000

Authors and Affiliations

  • Susanne Hensel-Börner

There are no affiliations available

Personalised recommendations