Zusammenfassung
In Kapitel 3 sind die beiden neuen adaptiven Verfahren CCC und CHIC sowie die ACA vorgestellt worden. Neben der Darstellung der einzelnen Befragungsschritte in der Self-Explicated-, Conjoint- und Kombinationsphase wurden die methodischen Unterschiede zwischen diesen Verfahren aufgezeigt. Nach dieser konzeptionellen Gegenüberstellung werden sie im folgenden einer empirischen Validitätsprüfung unterzogen. Die ACA als etabliertes Verfahren dient dabei als Referenzpunkt für die Ergebnisgüte der beiden neuen Methoden. Gleichzeitig kann ein direkter Vergleich der neuen Verfahren mit der ACA zeigen, ob alternative Vorgehensweise vor allem bei der Datenerhebung in der Conjoint-Phase zu valideren Ergebnissen fuhren. Beispielsweise ist bei der ACA bisher die Konzeption der Paarvergleichsaufgabe häufig als Schwachpunkt des Verfahrens angeführt worden. 281
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Preview
Unable to display preview. Download preview PDF.
Referenzen
Vgl. Green/Srinivasan (1990), S. 11; Green/Krieger/Agarwal (1991), S. 220 f.; Reiners (1996), S. 78 f.; Srinivasan/Park (1997), S. 286.
Vgl. hierzu die Ausführungen in Kapitel 2.3.2 und 2.5.2.
Dabei sei einschränkend angemerkt, daß nur 2 verschiedene Varianten der Self-Explicated-Methode verglichen werden. da die Vorgehensweise bei der SE-CCC und SE-CHIC identisch ist.
Zur Definition und Abgrenzung der Kriterien vgl. Kapitel 2.2.2.1.
Es sei darauf hingewiesen, daß an dieser Stelle ebenso die konvergierende Validität getestet werden könnte. Wie in Kapitel 2.2.2.1 diskutiert, entspricht eine Überprüfung der konvergierenden Validität der gleichen Vorgehensweise, wobei lediglich die Ausgangshypothese für die Tests umgekehrt formuliert wird. In diesem Fall werden keine Unterschiede zwischen den verschiedenen Verfahren erwartet.
Die Spannweite stellt den Unterschied zwischen maximalem und minimalem Teilnutzenwert einer Eigenschaft dar.
Vgl. z.B. Mengen/Simon (1996), S. 234.
Vgl. hierzu auch die Argumentation hinsichtlich des eingesetzten Schätzverfahrens bei der CCC in Kapitel 4.3.2.
Zum Wilcoxon-Test auf Gleichheit zweier abhängiger Stichproben vgl. Bortz (1993), S. 144 f.
Vgl. hierzu die Ergebnisse der Studien von Huber/Herrmann/Gustafsson (2000); Leigh/ MacKay/Summers (1984); Kalish/Nelson (1991) und Stallmeier (1993) in Kapitel 2.2.2.
Vgl. Kapitel 2.3.1.
Vgl. Teas/Dellva(1985), S. 108; Stallmeier (1993), S. 295.
Vgl. Orme/Alpert/Christensen (1997), S. 215.
Zur Überprüfung der Verteilungsannahme wurde ein Kolmogoroff-Smirnoff-Test durchgeführt. Angenommen werden konnte die Hypothese auf Normalverteilung (p > 0, 1) nur bei der ACA für alle 8 Eigenschaften, bei der CHIC-alt für die Eigenschaften „Abtaumöglichkeit“ und „Gefrierfach“, bei der CHIC-neu für die Eigenschaft „Gefrierfach“ und für die Eigenschaft „Garantiedauer“ bei der SE-CCC.
Die Anzahl an paarweisen Tests ergibt sich aus (n(n-1)/2)*8 Eigenschaften, wobei n für die Anzahl untersuchter Verfahren steht.
Ein ähnliches Vorgehen zur Überprüfung der Korrespondenz zwischen den ermittelten Bedeutungsgewichten bei unterschiedlichen Verfahren berichten Akaah/Korgaonkar (1983). Die Autoren berechnen die Korrelationen zwischen den Bedeutungsgewichten jedoch zunächst auf individueller Basis und aggregieren die Ergebnisse anschließend. Dies ist allerdings nur möglich, wenn ein within-subject Design bei der Datenerhebung verwendet wurde. In der vorliegenden Untersuchung ist aufgrund der unabhängigen Stichproben zwischen den drei hybriden Verfahren eine entsprechende individuelle Analyse nicht für alle paarweisen Vergleiche durchführbar. Ein weiterer Unterschied zu dem Vorgehen von Akaah/Korgaonkar (1983) liegt darin, daß die Autoren den Rangkorrelationskoeffizienten nach Spearman berechnen (vgl. S. 119). Dieser vergleicht jedoch nur die Reihenfolge der geschätzten Wichtigkeiten. Mit dem Korrelationskoeffizient nach Pearson werden dagegen auch die Unterschiede zwischen den verschiedenen Bedeutungsgewichten berücksichtigt und die Präferenzstrukturen detaillierter analysiert.
Vgl. Hensel-Börner/Sattler (2000), S. 14.
Empirische Belege hierfür liefern Bleicker (1983), S. 16; Böcker (1986), S. 543 ff.; Jacoby/ Olson/Haddock (1971), S. 570 ff.; Kroeber-Riel (1992), S. 281 ff; Rao/Sattler (1998) und Sattler (1991), S. 181.
Vgl. hierzu auch die Argumentation hinsichtlich der Häufigkeiten der Gewichtungsfaktoren wi* in Kapitel 4.3.3.
Einzige Ausnahme bildet hierbei die Konvergenz zwischen der CHIC mit der SE-CCC. Dies ist jedoch plausibel, da die beiden Self-Explicated-Verfahren SE-CCC und SE-CHIC identisch sind und, wie bereits diskutiert, sehr hoch miteinander korrelieren.
Vgl. Baier/Säuberlich (1997), S. 968.
Für die ACA sieht das System selbst kein vergleichbares Gütekriterium für die Schätzung innerhalb der Paarvergleichsaufgabe vor und kann auch nicht auf Basis des Interviewprotokolls im nachhinein ermittelt werden.
Auch hier weist die ACA die entsprechenden Informationen und Werte nicht aus, so daß ein Vergleich nicht vorgenommen werden kann.
Auf einen T-Test auf Mittelwertunterschiede wurde verzichtet, da bei allen die Anwendungsvoraussetzung der Normalverteilung nicht gegeben war.
Vgl. hierzu auch Tabelle 4–4, in der eine Häufigkeitsverteilung über die optimalen Gewichtungsfaktoren wi* für alle Probanden bei der CCC und der CHIC angegeben wird.
Vgl. hierzu auch die Argumentation in Zusammenhang mit der Überprüfung der diskriminierenden Validität in Kapitel 5.1.
Vgl. Johnson (1989), S. 273.
Vgl. hierzu Kapitel 2.2.2.1.
Vgl. Green/Srinivasan (1990), S. 13; Wittink/Bergestuen (1999), S. 10; Srinivasan/deMaCarty (1998), S. 2 sowie die Dominanz dieses Kriteriums im Literaturüberblick der vorliegenden Arbeit.
Da die Marke „Electrolux” nicht als Ausprägung in den durchgeführten Conjoint-Interviews enthalten war, wurden Informationen aus dem abschließenden Interviewteil zur Markeneinschätzung herangezogen. Hierbei wurden die Probanden gebeten, zusätzliche Marken, die nicht als Ausprägung im eigentlichen Befragungsprogramm enthalten waren, auf einer Rating-Skala 0 bis 10 zu bewerten. Diese Vorgehensweise entsprach der ersten Phase der Self-Explicated-Aufgabe der hybriden Verfahren. Somit konnten die Teilnutzenwerte für die Ausprägung „Electrolux“ nachträglich je nach vorgenommener Bewertung durch die Probanden inter- oder extrapoliert werden.
Vgl. z.B. Goldberg (1980): [22%–32%], zitiert nach Green/Goldberg/Montemayer (1981), S. 39; Albers/Brockhoff (1985): [60%], S. 197; Mehta/Moore/Pavia (1992): [„...models predicted approximately half of the first choices correctly“], S. 473; Huber et al. (1993): [56%–70%], S. 110; Sattler (1994): [76%–79%], S. 37; Srinivasan/Park (1997): [64%–76%], S. 289; Hensel-Börner/Sattler (2000): [42%–57%] S. 16.
Zufallsmodell: Wahrscheinlichkeit, daß die Prognose für den ersten Rang mit der tatsächlichen Entscheidung übereinstimmt. Für die vorliegende Untersuchung beträgt diese Wahrscheinlichkeit 20%, da im Holdout-Set insgesamt 5 Produkte zu bewerten waren. Prozentuale Verbesserung = 100*[(korrekte Prognose durch die Präferenzmeßmethode in Prozent — korrekte Prognose durch das Zufallsmodell in Prozent) / (100 — korrekte Prognose durch das Zufallsmodell in Prozent)]. Vgl. Srinivasan/Park (1997), S. 289.
Vgl. Johnson (1989), S. 273.
Zur Vorgehensweise dieses Tests vgl. Hartung (1991), 496 ff.
Vgl. Srinivasan/Park (1997), S. 290. In ihrer Untersuchung ergibt sich für die Self-Explicated-Methode sogar eine leicht höhere First-Hit-Rate als für die CCA. Es sei zudem angemerkt, daß die Autoren den Vergleich nicht anhand eines zusätzlichen Holdout-Sets, sondern auf Basis tatsächlich getroffener Entscheidungen der Probanden durchführen.
Vgl. Goldberg (1980), zitiert nach Green/Goldberg/Montemayer (1981), S. 39; Akaah/Korgaonkar (1983), S. 192 und Green/Shaffer/Patterson (1991), S. 313. Einschränkend muß jedoch angemerkt werden. daß nur in der Studie von Akaah/Korgaonkar (1983) mit 6 Stimuli ein ähnlich großes Holdout-Set prognostiziert wurde. In den beiden anderen Untersuchungen umfaßte die Holdout-Aufgabe mit 9 bzw. 12 deutlich mehr Stimuli, wodurch ein direkter Vergleich der Ergebnisse nur bedingt zulässig ist.
Akaah/Korgaonkar(1983), S. 195.
Auch wenn bei der First-Hit-Rate der Anteil der Personen betrachtet wird, bei denen die Prognose übereinstimmt, gehen dabei die Informationen jedes einzelnen Probanden ein. Für jeden wird individuell überprüft, ob die Prognose für den ersten Rangplatz mit dessen tatsächlicher Bewertung übereinstimmt. Im Gegensatz dazu wird bei der folgenden Betrachtung simulierter Marktanteile nicht mehr jeder Proband einzeln analysiert, sondern die Teilstichprobe als ganzes betrachtet. Insofern kann die First-Hit-Rate als individuelles Gütekriterium für die Prognosevalidität interpretiert werden (vgl. hierzu auch Huber et al. (1993), die von „...individual hit rates...“ sprechen (S. 109) und Wittink/Bergestuen (1999), S. 11).
Einen sehr guten Überblick über die verschiedenen Kaufverhaltensannahmen geben Green/Krieger (1988).
Vgl. Finkbeiner (1988), S. 78.
Vgl. Green/Krieger (1988), S. 116.
Vgl. Curry (1998), S. 2.
Vgl. hierzu auch Gutsche (1995), S. 142 f.
Vgl. Elrod/Kumar (1989), S. 260.
Vgl. Curry (1998), S. 2. Auch Elrod/Kumar (1989) führen im Zusammenhang mit den Nachteilen des First-Choice-Model als bereits bekanntes Phänomen an, daß die Probanden nicht immer die meist präferierte Alternativen auswählen (vgl. S. 260).
Vgl. Green/Krieger (1988), S. 118.
Vgl. Green/Krieger (1988), S. 115 f.
Vgl. Green/Krieger (1988), S. 116.
Vgl. auch Hahn (1997), S. 156.
Vgl. Curry (1998), S. 3.
Zu den Problemen der BTL- und der Logit-Regel vgl. Green/Krieger (1988), S. 116.
Vgl. Green/Krieger (1988), S. 116.
Veranschaulichende Zahlenbeispiele zum Einfluß der Kaufverhaltensannahme auf die resultierenden Marktanteile gibt Curry (1998).
Vgl. hierzu auch Green/Krieger (1988), S. 115.
Vgl. Green/Krieger (1988), S. 117 ff.
Angemerkt sei, daß lediglich vier verschiedene Kaufverhaltensmodelle im engeren Sinn verglichen wurden. Die Anzahl von 30 ergibt sich aus der Tatsache, daß für das exponential gewichtete Modell insgesamt 27 verschiedene Werte für den Exponenten ß angenommen wurden.
Dieser Effekt soll an einem einfachen Zahlenbeispiel veranschaulicht werden. Für die beiden Zahlenreihen (1;2;3;4;5) und (10;20;30;40;50) ergibt sich ein Korrelationskoeffizient nach Pearson von 1, welcher eine perfekte Übereinstimmung impliziert. Keinen Einfluß hat, daß die Werte der zweiten Zahlenreihe um das Zehnfache größer sind als die der ersten.
Für die mittlere absolute Abweichung entspricht dieser „Maximalwert“ dem Minimum aller ermittelten Werte.
Vgl. hierzu die Ergebnisse in Kapitel 5.3.1 und 5.3.2.
Vgl. Wittink/Bergestuen (1999), S. 11 f.
Es sei noch einmal darauf hingewiesen, daß das BTL-Model dem exponentiell gewichteten Modell mit einem Exponenten ß=l entspricht.
Vgl. Green/Krieger (1988), S. 115.
Vgl. Agarwal/Green (1991), S. 144; Huber et al. (1993), S. 109; Pullman/Dodson/Moore (1999), S. 131 f.
Die Anzahl dieser paarweisen Vergleiche ergibt sich aus n(n-1)/2, wobei n für die Anzahl der angewendeten Kaufverhaltensmodelle (=30) steht.
Vgl. Huber et al. (1993), S. 109.
Vgl. Gutsche (1995), S. 142 f. und Green/Krieger (1988), S. 118.
Für die Bereitstellung der Daten sei dem GfK-Panelservice, namentlich den Herren H.-J. Finck und Friedemann Stöckle an dieser Stelle Dank ausgesprochen.
Einen Überblick über Studien, bei denen die externe Validität überprüft wurde, geben Levin et al. (1983), Louviere (1988) und Green/Srinivasan (1990), wobei die Autoren die externe Validität hierbei nicht ausschließlich auf die Prognose realer Marktanteile beziehen, sondern beispielsweise auch um die Prognose tatsächlichen Entscheidungsverhaltens erweitern. Diese erweiterte Definition der externen Validität entspricht der im Rahmen dieser Arbeit vorgenommenen Abgrenzung der Gütekriterien (vgl. hierzu Kapitel 2.2.2.1).
Vgl. Green/Srinivasan (1990), S. 13.
Vgl. Srinivasan/deMaCarty (1998), S. 1.
Vgl. Wittink/Bergestuen (1999), S. 8.
Vgl. Srinivasan/deMaCarty (1998), S. 3.
Vgl. Srinivasan/deMaCarty (1998), S. 4 ff.
Vgl. Silk/Urban (1978), S. 177; Erichson (1979); S. 261 f.; Hammann/Erichson (1994), S. 378 ff.; Gaul/Baier/Aperis (1996), S. 210.
Aus Gründen der Vergleichbarkeit zur Prognosevalidität sollten jeweils nur die Marken betrachtet werden. die auch in der simulierten Kaufentscheidung enthalten waren. Da eine dieser Marken jedoch nicht im GfK-Handelspanel berücksichtigt ist, wird die Marktanteilsprognose an dieser Stelle nur für die verbleibenden 4 Marken des Holdout-Sets vorgenommen.
Diese Vorgehensweise war notwendig, da die Marktanteilsdaten nur für Tischkühlschränke insgesamt und nicht für die verschiedenen Modelle differenziert vorlagen.
Um Verzerrungen des Verfahrensvergleichs aufgrund unterschiedlicher Bekanntheitsgrade zwischen den befragten Teilstichproben zu vermeiden, werden die Bekanntheitsgrade jeweils über die drei Teilstichproben gemittelt.
Dabei muß berücksichtigt werden. daß es sich um die Distributionsgrade für die gesamte Bundesrepublik handelte, wohingegen die Daten der vorliegenden Befragung mit der regionalen Begrenzung auf die drei Städte Hamburg, Frankfurt/Main und München erhoben wurden. Die direkte Übertragbarkeit der GfK-Daten auf die vorliegende Untersuchung ist insofern mit Einschränkungen in der Ergebnisinterpretation verbunden.
Aus Gründen der Geheimhaltung können die realen Marktanteile der untersuchten Marken nicht berichtet werden.
Rights and permissions
Copyright information
© 2000 Springer Fachmedien Wiesbaden
About this chapter
Cite this chapter
Hensel-Börner, S. (2000). Empirischer Validitätsvergleich. In: Validität computergestützter hybrider Conjoint-Analysen. Gabler Edition Wissenschaft. Deutscher Universitätsverlag, Wiesbaden. https://doi.org/10.1007/978-3-663-09092-2_5
Download citation
DOI: https://doi.org/10.1007/978-3-663-09092-2_5
Publisher Name: Deutscher Universitätsverlag, Wiesbaden
Print ISBN: 978-3-8244-7269-7
Online ISBN: 978-3-663-09092-2
eBook Packages: Springer Book Archive