Motivation

Die Untersuchung von Kostentransparenz ist aus ökonomischer Sicht besonders spannend, da sie Einblicke in das Zusammenspiel von Marktverhalten, Preiswahrnehmung und Konsumentenvertrauen ermöglicht. In klassischen Märkten gilt Information als asymmetrisch verteilt - insbesondere Kostenstrukturen bleiben für Konsument:innen meist verborgen. Wenn Unternehmen jedoch freiwillig ihre Produktionskosten offenlegen, entsteht eine neue Form der Marktkommunikation, die sowohl auf das Kaufverhalten als auch auf die Markenbindung Einfluss nehmen kann.

In diesem Projekt beschäftigen Sie sich mit der ökonomischen Wirkung unterschiedlicher Formen von Kostentransparenz, darunter produktbezogene Einzelkosten-Offenlegung im Point-of-Sale oder auch verbal vermittelte Transparenz in Kombination mit Vertrauensmessung. Ziel ist es, zu untersuchen, wie sich diese Varianten auf Zahlungsbereitschaft, Vertrauen und wahrgenommene Preisfairness auswirken.

Kern dieser Ausarbeitung ist die Frage, inwiefern Kostentransparenz eine rationale Kaufentscheidung unterstützt oder über emotionale Mechanismen - etwa durch erhöhte Markenattraktivität - wirkt. Für die Analyse greifen Sie auf ein breites Methodenrepertoire zurück, das ökonomische Modellierung mit experimenteller Verhaltensforschung verbindet, und leisten so einen Beitrag zum besseren Verständnis moderner Konsumentenentscheidungen in transparenten Märkten. Für ihre Analyse verwenden Sie die Daten der folgenden Ausarbeitung:

Mohan, B., Buell, R. W., & John, L. K. (2020). Lifting the veil: The benefits of cost transparency. Marketing Science, 39(6), 1105-1121.

Aufbau der Studie

Lesen Sie sich den folgenden Text zum Hintergrund und Aufbau der Studie durch und beantworten Sie nachfolgende Fragen dazu:

Der Ausgangspunkt der betrachteten Untersuchung war ein reales Ereignis: Ein Online-Händler stellte im Dezember 2013 ein hochwertiges Lederportemonnaie zum Verkauf. Einige Wochen später wurde auf den Produktseiten eine Infografik zur Kostenzusammensetzung ergänzt, allerdings versehentlich nur bei drei von fünf Farbvarianten. Obwohl der Händler diesen Fehler nicht beabsichtigte, entstand daraus ein sogenanntes natürliches Experiment, also eine reale Vergleichssituation mit kontrollierbaren Unterschieden. Die Verkäufe konnten analysiert werden, um zu überprüfen, ob die Offenlegung der Produktionskosten einen Einfluss auf das Kaufverhalten hatte.

Dieses natürliche Experiment lieferte erste Hinweise darauf, dass Kostentransparenz wirkt - und war damit die Basis für zwei gezielte Experimente im Labor, die Sie sich in diesem Projekt genauer anschauen sollen. Beide Laborexperimente knüpfen an die reale Ausgangslage an - gehen aber unterschiedliche Forschungsfragen an:

Experiment 1: In einem realitätsnahen Online-Setting wurde untersucht, ob Konsument:innen anders entscheiden, wenn sie Informationen zu Produktionskosten sehen. Hierbei sahen die Teilnehmer:innen eine Produktseite für einen Rucksack von Everlane - entweder mit oder ohne Kostenaufstellung (vgl. Abbildung 1: Kostentransparenz Infografik im Anhang). Zusätzlich wurde ein Vergleichsprodukt von J. Crew gezeigt (ohne Hinweise zur Kostenzusammensetzung). Die Teilnehmer:innen mussten entscheiden, von welchem Anbieter sie lieber einen Gutschein erhalten würden. Das Ziel der Forscher war es zu messen, ob Konsument:innen bei mehr Transparenz auch eher kaufen, folglich sich für diesen Gutschein entscheiden.

Experiment 2: Nachdem Experiment 1 zeigte, dass es einen Effekt der Kostentransparenz gibt, stellt sich die psychologische Anschlussfrage, warum es diesen Effekt gibt und wie dieser festzumachen ist. So sahen die Teilnehmer:innen im 2. Experiment ein fiktives Produkt - eine Schokoladentafel. In der Kontrollgruppe wurden nur übliche Produktinfos gezeigt. In der Treatmentgruppe gab es zusätzlich eine detaillierte Kostenaufstellung (vgl. Abbildung 2: Design der Schokoladenverpackung ohne und mit Kostentransparenz im Anhang). Im Anschluss wurden Vertrauen in die Marke und Kaufbereitschaft durch einen Fragebogen abgefragt. So sollte herausgefunden werden, ob Vertrauen der zentrale psychologische Mechanismus für die Kaufentscheidung der Kund:innen ist.

Beantworten Sie nun folgende Fragen:

Welches reale Ereignis war der Auslöser der Forschung?
Welche konkrete Verhaltensfrage steht im Mittelpunkt von Experiment 1 - Was wollten die Forscher:innen direkt am Kaufverhalten testen?
Welcher psychologische Faktor steht im Zentrum von Experiment 2 - und wie hängt er mit dem Kaufverhalten zusammen?

Der Auslöser der Forschung war ein Ereignis im Jahr 2013, bei dem ein Online-Händler versehentlich nur bei drei von fünf Farbvarianten eines Lederportemonnaies eine Infografik zur Kostenaufstellung bereitstellte. Dadurch entstand unbeabsichtigt ein natürliches Experiment.

Im ersten Experiment sollte herausgefunden werden, ob Kund:innen eher bereit sind, ein Produkt zu kaufen, wenn Informationen zur Kostentransparenz vorliegen. Tatsächlich zeigte sich, dass sich die Teilnehmer:innen häufiger für das Produkt mit offengelegter Kostenstruktur entschieden.

Im zweiten Experiment ging es darum, zu ermitteln, welcher psychologische Faktor diesen Effekt erklären könnte. Im Mittelpunkt stand dabei das Vertrauen der Kund:innen in die Marke bzw. den Hersteller. Untersucht wurde also, ob höhere Kostentransparenz das Vertrauen stärkt und dadurch die Kaufbereitschaft erhöht.

Nachdem Sie nun die grundlegende Forschungsidee und Zielsetzung der beiden Experimente kennengelernt haben, befassen wir uns im nächsten Schritt vertiefend mit Experiment 1. Ziel ist es, den genauen Aufbau, sowie das konkrete Verhalten der Teilnehmer:innen besser zu verstehen.

Lesen Sie sich den folgenden Text zum Aufbau des ersten Experiments durch und beantworten Sie anschließend Fragen dazu:

Cost transparency refers to the disclosure of the costs to produce a good or provide a service. Although cost transparency is a strategy traditionally employed in the context of supplier-firm relationships, wherein the two-way sharing of cost information between parties facilitates collaboration on cost reduction measures, we investigate its effects within the context of consumer-firm relationships. Information on the costs associated with providing goods and services is rarely shared with consumers, but we provide evidence of when and why voluntarily doing so can increase consumers’ purchase interest. Specifically, building on the psychology of disclosure and trust, we posit that cost transparency, insofar as it represents an act of intimate disclosure, fosters trust. In turn, we propose that this heightened trust increases consumers’ willingness to purchase from the transparent firm. In the sections that follow, we discuss our central predictions and highlight alternative accounts. Then, we present experiments, conducted in the lab and in the field, that document the main effects of cost transparency, its underlying psychological drivers, and conditions that moderate its effects.

This first experiment explores how cost transparency influences consumer preferences in an online shopping context. The study was designed as a between-subjects randomized experiment using an incentive-compatible setup, meaning participants made real choices with the possibility of receiving a tangible reward. A total of 509 U.S.-based participants were recruited through Amazon Mechanical Turk (MTurk). Each participant was randomly assigned to one of two experimental conditions:

Cost Transparency Condition: Participants were shown a simulated product page for a backpack sold by the retailer Everlane. This page included a cost breakdown infographic, listing the production costs such as materials, labor, transport, and duties, with a clearly stated total cost.
Control Condition: Participants saw the same backpack from Everlane but without any cost information. In both conditions, participants also saw a comparable backpack from J. Crew, which does not practice cost transparency.

Participants were instructed to view both product pages and then asked which company they would prefer to receive a $50 gift card from. Their response served as the main behavioral outcome, representing a choice between the transparent vs. non-transparent retailer. To ensure accurate interpretation of the presented information, a comprehension check followed the main choice question. Participants were also asked for demographic information such as age, gender, income, and education, to allow for potential control variables in later analysis.

Beantworten Sie nun folgende Fragen:

Wie viele Personen nahmen final an dem Experiment teil?
Worin bestand der Unterschied zwischen der Transparenzbedingung und der Kontrollbedingung?
Welche Anreizstruktur wurde verwendet, um die Entscheidung der Teilnehmenden realistisch zu gestalten?
Wie unterschieden sich die beiden gezeigten Onlinehändler im Experiment?
Warum wurde im Anschluss an die Entscheidungsfrage ein Verständnischeck durchgeführt?
In der Beschreibung des Experiments wird von “between-subjects randomized experiment using an incentive-compatible setup” gesprochen. Was versteht man hierunter im Detail?

Hinweis: Für die Beantwortung der letzten Frage können Sie diesen Artikel (Seite 1-5) als Grundlage verwenden.

Am Experiment nahmen 509 Personen teil, welche über Amazon Mechenical Turk (Mturk) rekrutiert wurden.
In der Transparenzbedingung sahen die Teilnehmer:innen eine simulierte Produktseite eines Rucksacks der Marke Everlane, auf der eine Infografik zur Aufschlüsselung der Produktionskosten (Materialien, Arbeit, Transport, Zölle etc.) dargestellt war. In der Kontrollbedingung wurde derselbe Everlane-Rucksack gezeigt – jedoch ohne jegliche Kosteninformationen. In beiden Bedingungen wurde zusätzlich ein vergleichbarer Rucksack der Marke J. Crew gezeigt, der ebenfalls keine Informationen zur Kostenstruktur enthielt.
Es wurde ein incentive-kompatibles Design verwendet, was bedeutet, dass die Teilnehmer:innen eine reale Entscheidung trafen: Sie sollten angeben, von welchem Anbieter (Everlane oder J. Crew) sie lieber einen 50-Dollar-Gutschein erhalten würden. Die Aussicht auf eine tatsächliche Belohnung erhöhte die Ernsthaftigkeit und Realitätsnähe der Entscheidung.
Der Unterschied bestand darin, dass Everlane im Experiment Kostenaufstellungen präsentierte (in der Transparenzbedingung), während J. Crew durchgehend keine Informationen zur Kostenstruktur lieferte. J. Crew diente somit als nicht-transparenter Vergleichsanbieter, während Everlane als potenziell transparenter Anbieter fungierte.
Der Verständnischeck wurde durchgeführt, um sicherzustellen, dass die Teilnehmer:innen die angezeigten Informationen korrekt wahrgenommen und verstanden hatten. Nur wenn die Informationen richtig verarbeitet wurden, kann man davon ausgehen, dass die Entscheidung (z.B. Gutscheinpräferenz) auf den experimentell manipulierten Bedingungen beruhte – und nicht auf Missverständnissen.
Das Experiment ist ein “between-subjects randomized experiment”, das heißt die Teilnehmer:innen werden zufällig in eine der beiden Gruppen (Kostentransparenz/Kontroll) aufgeteilt. Jede(r) Teilnehmer(in) nimmt also nur an einer Bedingung teil. Würde eine Person an beiden Bedingungen teilnehmen, so könnte dies zu Verzerrungen führen, die beispielsweise davon abhängen, in welcher Reihenfolge die beiden Bedingungen präsentiert werden. Die zufällige Aufteilung sorgt dafür, dass sich die potenziell beobachteten Unterschiede zwischen den Gruppen tatsächlich auf die Kostentransparenz zurückführen lassen und nicht auf systematische Unterschiede zwischen den Gruppen. Das Studiendesign ist “incentive-compatible”, wenn es für jede(n) Studienteilnehmer(in) den meisten Nutzen bringt, ihre ehrlichen Präferenzen anzugeben. Dies wird durch einen finanziellen Anreiz realisiert: einige Teilnehmer:innen erhalten tatsächlich den 50 Dollar Gutschein (wovon die Teilnehmer:innen vor dem Experiment natürlich wissen). Dies erhöht die Wahrscheinlichkeit, dass der tatsächlich präferierte Rucksack gewählt wird.

Daten

Datenimport und -aufbereitung

Die Daten, die Sie für die nachfolgenden Analysen verwenden, wurden zu Replikationszwecken von den Autoren der Studie zur Verfügung gestellt und können hier heruntergeladen werden:

Bhavya Mohan, Ryan W. Buell, Leslie K. John (2020) Lifting the Veil: The Benefits of Cost Transparency. Marketing Science 39(6):1105-1121. mksc.2019.1200.sm1.pdf

Wir haben die Daten für Sie heruntergeladen und im Unterordner mit dem Namen Daten bereitgestellt. Für ihre Analyse werden die Dateien Experiment1.csv und Experiment2.csv genutzt. Für die Zusatzaufgabe ist die Datei Experiment3.csv relevant.

Lesen Sie den Datensatz Experiment1.csv aus dem Unterordner Daten in R ein. Nennen Sie den Datensatz in R daten_exp1.

Im Datensatz sind unterschiedliche Variablen enthalten. Weiterhin habe wir Ihnen ein Readme mit den Beschreibungen zu den Variablen bereitgestellt. Nutzen Sie dieses und den Text aus Aufgabe 2, um die Variablen zu beschreiben.

Der Datensatz Experiment1.csv enthält Daten zu den Ergebnissen des ersten Experiments. Jede Beobachtung steht für einen/eine Teilnehmende des Experiments. Der Datensatz verfügt über 8 Variablen:

treatment: Gibt an ob der/die Teilnehmende die Kostentransparente Website gesehen haben oder nicht (0 = nicht gesehen, 1 = gesehen)
everlane: Gibt an für welchen der beiden Gutscheine sich der jeweilige Teilnehmende entschieden hat (1 = Everlane-Gutschein, 0 = J. Crew Gutschein)
passed: Gibt an ob der zum Experiment zugehörige Verständnistest bestanden wurde (1 = bestanden, 0 = nicht bestanden)
email_provided: Gibt an ob der/die Teilnehmende seine E-Mail-Adresse hinterlegt hat, an die der Gutschein versendet werden kann (1 = E-Mail-Adresse angegeben, 0 = Keine E-Mail-Adresse angegeben)
female: Ist der/die Teilnehmende männlich oder weiblich (1 = weiblich, 0 = männlich)
age: Alter des Teilnehmenden
educ: Erreichter Bildungsabschluss, welcher optional angegeben werden kann (1 = Einige Jahre in der Schule, 2 = Schulabschluss, 3 = Einige Jahre College, 4 = Hochschulabschluss, 5 = Postgradual/beruflich)
income: Einkommen, welches optional angegeben werden konnte (1 = Keines, 2 = Unter 60 Dollar, 3 = 60-499 Dollar, 4 = 500-999 Dollar, 5 = 1.000-1.999 Dollar, 6 = 2.000-2.999 Dollar, 7 = 3.000-3.999 Dollar, 8 = 4.000-4.999 Dollar, 9 = 5.000-7.499 Dollar, 10 = 7.500-9.999 Dollar, 11 = Über 10.000 Dollar, 12 = Weiß nicht/Bevorzuge keine Antwort)

Deskriptive Analyse

Sie sollten sich im ersten Schritt einen Überblick über ihre Daten verschaffen.

Auf Basis des Datensatzes daten_exp1 aus Aufgabe 3 erstellen Sie eine deskriptive Tabelle mit der Anzahl an Beobachtungen, den Mittelwerten, der Standardabweichungen, dem Median, sowie den Minima und Maxima für alle in daten_exp1 enthaltenen Variablen.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie insbesondere auf die Verteilungen der einzelnen Variablen ein. Was fällt hier besonders auf.

Deskriptive Tabelle zu den Daten aus Experiment 1
Variable	Anzahl	Mittelwert	Standardabweichung	Median	Minimum	Maximum
treatment	509	0.50	0.50	0	0	1
everlane	509	0.63	0.48	1	0	1
passed	509	0.77	0.42	1	0	1
email_provided	509	0.56	0.50	1	0	1
female	509	0.49	0.50	0	0	1
age	505	37.59	11.74	35	18	81
educ	505	3.76	0.84	4	1	5
income	505	7.58	2.43	8	1	12

Beschreibung und Interpretation

Der Tabelle können wir zentrale deskriptive Kennzahlen für die Variablen unseres Datensatzes entnehmen. Auffällig ist, dass bei einigen Merkmalen Beobachtungen fehlen: Für age, educ und income liegen jeweils nur 505 statt 509 Beobachtungen vor. Vier Personen haben sich wahrscheinlich dazu entschieden, ihr Alter, Bildungsstand und Einkommen nicht anzugeben.

Die Minima und Maxima der meisten Variablen – mit Ausnahme von age – spiegeln hauptsächlich die zugrunde liegende Kodierung wider und sind daher eher technischer Natur. Die Mittelwerte der binären Variablen geben den Anteil der Beobachtungen wieder, für die die binäre Variable den Wert 1 hat (z. B. bei dem Geschlecht der Anteil an Frauen). Die Mediane von binären Variablen geben den Wert an, der häufiger vorkommt.

treatment: Der Mittelwert von 0,50 zeigt eine gleichmäßige Verteilung auf die Treatment- und Kontrollgruppe. Dies ist typisch für ein randomisiertes Experiment und bestätigt die Zufallszuweisung: 50% der Teilnehmenden wurden jeweils einer Gruppe zugeordnet.

everlane: 63% der Teilnehmenden wählten den Everlane-Gutschein. Der Median von 1 zeigt ebenfalls, dass die Mehrheit Everlane bevorzugte. Die Verteilung ist asymmetrisch mit einer stärkeren Gewichtung auf der „1“.

passed: Der Mittelwert (0,77) lässt sich als Anteil der Personen interpretieren, die den Verständnistest bestanden haben. Rund 77% haben bestanden, 23% nicht. Die relativ geringe Standardabweichung (0,42) zeigt eine moderate Streuung, die Verteilung ist einseitig und leicht asymmetrisch.

email_provided: 56% der Teilnehmenden haben eine E-Mail-Adresse angegeben. Auch hier zeigt der Median von 1, dass mehr als die Hälfte dazu bereit war.

female: 49% der Teilnehmenden sind weiblich. Die nahezu gleichmäßige Verteilung (SD ≈ 0,5) deutet auf ein ausgewogenes Geschlechterverhältnis hin. Divers war offenbar keine Antwortoption.

age: Das Durchschnittsalter liegt bei ca. 38 Jahren, mit einem Median von 35. Die Differenz zwischen Median und Mittelwert deutet auf eine rechtsschiefe Verteilung hin. Das Alter variiert zwischen 18 und 81 Jahren, mit einer Standardabweichung von etwa 12 Jahren – ein Hinweis auf eine sehr heterogene Altersstruktur.

educ: Der Mittelwert von 3,76 deutet auf einen hohen Bildungsgrad hin – viele Teilnehmende verfügen über einen Hochschulabschluss. Die moderate Streuung (SD = 0,84) zeigt, dass alle Bildungsniveaus vertreten sind, aber mit einem Schwerpunkt im oberen Bereich.

income: Mit einem Mittelwert von 7,58 liegt das durchschnittliche Einkommen zwischen 3.000 und 4.999 US-Dollar (je nach Kodierung). Die Mehrheit lässt sich somit der unteren bis mittleren Mittelschicht in den USA zuordnen. Die leicht linksschiefe Verteilung (Median > Mittelwert) weist auf einige niedrige Einkommen hin.

Im Datensatz daten_exp1 gibt es Variablen für die keine Beobachtungen vorhanden sind.

Gegeben ihrer Variablenbeschreibung in Aufgabe 3:
- Macht es Sinn die Beobachtungen aus dem Datensatz zu entfernen, wenn für bestimmte Variablen keine Werte vorhanden sind?
- Wenn ja, warum?
- Wie viele Beobachtungen entfernen Sie dadurch aus ihrem Datensatz?

Entfernen Sie nun alle Beobachtungen (d.h. gesamte Zeilen aus dem Datensatz), bei denen für mindestens eine der erhobenen Variablen kein Wert vorliegt, da unvollständige Daten für die Analyse nicht berücksichtigt werden sollen.

Untersuchen Sie weiterhin, ob sich die Teilnehmer, die die Webseite mit der Kostentransparenz gesehen haben (Treatmentgruppe), systematisch von jenen unterscheiden, die die Kontrollversion gesehen haben. Auch wenn es sich um ein Experiment handelt, bei dem die Zuteilung zu den Gruppen zufällig erfolgt ist, sollten Sie dennoch prüfen, ob es unbeabsichtigte (systematische) Unterschiede zwischen den Gruppen gibt. Erstellen Sie hierfür eine Balancing-Tabelle, in der Sie die Mittelwerte von Alter (age), Geschlecht (female), Einkommensstufe (income) und Bildungsniveau (educ) zwischen den beiden Gruppen vergleichen, die Differenzen berechnen und mithilfe von T-Tests prüfen, ob diese Unterschiede statistisch signifikant sind.

Beschreiben und interpretieren Sie ihre Tabelle.
- Was fällt Ihnen in Bezug auf die p-Werte auf?
- Was müssten Sie bei einer weiteren Regressionsanalyse berücksichtigen?

Hinweis: Die beiden Gruppen, die Sie in der Balancing Tabelle betrachten sollen, können aus den Werten (1 und 0) der Variable treatment abgeleitet werden.

Es kann durchaus sinnvoll sein die Beobachtungen zu entfernen, zu denen unvollständige Daten vorliegen. Die Anzahl solcher Beobachtungen liegt im vorliegenden Fall bei 4 (0,79% der Stichprobe). Wir müssen also weder gravierende Stichprobenverzerrungen, noch Einbußen hinsichtlich der Power hinnehmen.

Balancing-Tabelle: Vergleich zwischen Treatment- und Kontrollgruppe
Variable	Mittelwert (Treatment)	Mittelwert (Kontrolle)	Differenz	p-Wert
age	37.273	37.913	-0.640	0.541
female	0.490	0.488	0.002	0.964
income	7.763	7.405	0.358	0.098
educ	3.794	3.734	0.060	0.418

Der Balancing-Tabelle lässt sich entnehmen, dass zwischen der Treatment- und der Kontrollgruppe keine systematischen Unterschiede in den betrachteten Merkmalen bestehen. Die Mittelwerte der Variablen female und educ unterscheiden sich nur geringfügig. Auch bei age und income zeigen sich zwar numerisch größere Differenzen (−0,64 bzw. +0,36), jedoch sind diese statistisch nicht signifikant (p > 0.05). Es gibt also keinen Grund, die Nullhypothese “Die Mittelwerte in Treatment- und Kontrollgruppe stimmen überein” abzulehnen. Insgesamt spricht dies dafür, dass die Randomisierung erfolgreich war und die Gruppen vergleichbar sind. Es gibt somit keine Hinweise auf unbeabsichtigte Verzerrungen in der Gruppenzuteilung.

Die p-Werte der T-Tests liegen für alle betrachteten Variablen über dem konventionellen Signifikanzniveau von 0.05. Das bedeutet, dass keine signifikanten Unterschiede zwischen Treatment- und Kontrollgruppe bestehen. Es gibt somit keine Hinweise auf systematische Verzerrungen.

Nachdem Sie sich in den vorangegangenen Aufgaben bereits mit der Verteilung der Daten und den Unterschieden zwischen den einzelnen Gruppen auseinandergesetzt haben, geht es nun um eine explorative Betrachtung von Zusammenhängen zwischen den zentralen Variablen im Datensatz.

In dieser Aufgabe führen Sie eine Korrelationsanalyse durch, um herauszufinden, ob und wie stark einzelne Merkmale - wie Alter, Bildung, Einkommen oder Geschlecht - mit der Treatment-Zugehörigkeit sowie der Entscheidung für die Everlane-Gutscheinkarte zusammenhängen.

Wählen Sie die folgenden Variablen aus dem Datensatz daten_exp1 aus:

treatment
everlane
age
income
educ
female

Berechnen Sie die Korrelationsmatrix dieser Variablen. Visualisieren Sie die Matrix (als Tabelle oder Grafik), in der die Korrelationskoeffizienten und deren Stärke farblich dargestellt sind.

Beschreiben und interpretieren Sie ihre Tabelle/Grafik. Gehen Sie hierbei auch auf folgende Fragen ein:

Was bedeutet ein positiver Zusammenhang (Korrelation) zwischen treatment und everlane im Kontext der Hypothese, dass Kostentransparenz die Entscheidung für Everlane beeinflusst?
Warum kann eine Korrelation auf einen Zusammenhang hinweisen, aber nicht ausreichen, um einen kausalen Effekt nachzuweisen - selbst wenn wir wissen, dass treatment im Experiment zufällig zugewiesen wurde?
Was nützt ihnen eine Korrelationsmatrix im Vergleich zu einem einfachen Mittelwertvergleich zwischen den Gruppen?

Hinweis: Für die Darstellung der Korrelationsmatrix können Sie z.B. das Paket corrplot verwenden.

Der Korrelationsmatrix lässt sich ein positiver Zusammenhang zwischen treatment und everlane mit einem Korrelationskoeffizienten von r = 0,16 entnehmen. Dies deutet darauf hin, dass Personen, die die Produktionsseite mit Kostenaufstellung gesehen haben, etwas häufiger den Everlane-Gutschein gewählt haben. Der Zusammenhang ist jedoch nur schwach und sollte entsprechend zurückhaltend interpretiert werden.

Auch wenn ein positiver Zusammenhang beobachtet wird, lässt sich daraus nicht automatisch ein kausaler Effekt ableiten. Korrelation zeigt lediglich, dass zwei Variablen gemeinsam variieren, aber nicht, ob eine die andere verursacht. Selbst bei randomisierter Zuweisung des treatment kann es sein, dass weitere Einflussfaktoren (z. B. Einkommen, Einstellung, Vorwissen) die Entscheidung für Everlane mitbestimmen. Für eine belastbare Kausalinterpretation sind gezielte Mittelwertvergleiche oder Regressionsanalysen mit Kontrolle von Störfaktoren erforderlich.

Mittelwertvergleiche zwischen Treatment- und Kontrollgruppe geben bereits einen Hinweis auf den Zusammenhang zwischen Kostenoffenlegung und Kaufentscheidung (also ein Zusammenhang zwischen den Variablen treatment und everlane). Einer Korrelationsmatrix lässt sich ein Maß für die Stärke eines solchen Zusammenhangs entnehmen. Weiterhin lassen sich mithilfe der Korrelationsmatrix weitere Zusammenhänge aufdecken, welche im späteren Verlauf der Analyse auf Kausaliät untersucht werden können. Beispielsweise gibt es einen schwachen positiven Zusammenhang zwischen den Variablen female und everlane. Es kann also die Vermutung aufkommen, dass Frauen Rucksäcke von der Marke Everlane eher bevorzugen. Weiterhin gibt es einen schwachen positiven Zusammenhang zwischen income und everlane. Sind Rucksäcke von Everlane teuerer, weshalb sich diese nur wohlhabendere Personen leisten können? Da auch Bildung einen Einfluss auf das Einkommen hat (wie in Projekt 4 untersucht), kann auch untersucht werden, ob der Bildungsstand indirekt die Entscheidung für den Kauf eines Everlane-Rucksacks beeinflusst.

In Aufgabe 1 und 2 haben Sie gelesen, dass den Teilnehmern ein Angebot gemacht wurde, eine Everlane-Gutscheinkarte anzunehmen. Erzeugen Sie eine geeignete Grafik, die den durchschnittlichen Anteil der angenommenen Angebote (d.h. den Anteil, in dem die Everlane-Karte gewählt wurde) getrennt für die Treatment- und die Kontrollgruppe darstellt. Fügen Sie in der Grafik zusätzlich den Standardfehler der Mittelwerte ein. Führen Sie einen T-Test durch, um zu prüfen, ob der Unterschied im Mittelwert zwischen der Treatment- und Kontrollgruppe statistisch signifikant ist, und geben Sie das Testergebnis (den p-Wert) deutlich sichtbar in der Grafik an. Achten Sie dabei auf eine verständliche Beschriftung Ihrer Grafik sowie auf einen aussagekräftigen Titel.

Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie insbesondere auf folgende Fragen ein:

Welche Aussage lässt sich auf Basis des durchgeführten T-Tests treffen?
Welche der in den vorherigen Aufgaben (vgl. Aufgabe 4 und 5) analysierten Faktoren könnten dazu beigetragen haben, dass ein signifikanter Unterschied im Anteil angenommener Everlane-Angebote zwischen Treatment- und Kontrollgruppe beobachtet wird?

Das Balkendiagramm spiegelt unsere Beobachtungen aus Aufgabe 6 wieder: Personen in der Treatmentgruppe neigen eher dazu sich für den Everlane-Gutschein zu entscheiden. Rund 70% aller Teilnehmenden in der Treatmentgruppe entschieden sich für den Everlane-Gutschein. In der Kontrollgruppe hingegen fällt der Anteil mit etwas mehr als 50% deutlich geringer aus.

Desweiteren liegt ein p-Wert von 0,000166 vor, was bedeutet, dass die Wahrscheinlichkeit, dass der beobachtete Unterschied rein zufällig entstanden ist, weniger als 0,02% beträgt. Der Unterschied der Mittelwerte zwischen den Gruppen ist also statistisch signifikant.

In Aufgabe 5 wurde festgestellt, dass keine systematischen Unterschiede bezüglich Alter, Geschlecht, Einkommen und Bildung zwischen Treatment- und Kontrollgruppe besteht, weshalb der Unterschied in dem Anteil der angenommenen Everlane-Gutscheine nicht auf unterschiedliche Teilnehmermerkmale zurückgeführt werden kann.

In den vorherigen Aufgaben des Projekts haben Sie sich bereits intensiv mit dem Experiment 1 auseinandergesetzt, in dem untersucht wurde, ob und wie die Offenlegung von Produktionskosten - also Kostentransparenz - das Konsumverhalten beeinflusst. Es wurde gezeigt: Wenn Konsument:innen transparent mitgeteilt wird, wie sich die Kosten eines Produkts zusammensetzen, steigt ihre Bereitschaft, bei dem entsprechend transparenten Unternehmen einzukaufen.

Diese Ergebnisse legen nahe, dass die Offenlegung sensibler Unternehmensinformationen (wie Produktionskosten) das Vertrauen der Konsument:innen in das Unternehmen stärkt und sie somit eher zu einem Kauf motiviert.

Doch was genau ist der psychologische Mechanismus hinter dieser Wirkung? Ist es tatsächlich das Vertrauen in das Unternehmen, das durch die Offenlegung sensibler Informationen gestärkt wird - und in der Folge die Kaufbereitschaft erhöht?

Um genau diese Frage zu beantworten, führen die Autoren ein weiteres Experiment durch, das den vermuteten psychologischen Vermittlungsmechanismus des Vertrauens genauer untersucht. Dabei wurde geprüft, ob Vertrauen tatsächlich als Mediator zwischen Kostentransparenz und Kaufinteresse wirkt. Hierzu wurde ein kontrolliertes Online-Experiment mit über 600 Teilnehmer:innen durchgeführt. Die Teilnehmenden wurden zufällig einer von zwei Bedingungen zugewiesen:

In der Kostentransparenz-Gruppe (Treatment) wurde zusätzlich eine detaillierte Aufschlüsselung der Produktionskosten angegeben. Diese beinhaltete die einzelnen Kostenkomponenten (z.B. Kakaobutter, Verpackung, Arbeitskosten) sowie die Gesamtkosten der Schokoladentafel (vgl. Abbildung 2 im Anhang).
In der Kontrollgruppe sahen die Teilnehmer die Verpackung einer fiktiven Schokoladenmarke namens „Cocoa Passion“. Diese enthielt nur die üblichen Informationen wie Zutaten, Nährwerte und eine Produktbeschreibung.

Ziel war es, zu untersuchen, ob die Offenlegung dieser sensiblen Informationen das Vertrauen der Konsument:innen in die Marke stärkt - und ob dieses Vertrauen wiederum die Kaufbereitschaft beeinflusst. In den nächsten Aufgaben werden Sie diese Studie genauer beleuchten, analysieren und evaluieren, ob sich die Hypothese empirisch bestätigen lässt.

Lesen Sie die Daten des zweiten Experiments (Experiment2.csv) in R ein. Nennen Sie den Datensatz daten_exp2. Benennen Sie die Variable cost in treatment um.

Untersuchen Sie, ob sich die Teilnehmer, die die Verpackung mit transparenter Kosteninformation gesehen haben, systematisch von jenen unterscheiden, die nur die Kontrollversion gesehen haben.

Erstellen Sie hierfür eine Balancing-Tabelle, in der Sie die Mittelwerte von Alter (age), Geschlecht (female), Einkommensstufe (income), Bildungsniveau (educ), Vertrauen (trust) und Kaufbereitschaft (wtb) zwischen den beiden Gruppen vergleichen, die Differenzen berechnen und mithilfe von T-Tests prüfen, ob diese Unterschiede statistisch signifikant sind. Nehmen Sie weiterhin die Anzahl an Beobachtungen in der Treatment- und in der Kontrollgruppe in ihre Tabelle mit auf.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei insbesondere auf folgende Fragen ein:

Was versteht man unter der Variable wtb?
Was lässt sich aus der Größen der Stichprobe ableiten?
Wo könnte es bei einer Regression (oder einem sonstigen Vergleich der Gruppen) zu Problemen kommen und was wären mögliche Auswirkungen?

Hinweis: Für die Beschreibung der wtb können Sie das bereitgestellte Readme nutzen.

Balancing-Tabelle: Vergleich der Mittelwerte zwischen Treatment- und Kontrollgruppe
	# Treatment = 306		# Kontrolle = 308
Variable	Treatment	Kontrolle	Differenz	p-Wert
age	34.06	36.27	-2.21	0.02
educ	3.57	3.51	0.05	0.44
female	0.48	0.42	0.05	0.21
income	6.79	6.96	-0.17	0.37
trust	5.27	4.82	0.45	0.00
wtb	4.27	3.74	0.53	0.00

Die Variable wtb steht für “Willingsness to buy”, also die Kaufbereitschaft. Die Teilnehmenden mussten auf einer Skala von 1 bis 7 angeben, wie wahrscheinlich es ist, dass sie das gezeigte Produkt kaufen ( 1 = Überhaupt nicht wahrscheinlich bis 7 = Sehr wahrscheinlich). Die Variable trust gibt auf einer Skala von 1 bis 7 die Vertrauenswürdigkeit gegenüber dem Unternehmen an (1 = Überhaupt nicht vertrauenswürdig, 7 = Sehr vertrauenswürdig). Desweiteren finden wir auch hier wieder die Variablen age, educ, female und income vor, wie auch im Datensatz daten_exp1.

Der Datensatz enthält 639 Beobachtungen, von denen 25 weder der Treatment, noch der Kontrollgruppe angehören. Die übrigen 614 Personen sind eingeteilt in 306 Treatment- und 308 Kontrollpersonen.

Die Unterschiede im Mittelwert der Variablen educ, female, income sind laut dem p-Wert statistisch nicht signifikant. Hinsichtlich dieser Charakteristika ist die randomisierte Unterteilung in Treatment- und Kontrollgruppe gelungen. Allerdings sind die p-Werte für die Variablen age, trust und wtb sind sehr klein (unter 0,05). Es besteht also ein statistisch signifikanter Unterschied hinsichtlich dieser Variablen zwischen den Gruppen.

Dies kann bei weiterführenden Analysen zu Problemen führen, da es sein kann, dass beispielsweise das Vertrauen oder die Kaufbereitschaft in der Treatmentgruppe (aufgrund misslungener Randomisierung) signifikant höher ist als in der Kontrollgruppe und somit ein potenziell größerer Anteil an Entscheidungen für das Produkt mit offengelegten Preisen nicht nur darauf zurückzuführen ist, dass die Person in der Treatmentgruppe war.

In ihrem Datensatz gibt es einige Beobachtungen ohne vorhandene Werte. Behalten Sie nur die Beobachtungen bei denen vollständige Werte vorliegen. Erzeugen Sie eine geeignete Grafik, welche den durchschnittlichen Anteil der ‘Kaufbereitschaft’ im zweiten Experiment für die Treatment- und Kontrollgruppe darstellt.

Die Grafik soll:

die Mittelwerte der Kaufbereitschaft für beide Gruppen zeigen,
die zugehörigen Standardfehler als Fehlerbalken visualisieren und
das Ergebnis des T-Tests, der die Mittelwertdifferenz prüft, direkt in die Grafik integrieren.

Beschreiben und interpretieren Sie ihre Grafik.

Das vorliegende Diagramm visualisiert jeweils die durchschnittliche Kaufbereitschaft in Treatment- und Kontrollgruppe im zweiten Experiment. Der Grafik lässt sich entnehmen, dass eine deutliche Diskrepanz zwischen beiden Gruppen besteht. In der Treatmentgruppe ist die Kaufbereitschaft deutlich ausgeprägter als in der Kontrollgruppe.

Der t-Test ergab einen p-Wert i.H.v. 0,00116. Da dies unter 0,05 liegt, können wir ein Zufallsergebnis weitestgehend ausschließen. Es liegt ein signifikanter Unterschied in der Kaufbereitschaft zwischen Treatment- und Kontrollgruppe vor.

Nachdem Sie nun die Differenzen in der Kaufabsicht zwischen der Treatment- und der Kontrollgruppe im zweiten Experiment überprüft und getestet haben, geht es im nächsten Schritt darum, den möglichen Mediator Vertrauen genauer zu untersuchen. Hierfür sollen Sie sich in einem ersten Schritt das Vertrauen der Personen allgemein anschauen, um einen Eindruck zu dieser wichtigen Variable zu bekommen. Dafür werden Personen anhand hohem und niedrigem Vertrauen und deren Kaufbereitschaft für das Produkt unterteilt.

Erstellen Sie eine oder mehrere geeignete Grafik(en), die den Zusammenhang zwischen Vertrauen (Trust) und der Kaufabsicht (WTB) unabhängig der beiden Treatment- und Kontrollgruppen darstellen. Achten Sie auf eine passende Darstellung der Informationen.

Die Grafik(en) sollen folgende Informationen enthalten:

Unterteilen Sie ihre Daten in Personen mit hohem und niedrigem Vertrauen. Nutzen Sie für die Unterteilung den Median des Vertrauens in ihren Daten als Schwellenwert.
Abhängig der Einstufungen in hohes und niedriges Vertrauen soll nun die durchschnittliche Kaufbereitschaft dargestellt werden. Hier soll die Grafik so dargestellt werden, dass auf der x-Achse das Vertrauensniveau (“hoch” und “niedrig”) und auf der y-Achse die entsprechende Kaufbereitschaft abgebildet wird.
Berechnen Sie weiterhin die Mittelwerte der beiden Vertrauensgruppen und visualisieren diese in geeigneter Art und Weise in ihren Grafik(en).
Führen Sie einen t-Test durch, um zu prüfen, ob die Mittelwertsunterschiede zwischen den beiden Vertrauensgruppen statistisch signifikant sind. Geben Sie den p-Wert in der Grafik an.

Beschreiben und interpretieren Sie ihre Grafik(en). Beantworten Sie insbesondere folgende Fragen:

Welche Implikationen hat ein signifikanter Unterschied für die Rolle von Vertrauen auf Kaufentscheidungen?
Wie stark unterscheidet sich die Kaufbereitschaft zwischen Personen mit hohem und niedrigem Vertrauen?
Könnte auf Basis ihrer Darstellung Vertrauen als Mediator zwischen dem Treatment und der Kaufbereitschaft fungieren?

Der Median für das Vertrauen beträgt 5. Person mit einem Vertrauensniveau unter 5 werden in der obigen Grafik der Gruppe mit niedrigem Vertrauen und Personen mit Vertrauensniveau von mindestens 5 werden der Gruppe mit hohem Vertrauen zugeordnet. Der durchschnittliche Wert für die Kaufbereitschaft beträgt für die Personen mit niedrigem Vertrauen 3.21, was deutlich unter dem durchschnittlichen Wert für die Personen mit hohem Vertrauen (5.06) liegt. Laut dem sehr kleinen p-Wert unterscheiden sich diese beiden Mittelwerte statistisch stark signifikant. Dies impliziert, dass die unterschiedliche Kaufbereitschaft zwischen Personen mit niedrigem und hohem Vertrauen nicht zufällig ist und das Vertrauen ein möglicher Einflussfaktor auf die Kaufbereitschaft sein kann. Die Variable trust kann somit durchaus als Mediator zwischen treatment und wtb fungieren.

Regressionsanalyse

Sie haben nun ihren Datensatz kennengelernt und es scheint so, als ob insbesondere Personen, welche transparente Kosten sehen, dazu neigen, das Produkt zu kaufen. Doch um ihre deskriptiven Analysen zu erhärten, wollen Sie im folgenden eine Analyse mittels Regressionen durchführen.

Betrachten Sie hier noch einmal das erste Experiment (daten_exp1). Führen Sie eine Regression durch, bei der Ihnen everlane als abhängige Variable dient. Als erklärende Variable nutzen Sie das treatment. Erstellen sie eine weitere Regression, die zusätzlich noch für die folgenden Variablen kontrolliert:

Alter
Bildungsstufe
Einkommen
Geschlecht

Stellen Sie die Regressionsergebnisse in einer Tabelle mit stargazer oder modelsummary dar!

Beschreiben und interpretieren Sie ihre Ergebnisse. Gehen Sie insbesondere auf folgende Fragen ein:

Lässt sich der Effekt des Treatments auf die Entscheidung der Kunden kausal interpretieren?
Ist es wichtig auf weitere Faktoren zu kontrollieren?
Beziehen Sie sich hier auch auf die Ergebnisse aus Aufgabe 5.

Regressionsergebnisse
	Ohne Kontrolle	Mit Kontrolle
Konstante	0.55	0.69
	(<0.01)	(<0.01)
Treatment	0.16	0.15
	(<0.01)	(<0.01)
Alter		-0.00
		(0.21)
Bildungsstufe		-0.00
		(0.98)
Einkommen		-0.01
		(0.19)
Weiblich		0.09
		(0.03)
Num.Obs.	509	505

Die Ergebnisse der Regressionsanalyse zeigen einen stabilen, signifikanten und positiven Effekt des Treatments auf die Entscheidung, Everlane zu wählen. In beiden Modellen – sowohl ohne als auch mit Kontrolle weiterer Variablen – bleibt der Effekt des Treatments nahezu unverändert und statistisch hoch signifikant. Diese Robustheit deutet bereits auf einen verlässlichen Zusammenhang hin.

Entscheidend für die kausale Interpretation dieses Zusammenhangs sind jedoch die Erkenntnisse aus Aufgabe 5. Die dort durchgeführte Balancing-Analyse zeigt, dass es keine signifikanten Unterschiede zwischen Treatment- und Kontrollgruppe in Bezug auf zentrale soziodemografische Variablen wie Geschlecht, Alter, Bildung und Einkommen gibt. Die beobachteten Mittelwertunterschiede sind statistisch nicht signifikant (alle p-Werte > 0.05), was darauf hindeutet, dass die Randomisierung erfolgreich war. Die Gruppen sind also vergleichbar, und es gibt keine Hinweise auf unbeabsichtigte Verzerrungen in der Gruppenzuteilung.

In Kombination mit der experimentellen Anlage des Studiendesigns kann der Effekt des Treatments somit kausal interpretiert werden. Das Treatment hat also ursächlich dazu geführt, dass sich die Wahrscheinlichkeit, Everlane zu wählen, signifikant erhöht hat.

Auch wenn aufgrund der gelungenen Randomisierung theoretisch keine Kontrolle weiterer Variablen notwendig wäre, ist deren Einbezug in einem erweiterten Regressionsmodell dennoch nützlich. Erstens zeigt das Modell mit Kontrollvariablen, dass der Treatment-Effekt auch unter Kontrolle potenzieller Einflussfaktoren stabil bleibt, was die interne Validität zusätzlich stärkt. Zweitens liefert das Modell zusätzliche Einsichten, etwa den Befund, dass das Geschlecht einen signifikanten Einfluss auf die Everlane-Wahl hat – Frauen wählen die Marke mit höherer Wahrscheinlichkeit (wie in Aufgabe 6 mithilfe der Korrelationsmatrix bereits vermutet).

Insgesamt zeigen die Ergebnisse aus Aufgabe 5 und der Regressionsanalyse in konsistenter Weise, dass der beobachtete Effekt nicht durch verzerrende Störfaktoren erklärt werden kann und kausal interpretiert werden darf. Die Berücksichtigung weiterer Variablen stärkt die Analyse zusätzlich, ist aber keine notwendige Bedingung für die Kausalität in einem gut randomisierten Experiment.

Während die bisherigen Analysen zeigen, dass das Treatment einen Effekt hat, stellt sich nun die Frage, warum das so ist. Nun sollten Sie im weiteren Verlauf durch vertiefende Regressionsanalysen prüfen, ob dies auf das Vertrauen der Kunden zurückzuführen ist. Dazu betrachten Sie noch einmal den Datensatz zu Experiment 2 (daten_exp2) und untersuchen, ob das Treatment (Kunden sehen transparente Kostenstruktur) zu einer höheren Kaufabsicht führt, weil sie das Vertrauen der Konsumenten in das Unternehmen stärkt.

Schauen Sie sich den Einfluss der Kostentransparenz auf die Kaufabsicht in den folgenden zwei Regressionen genauer an und zeigen Sie ihre Ergebnisse nebeneinander:

1. Regression: Abhängige Variable ist die Kaufabsicht; die erklärende Variable ist das Treatment.

2. Regression: Wie in der 1. Regression, doch kontrollieren Sie hier zusätzlich auf die Variablen Alter, Einkommensniveau, Bildungsstufe und Geschlecht.

Stellen Sie die Regressionsergebnisse in einer Tabelle mit stargazer oder modelsummary dar!

Beschreiben und interpretieren Sie ihre Ergebnisse allgemein. Gehen Sie weiterhin auch speziell auf folgende Fragen ein:

Sollten die Kontrollvariablen in ihrer zweiten Regression den Koeffizienten des Treatments ändern? Was würden Sie erwarten und warum? Nutzen Sie hierzu die Ergebnisse aus Aufgabe 8.
- Vergleichen Sie die Regressionskoeffizienten der Treatment-Variable in der ersten und zweiten Regression. Gibt es hier einen signifikanten Unterschied in der Größe des Effekts?
Bringt ihnen die Regression Vorteile gegenüber einer reinen Darstellung der Mittelwerte wie in Aufgabe 9?
Ist der Effekt des Treatments auf die Kaufabsicht ihrer Ansicht nach kausal interpretierbar?
- Welche Voraussetzungen müssen erfüllt sein, damit man diesen Regressionskoeffizienten als kausalen Effekt interpretieren kann?
- Überlegen Sie sich, wie sich das Ergebnis verändern würde, wenn zusätzlich Vertrauen (trust) in das Modell aufgenommen wird. Würde sich der Effekt von treatment verändern? Warum oder warum nicht?

Regressionsergebnisse
	Ohne Kontrolle	Mit Kontrolle
Konstante	3.74	3.70
	(<0.01)	(<0.01)
Treatment	0.53	0.50
	(<0.01)	(<0.01)
Alter		-0.01
		(0.08)
Einkommen		0.02
		(0.52)
Bildungsstufe		0.10
		(0.30)
Weiblich		-0.00
		(0.99)
Num.Obs.	612	601

Beide Regressionsmodelle untersuchen den Einfluss des Treatments auf die Kaufbereitschaft der Teilnehmer:innen der Studie. Im zweiten Regressionsmodell wird zusätzlich auf Alter, Bildungsniveau, Einkommen und Geschlecht kontrolliert.

Beide Modelle zeigen einen signifikanten positiven Effekt des Treatments auf die Kaufbereitschaft. Im ersten Regressionsmodell hängt der Erhalt des Treatments (der Person wurde die Kostenzusammensetzung des Produkts gezeigt) mit einem Anstieg der Kaufbereitschaft um 0.53 Punkte zusammen, während im zweiten Modell der Anstieg 0.5 Punkte beträgt. Die Kontrollvariablen im zweiten Regressionsmodell sind den p-Werten nach zu urteilen nicht signifikant, was darauf hindeutet, dass ihr Einfluss auf die Kaufbereitschaft keine Rolle spielt. Dies spiegelt sich auch in der geringen Veränderung des Koeffizienten der Variable wtb (Kaufbereitschaft) wider. Der Effekt des Treatments auf die Kaufbereitschaft ist also robust, wodurch sich durchaus darauf schließen lässt, dass die erhöhte Kaufbereitschaft auf das Treatment zurückzuführen ist.

In Aufgabe 8 wurde bereits festgestellt, dass es mit Außnahme der Variable age keine signifikanten Unterschiede zwischen Treatment- und Kontrollgruppe bezüglich der Mittelwerte der Kontrollvariablen gibt, weshalb mit der Robustheit des Regressionskoeffizienten der Treatment-Variable zu rechnen war.

Eine Regression hat gegenüber der Mittelwertdarstellung aus Aufgabe 9 den Vorteil, dass der Effekt des Treatments auf die Kaufbereitschaft quantifiziert werden kann und zusätzlich auf potenzielle Störfaktoren kontrolliert werden kann. Weiterhin kann durch Angabe von p-Werten die Signifikanz dieser Regressionskoeffizienten bewertet werden.

Um den Regressionskoeffizienten als kausalen Effekt interpretieren zu können, muss eine gelungene Randomisierung stattgefunden haben und es dürfen keine unbeobachteten Confounder vorliegen (Variablen, die ebenfalls die Kaufbereitschaft beeinflussen, aber auf die nicht kontrolliert wurde). In diesem Experiment lässt sich der Regressionskoeffizient der Treatment-Variable daher durchaus kausal interpretieren, da die oben genannten Bedingungen erfüllt sind.

Da die Variable trust (Vertrauen) als Mediator zwischen Treatment und Kaufbereitschaft fungiert (Treatment führt zu höherem Vertrauen und höheres Vertrauen führt zu höherer Kaufbereitschaft), würde sich der Effekt des Treatments auf die Kaufbereitschaft bei Hinzunahme der Variable trust verringern. Dies ist der Fall, da nun ein Teil des positiven Effekts über die Variable trust erklärt wird und der reine Effekt des Treatments auf die Kaufbereitschaft (ohne den Umweg über das Vertrauen) geringer ist.

Sie haben nun gesehen, dass es auch hier einen direkten Effekt des Treatments (transparente Kostenstrukur) auf die Kaufabsicht gibt. Doch um die dahinter liegenden Mechanismen zu verstehen, müssen Sie tiefer in psychologische Prozesse eintauchen. Experiment 2 zeigt dafür ein entsprechendes Design, um zu testen, ob Vertrauen als vermittelnder Mechanismus eine Rolle spielt. Im nächsten Schritt analysieren Sie nun selbst diese Beziehung mit theoretischen Modellen und Regressionsmethoden, um ein Gefühl dafür zu bekommen, wie sich direkte und indirekte Effekte voneinander unterscheiden.

Bevor Sie im nächsten Schritt ein konkretes DAG zu einem psychologischen Mediationsmechanismus erstellen, machen Sie sich zunächst mit den theoretischen Grundlagen von Directed Acyclic Graphs (DAGs) vertraut. DAGs (gerichtete azyklische Graphen) sind ein nützliches Werkzeug in der Kausalanalyse.

Beantworten Sie folgende theoretische Fragen zu DAGs:

Wofür werden DAGs in der empirischen Forschung verwendet?
Nennen und beschreiben Sie zwei zentrale Knotentypen in einem DAG: Confounder und Mediator.
Worin besteht der zentrale Unterschied, ob Vertrauen als Kontrollvariable (Confounder) oder als Mediator behandelt wird - und warum ist Letzteres entscheidend für das Verständnis psychologischer Prozesse im vorliegenden Experiment?

Directed Acyclic Graphs (DAGs) werden in der empirischen Forschung als grafisches Werkzeug genutzt, um kausale Zusammenhänge zwischen Variablen klar und anschaulich darzustellen. Sie helfen dabei, Annahmen über Kausalität explizit zu machen und ermöglichen es, wichtige Variablenarten wie Störfaktoren (Confounder) und Vermittlungsvariablen (Mediatoren) zu identifizieren. So können Forscherinnen und Forscher besser entscheiden, welche Variablen kontrolliert werden müssen, um unverzerrte kausale Effekte zu schätzen und um etwaige Verzerrungen durch sogenannte Backdoor-Pfade zu vermeiden.

Zwei zentrale Knotentypen in einem DAG sind der Confounder und der Mediator. Ein Confounder ist eine Variable, die sowohl das Treatment als auch das Outcome beeinflusst. Wird ein Confounder nicht kontrolliert, kann er eine Scheinkorrelation zwischen Treatment und Outcome erzeugen, die den wahren kausalen Zusammenhang verzerrt. Ein Mediator hingegen ist eine Variable, die kausal zwischen Treatment und Outcome liegt und über die das Treatment indirekt wirkt. Das bedeutet, der Treatment-Effekt wird zum Teil durch den Mediator vermittelt.

Der zentrale Unterschied, ob Vertrauen als Kontrollvariable (Confounder) oder als Mediator behandelt wird, ist für das Verständnis psychologischer Prozesse im vorliegenden Experiment entscheidend. Wird Vertrauen als Confounder betrachtet, so müsste es bereits vor dem Treatment existieren und sowohl die Zuteilung zum Treatment als auch die Kaufabsicht beeinflussen. In diesem Fall müsste Vertrauen kontrolliert werden, um einen verzerrungsfreien Treatment-Effekt zu erhalten. In einem randomisierten Experiment ist dies jedoch unwahrscheinlich, da das Treatment zufällig zugewiesen wird und Vertrauen daher normalerweise nicht vor dem Treatment variiert. Wird Vertrauen dagegen als Mediator angesehen, dann ist es eine Variable, die durch das Treatment beeinflusst wird und anschließend die Kaufabsicht beeinflusst. In diesem Fall stellt Vertrauen den psychologischen Mechanismus dar, über den das Treatment wirkt. Es wäre falsch, Vertrauen einfach herauszurechnen, da damit der indirekte Effekt des Treatments verloren gehen würde.

Zusammenfassend lässt sich sagen, dass DAGs ein wichtiges Hilfsmittel sind, um die kausale Struktur von Daten zu verstehen und methodisch fundiert zwischen Confoundern und Mediatoren zu unterscheiden. Im vorliegenden Experiment sollte Vertrauen als Mediator behandelt werden, um den zugrundeliegenden psychologischen Prozess richtig zu erfassen und die Wirkung des Treatments vollständig zu verstehen.

Nutzen Sie nun das Directed Acyclic Graph (DAG), um die Beziehungen zwischen den Variablen Treatment (T), Vertrauen (V) und Kaufbereitschaft (K) zu analysieren und den vermuteten Mediationsmechanismus zu untersuchen.

Beschreiben und interpretieren Sie ihr DAG und die Beziehungen zwischen den Variablen. Gehen Sie insbesondere auf folgende Fragen und Aspekte ein:

Begründen und erklären Sie die Struktur und den Aufbau ihres DAGs.
Welche Annahmen müssen getroffen werden, damit Vertrauen tatsächlich als Mediator interpretiert werden kann?
Welche Verzerrungen oder Störfaktoren könnten den Mediator-Effekt von Vertrauen beeinflussen? Wie könnte dies die Ergebnisse verzerren?

Hinweis 1: Für die Erstellung des DAGs können Sie das Paket dagify verwenden. Als Grundlage und Hilfsmittel können Sie die Vorlesungsfolien nutzen.

Hinweis 2: Eine direkte Visualisierung des DAGs in R ist schön, aber keine Pflicht. Sie können das DAG auch in Word/PowerPoint zeichnen und ihre Grafik mittels include_graphics() einfügen.

Der obige Directed Acyclic Graph stellt den Zusammenhang zwischen den Variablen Treatment (T), Vertrauen (V) und Kaufbereitschaft (K) dar. Das Treatment beeinflusst einerseits die Kaufbereitschaft direkt, andererseits aber auch indirekt über das Vertrauen. Alle Effekte sind positiv. Treatment führt (direkt) zu höherer Kaufbereitschaft, sowie auch zu höherem Vertrauen, was wiederum zu höherer Kaufbereitschaft führt. Die Variable Vertrauen übernimmt also die Rolle eines Mediators, sofern gewisse Annahmen erfüllt sind: es müssen tatsächlich kausale Zusammenhänge von Treatment auf Vertrauen und von Vertrauen auf Kaufbereitschaft gegeben sein. Zudem muss eine zeitliche Reihenfolge gewährleistet sein. Zuerst muss das Treatment stattgefunden haben, danach die Vertrauensbildung und anschließend die erhöhte Kaufbereitschaft. Ebenso darf es keine unbeobachteten Störgrößen (Confounder) geben, die gleichzeitig Vertrauen und Kaufbereitschaft beeinflussen.

Solche unbeobachteten Confounder, wie zum Beispiel die persönliche Einstellung der Person oder auch frühere Erfahrung mit dem Unternehmen, beeinflussen sowohl das Vertrauen und die Kaufbereitschaft der Person, wodurch sich mögliche Verzerrungen ergeben können. Beispielsweise können frühere negative Erfahrungen mit dem Unternehmen das Vertrauen und die Kaufbereitschaft der Person senken, woran selbst ein Treatment (Offenlegung der Preise) potenziell nichts ändern kann. Es könnte also eine schlaue Idee sein, eine weitere Variable einzuführen, die angibt, ob die Versuchsperson das Unternehmen bereits gekannt hat, um dann auf diese Variable zu kontrollieren.

Führen Sie nun eine Regression durch, bei der Ihnen trust (Vertrauen) als abhängige Variable dient. Weiterhin soll ihnen treatment als erklärende Variable dienen. Erstellen sie eine weitere Regression, die zusätzlich noch für die folgenden Variablen kontrolliert: Alter, Einkommensniveau, Bildungsstufe und ob die Personen weiblich sind.

Stellen Sie die Regressionsergebnisse in einer Tabelle mit stargazer oder modelsummary dar!

Beschreiben und interpretieren Sie ihre Ergebnisse. Gehen Sie bei der Interpretation der Ergebnisse insbesondere auf folgende Fragen ein:

Macht es ihrer Ansicht nach Sinn auf die zusätzlichen Variablen in Regression 2 zu kontrollieren? Worauf müssen Sie besonders achten?
Was bedeutet ein signifikanter positiver Koeffizient für treatment in Bezug auf Vertrauen?
Warum ist dieser Pfad (Treatment ➝ Trust) notwendig, damit eine Mediation überhaupt möglich ist?
Überlegen Sie, ob andere Faktoren, die Sie möglicherweise nicht berücksichtigt haben, diesen Zusammenhang ebenfalls erklären könnten.

Ergebnisse der Regression: Vertrauen als abhängige Variable
	Ohne Kontrolle	Mit Kontrolle
Konstante	4.825	4.716
	(<0.001)	(<0.001)
Treatment	0.448	0.454
	(<0.001)	(<0.001)
Alter		-0.001
		(0.872)
Einkommen		-0.021
		(0.391)
Bildung		0.058
		(0.388)
Weiblich		0.179
		(0.118)
Num.Obs.	612	601

In Modell 1 wird trust ausschließlich auf die Variable treatment regressiert. Das Ergebnis zeigt, dass das Treatment mit einer durchschnittlichen Zunahme des Vertrauens um 0,448 Einheiten assoziiert ist. Der geschätzte Koeffizient ist auf dem 1%-Niveau hoch signifikant (p < 0.01), was auf einen statistisch belastbaren Zusammenhang hinweist. Das Treatment scheint einen signifikanten Einfluss auf das Vertrauen der Probanden in das Produkt zu haben.

In Modell 2 werden neben treatment auch Alter, Einkommen, Bildung und Geschlecht als erklärende Variablen berücksichtigt. Der Effekt des Treatments bleibt mit 0,454 nahezu unverändert und ist ebenfalls auf dem 1%-Niveau signifikant. Dies deutet darauf hin, dass der Zusammenhang zwischen treatment und Vertrauen robust gegenüber der Kontrolle dieser soziodemografischen Merkmale ist. Die zusätzlichen Prädiktoren sind jedoch nicht signifikant, was sich auch in den großen p-Werten der Koeffizienten in der Tabelle widerspiegelt.

Es kann im vorliegenden Fall durchaus Sinn machen auf zusätzliche Variablen zu kontrollieren um feststellen zu können ob auch andere Variablen einen Einfluss auf die erklärte Variable haben, selbst wenn diese statistisch garnicht oder nur schwach signifikant sind. Die Validität des Modells lässt sich so absichern, da man auf potentielle Störfaktoren kontrolliert. Zudem können wir feststellen, dass andere Variablen nur bedingt Einfluss auf die Kaufbereitschaft haben und dass das der Einfluss des Treatments robust und signifikant bleibt. Das Treatment ist also der zentrale Einflussfaktor.

Nachdem Sie nun den Effekt des Treatments auf das Vertrauen geschätzt und ausgewertet haben, sollen Sie nun testen, ob das Vertrauen als Mediator zwischen Treatment und Kaufabsicht wirkt.

Führen Sie eine Regression durch, bei der Ihnen die Kaufbereitschaft als abhängige Variable dient. Weiterhin sollen die erklärende Variablen nun treatment, sowie das Vertrauen (trust) umfassen. Erstellen sie eine weitere Regression, die zusätzlich noch auf Alter, Einkommensniveau, Bildungsstufe und ob die Personen weiblich sind, kontrolliert.

Stellen Sie die Regressionsergebnisse passend in einer Tabelle dar!

Beschreiben und interpretieren Sie ihre Ergebnisse. Gehen Sie bei der Interpretation der Ergebnisse insbesondere auf folgende Fragen ein:

Was könnten Ihrer Ansicht nach Gründe sein, dass treatment jetzt nicht mehr signifkant ist? Woran könnt das im Detail liegen?
Warum ist es wichtig, trust und treatment gemeinsam in einem Modell zu betrachten?
Warum könnte trust eine “notwendige Bedingung” sein, damit Transparenz der Kostenstruktur zu höherer Kaufbereitschaft führt?

Ergebnisse der Regression: Kaufbereitschaft in Abhängigkeit von Treatment und Vertrauen
	Ohne Kontrolle	Mit Kontrolle
Konstante	-0.120	-0.155
	(0.642)	(0.735)
Treatment	0.174	0.129
	(0.210)	(0.356)
Vertrauen	0.800	0.818
	(<0.001)	(<0.001)
Alter		-0.013
		(0.043)
Einkommen		0.041
		(0.176)
Bildung		0.055
		(0.507)
Weiblich		-0.148
		(0.292)
Num.Obs.	612	601
R2	0.310	0.327

Die vorliegende Regressionsanalyse untersucht den Einfluss einer Treatment-Bedingung sowie des Vertrauens (trust) auf die Kaufbereitschaft. Es wurden zwei Modelle geschätzt: Modell (1) enthält nur treatment und trust als Prädiktoren, während Modell (2) zusätzlich Kontrollvariablen wie Alter, Einkommen, Bildung und Geschlecht berücksichtigt.

In Modell (1) zeigt sich, dass treatment mit einem Koeffizienten von 0.174 einen leichten positiven Einfluss auf die Kaufbereitschaft hat, dieser Effekt ist jedoch nicht signifikant. Dagegen hat trust mit einem Koeffizienten von 0.800 einen starken und hochsignifikanten positiven Effekt (p < 0.001). Das Bestimmtheitsmaß (R²) beträgt 0.310, was bedeutet, dass etwa 31.0% der Varianz in der Kaufbereitschaft durch die beiden Prädiktoren erklärt werden können.

In Modell (2) wird das Regressionsmodell um soziodemografische Kontrollvariablen erweitert. Der Effekt von treatment sinkt leicht auf 0.129 und bleibt weiterhin nicht signifikant. Der Effekt von trust bleibt stabil bei 0.818 und ist nach wie vor hochsignifikant. Von den Kontrollvariablen ist lediglich Alter mit einem negativen Koeffizienten (-0.013) signifikant: Mit zunehmendem Alter nimmt die Kaufbereitschaft leicht ab. Die übrigen Kontrollvariablen (Einkommen, Bildung, Geschlecht) zeigen keine signifikanten Effekte. Das R² verbessert sich leicht auf 0.327, was auf einen moderaten Zuwachs an erklärter Varianz hinweist.

Ein möglicher Grund, warum der Effekt von treatment nicht signifikant ist, könnte also in einem indirekten Zusammenhang liegen: Die Maßnahme wirkt vermutlich nicht direkt auf die Kaufentscheidung, sondern über das Vertrauen als vermittelnde Variable (Mediator). Sobald trust im Modell kontrolliert wird, wird der Einfluss von treatment statistisch „aufgefangen“, sodass dieser nicht mehr signifikant erscheint. Außerdem ist denkbar, dass treatment und trust positiv miteinander korreliert sind – also dass Personen in der Treatment-Gruppe tendenziell mehr Vertrauen in das Unternehmen entwickeln. Diese gemeinsame Varianz kann dazu führen, dass der „reine“ Effekt des Treatments nicht mehr eindeutig identifiziert werden kann.

Nur durch die gleichzeitige Betrachtung von treatment und trust lässt sich erkennen, ob treatment einen direkten Effekt auf die Kaufbereitschaft hat oder ob der Effekt indirekt über das Vertrauen vermittelt wird. Ohne die Einbeziehung von trust wäre man möglicherweise zu dem (falschen) Schluss gekommen, dass treatment keinen Einfluss hat – obwohl ein indirekter Effekt besteht.

Kostentransparenz allein scheint also nicht unmittelbar die Kaufbereitschaft zu steigern. Vielmehr führt sie zu einer Stärkung des Vertrauens, das wiederum als zentrale Voraussetzung für eine erhöhte Kaufabsicht wirkt. In diesem Sinne fungiert trust als notwendige Bedingung, damit Transparenz wirksam wird.

In den vorangegangenen Modellen wurde untersucht, ob das Treatment (Kostentransparenz) das Vertrauen in das Unternehmen beeinflusst und ob Vertrauen wiederum mit der Kaufabsicht zusammenhängt.

Bewerten Sie das experimentelle Design der Studie 2. Gehen Sie dabei auch darauf ein, inwiefern Ihre Ergebnisse aus Aufgabe 13 bis 16 das theoretische Verständnis von Vertrauensbildung in der Konsumentenpsychologie bestätigt oder infrage stellt. Welche Stärken und Schwächen sehen Sie bezüglich der internen Validität und der Kausalitätsaussagen? Diskutieren Sie zudem kurz, inwiefern die Ergebnisse auf andere Bevölkerungsgruppen oder kulturelle Kontexte übertragbar sind.

Hinweis: Informationen zum Verständnis der Vertrauensbildung in der Konsumentenpsychologie können Sie in dem folgenden Artikel auf Seite 2 bis 5 nachlesen.

Um das experimentelle Design der zweiten Studie angemessen zu bewerten, müssen verschiedene Faktoren berücksichtigt werden – insbesondere die Randomisierung, die Gruppenunterschiede sowie Aspekte der internen und externen Validität.

Die Unterschiede zwischen Treatment- und Kontrollgruppe fallen – wie bereits in Aufgabe 8 gezeigt – relativ gering aus, was auf eine erfolgreiche Randomisierung hindeutet. Diese ist eine zentrale Voraussetzung für kausale Aussagen, da sie systematische Verzerrungen reduziert.

Die Studie verfügt mit einer Stichprobengröße von 612 Personen über eine solide statistische Power, was essenziell für belastbare Regressions- und Mediationsanalysen ist.

Die interne Validität ist als hoch einzuschätzen: Die klare Trennung zwischen Treatment- und Kontrollgruppe sowie die direkte Messung der abhängigen Variablen nach dem Treatment ermöglichen eine saubere kausale Interpretation.

Die externe Validität hingegen ist etwas eingeschränkt, da es sich um ein fiktives Produkt handelt und die erhobene Kaufabsicht hypothetisch ist. Dennoch ist das Szenario alltagsnah gestaltet, sodass eine gewisse Übertragbarkeit auf reale Konsumentscheidungen gegeben ist.

Die Ergebnisse aus Aufgabe 13 bis 16 korrespondieren weitestgehend mit dem theoretischen Verständnis von Vertrauensbildung in der Konsumentenpsychologie. Kostentransparenz scheint einen positiven Effekt auf das Vertrauen von Kunden gegenüber der Marke bzw. dem Produkt eines Unternehmens zu haben, was wiederum zum Kauf animiert. Gerade im Online-Handel stellt vertrauen eine wichtige Komponente dar.

Zusatzaufgabe

Zu Beginn des Projektes hatten wir erwähnt, dass die Experimente, welche im Projekt durchgeführt wurden, auf Grund eines Missgeschicks in der Online-Darstellung von unterschiedlichen Produkten zustande kam. Hier wurden von einem privat geführten Online-Händler Geldbörsen in fünf Farbvarianten angeboten, wobei beabsichtigt war, allen Farben eine einheitliche Kostentransparenz-Infografik zuzuordnen. Aufgrund eines Versehens wurde die Infografik jedoch nur bei drei Farben implementiert. Dieses zufällige Ereignis führte zu einer klaren Trennung zwischen den Produkten mit dieser und ohne diese Infografik. Das dadurch entstandene natürliche Experiment sollen Sie sich in der Zusatzaufgabe näher anschauen.

Lesen Sie sich den nachfolgenden Text zum Aufbau des natürlichen Experiments innerhalb dieses Papers durch und beantworten anschließend nachfolgende Fragen:

On December 2, 2013, a privately held online retailer launched a holiday gift shop with a single email to its mailing list, promoting a leather wallet offered in five colors (burgundy, black, grey, bone, and tan) and priced at $115.00. Later, at the end of January, to boost post-holiday sales, the retailer decided to add a cost transparency infographic to the online product detail pages for each of the wallet’s five color combinations. The retailer’s intention was to use the same infographic for all wallets since they differed only in color.

However, due to an inadvertent mistake, the infographic was not introduced for two of the wallet colors (bone and tan). Consequently, the cost transparency information was implemented for only three of the five wallet colors (burgundy, black, and grey) over a period of five weeks. This error created a natural experiment, enabling us to test the impact of cost transparency on wallet sales.

Therefore we have the following procedure:

Operationalization of Cost Transparency: The infographic presented the total cost to produce the wallet, breaking it down into its specific components, namely: leather (14.68 US-Dollar), construction (38.56 US-Dollar), duties (4.26 US-Dollar), and transportation (1.00 US-Dollar). In addition, it included benchmark information indicating that the wallet had a 1.9x markup, in contrast to a 6x markup charged by a competitor. Because wallet colors serve as the basis for treatment assignment, the natural experiment compares “cost transparent” wallets (burgundy, black, and grey) to “non-transparent” wallets (bone and tan).
Identification Strategy: We use a difference-in-differences approach to compare the daily sales between the treatment (cost transparency) and control (no cost transparency) groups before versus after the introduction of the infographic. By doing so, the design isolates the causal effect of cost transparency on the daily count of wallets sold for each color.
Control Variables: Given that the cost transparency treatment was implemented by wallet color, and with only five available colors, it was necessary to control for potential confounders. For instance, we include a proxy for time-varying color popularity - the number of page views each wallet color received - and a proxy for time-varying inventory levels.

Beantworten Sie nun die folgenden Fragen in Bezug auf den vorherigen Text:

Wie ist das natürliche Experiment aufgebaut, und warum wird es als solches klassifiziert?
Welche Rolle spielt das zufällige Versäumnis, die Infografik bei zwei der fünf Farbvarianten einzuführen, in der Experimentstruktur?
Warum ist es notwendig, Variablen wie Seitenaufrufe und Lagerbestandsproxies in die Analyse einzubeziehen?
- Welche potenziellen Verzerrungen könnten auftreten, wenn diese Kontrollvariablen nicht berücksichtigt werden?

Das Experiment entstand durch einen Implementierungsfehler, seitens des Händlers, auf dessen Homepage. Die Infografik zur Kostentransparenz zu allen Farbvarianten des Portemonnaies veröffentlicht werden sollen. Stattdessen wurde sie nur zu 3 von 5 Farbvarianten veröffentlicht. Man spricht hierbei von einem natürlichen Experiment, da die Zuteilung des Treatments (Kostentransparenz) nicht durch Forschende gesteuert wurde, sondern durch ein Ereignis,welches sich nicht im Kontext von Forschung ereignete.

Das zufällige Versäumnis erzeugt eine natürliche Trennung zwischen Treatment und Kontrollgruppe. Es entstand eine zufällige Zuordnung des Treatments, was Verzerrungen minimiert. Diese Zuordnung lässt sich nicht systematisch auf die Eigenschaften der Farben oder Kundinnen und Kunden zurückführen.

Seitenaufrufe und Lagerbestände sind Variablen, welche der Kontrolle zeitlich variierender Effekte dienen. Eine bestimmte Farben könnte unanbhänig vom Treatment beliebter sein als eine andere. Würde man nicht hierauf kontrollieren, so könnte der tatsächliche Effekt der Kostentransparenz fehlinterpretiert werden und es könnte zur Über-/Unterschätzung kommen. Gleiches gilt für die Lagerbestände - ist eine farbe häufiger Ausverkauft, so kann dies auch die Verkaufszahlen der anderen Farbvarianten beeinflussen.

Die Kontrolle auf diese Variablen dient somit zur Stärkung der internen Validität.

Lesen Sie weiterhin das Kapitel “Difference-in-Differences” in Huntington-Klein (2021), speziell Kapitel 18.1 und 18.2 und beantworten Sie die folgenden Fragen dazu:

Kann eine Difference-in-Differences-Regression helfen, den kausalen Effekt der Kostentransparenz auf die Verkaufszahlen zu identifizieren?

Gehen Sie bei der Beantwortung dieser Frage insbesondere auf die nachfolgenden Punkte ein:

Welche Art von Variation nutzt eine DiD-Regression in diesem Fall zur Identifikation des Effekts?
Welche Voraussetzung(en) müssen erfüllt sein, damit DiD eine gültige Kausalschätzung liefert?
- Was bedeutet die „Parallel Trends“-Annahme in diesem Kontext?
- Warum reicht es nicht aus, nur zu vergleichen, wie sich die Verkaufszahlen nach der Einführung verändert haben?
Basierend auf dem Kontext des Buchkapitels zu Difference-in-Differences (DiD) und den Informationen aus Aufgabe 18, formulieren Sie bitte die Regressionsgleichung, mit der der Effekt der Kostentransparenzmaßnahme mithilfe eines DiD-Ansatzes untersucht werden kann.
- Definieren Sie dabei klar alle verwendeten Variablen.
- Stellen Sie die Regressionsgleichung in mathematischer Form dar.
- Beschreiben und erklären Sie das von Ihnen aufgestellte Modell.

Eine Difference-in-Difference (DiD)-Regression kann unter bestimmten Voraussetzungen dabei helfen, den kausalen Effekt der Kostentransparenz auf die Verkaufszahlen zu identifizieren.

Im vorliegenden Fall nutzt eine DiD-Regression zeitliche und gruppenspezifische Variation, wodurch abgeschätzt werden kann ob sich die Verkaufszahlen in der Treatmentgruppe relativ zur Kontrollgruppe verändert haben.

Für eine gültige Kausalschätzung treffen wir die sogenannte “Paralell Trends”-Annahme. In unserem Kontext bedeutet dies: Vor Einführung der Grafik zur Kostentransparenz (Treatment) sollen sich die Verkaufszahlen in beiden Gruppen im gleichen Trend weiterentwickelt haben.

Zum Abschluss des Projekts sollen Sie sich das oben beschriebene natürliche Experiment genauer anschauen. Lesen Sie hierzu die Daten (Experiment3.csv) in R ein. Nennen Sie den Datensatz daten_exp3. Erstellen Sie eine Variable log_units, die die logarithmierte Anzahl an verkauften Einheiten darstellt.

Erstellen Sie weiterhin eine passende Grafik, die die durchschnittliche Anzahl der verkauften Produkte je Treatment pro Woche abbildet. Fügen Sie weiterhin eine vertikale Linie für den 28. Januar 2014 in ihre Grafik ein, welche die Einführung der Kostentransparenz markiert.

Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie insbesondere auf die Entwicklung der durchschnittlichen Verkaufszahlen in beiden Gruppen vor und nach dem 28. Januar ein. Gibt es visuelle Hinweise auf eine Wirkung der Kostentransparenz?

Angenommen, beide Gruppen (Treatment und Kontrolle) zeigen vor der Einführung der Kostentransparenz einen gleich starken Anstieg der durchschnittlich verkauften Einheiten. Was würde das für die Interpretation der Maßnahme im Rahmen eines Difference-in-Differences-Ansatzes bedeuten?

Hinweis: Für die Ableitung der Wochen aus dem Datumsformat kann die Funktion isoweek() aus dem Paket lubridate verwendet werden.

Die vorliegende Grafik zeigt die durchschnittlichen wöchentlichen Verkäufe vor und nach Einführung der Kostentransparenz am 28.01.2014. Wir erkennen dass die Verkäufe mit Einführung der Infografik sprunghaft ansteigen. In der Gruppe ohne Informationen zur Kostenaufstellung des Produkts steigen die Verkäufe zwar auch, jeodch nicht so stark.

Erstellen Sie eine (mehrere) weitere passende Grafik(en), die die durchschnittlich verkauften Einheiten pro Tag in Treatment und Kontrolle vor und nach der Einführung der Kostentransparenz abbildet. Ergänzen Sie in ihrer Grafik die jeweiligen Standardfehler als Fehlerbalken. Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie insbesondere auf die Unterschiede vor und nach der Einführung der Kostentransparenz ein.

Inwiefern lassen sich daraus erste Hinweise auf einen möglichen Effekt des natürlichen Experiments erkennen?

Hinweis: Für die Erstellung der Grafik können Sie sich an Aufgabe 7 und 9 orientieren.

Die vorliegende Grafik bestätigt unsere Beobachtungen aus Aufgabe 20. Die täglichen Verkäufe stiegen nach Einführung der Infografik stark an. Die Kontrollgruppe konnte nach Einführung, trotz fehlender Infografik, noch mehr Verkäufe generieren.

In der vorherigen Aufgabe haben Sie den Effekt von Kostentransparenz auf die Verkaufszahlen anhand eines deskriptiven Vergleichs untersucht. Dabei haben Sie die durchschnittlich täglich verkauften Einheiten je Treatment vor und nach der Einführung der Transparenzmaßnahme grafisch gegenübergestellt. In dieser Aufgabe sollen Sie diesen Effekt nun ökonometrisch genauer untersuchen, indem Sie den Difference-in-Differences Ansatz in einem Regressionsrahmen anwenden.

Untersuchen Sie den Effekt der Einführung von Kostentransparenz auf die Verkaufszahlen mithilfe einer Difference-in-Differences Regression. Verwenden Sie hierfür Beobachtungen an Werktagen, sowie am Wochenende (Montag bis Sonntag), mit positiven Verkaufszahlen.

Erstellen Sie insgesamt zwei Regressionsmodelle:

Basismodell ohne Kontrollvariablen
Modell mit Kontrolle für Wochentagseffekte

Stellen Sie die Ergebnisse anschaulich dar. Beschreiben und interpretieren Sie Ihre Ergebnisse. Gehen Sie insbesondere auf folgende Aspekte ein.

Wie würden Sie die Größe des Effekts interpretieren, den Sie für treated:post erhalten haben?
Welche Vorteile bringt es, log_units (logarithmierte Verkäufe) als abhängige Variable zu verwenden?
Können Sie aus Ihrer Schätzung auf einen kausalen Effekt der Kostentransparenz schließen?
Inwiefern hilft die Kontrolle für Wochentage dabei, Verzerrungen in der Schätzung zu vermeiden?
Würden Sie auf Basis Ihrer Analyse eine Empfehlung zur Beibehaltung oder Ausweitung der Kostentransparenz geben?
Worin könnten ihrer Ansicht nach Probleme liegen bei der Betrachtung eines natürlichen Experiments, die die Ergebnisse verzerren könnten?

Hinweis 1: Nutzen Sie für die Schätzung die feols()-Funktion aus dem fixest-Paket.

Hinweis 2: Nutzen Sie die logarithmierten täglichen Verkaufszahlen als abhängige Variable.

##                       Ohne Kontrolle     Mit Kontrolle
##                      Log(Units Sold)   Log(Units Sold)
##                                                       
## DID Effect         0.1770** (0.0318) 0.1770** (0.0318)
## date fixed effect                yes               yes
## color fixed effect               yes               yes
## __________________ _________________ _________________
## S.E.: Clustered            by: color         by: color
## Observations                     470               470
## R2                           0.26492           0.26492
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Die vorliegende Tabelle zeigt die geschätzten Werte für den sogenannten DID-Effekt. Die Ergebnisse beider Modelle sind identisch, was für eine hohe Robustheit spricht. Der Datensatz enthält 470 Beobachtungen.

Der DID-Effekt misst den kausalen Effekt der Kostentransparenz. Hier beträgt dieser in beiden Modellen 0,1770 und ist statistisch signifikant auf dem 1%-Niveau. Für beide Modelle wird auf date und color auf unbeachtete Heterognität kontrolliert.

Das R-Quadrat gibt an wieviel Varianz der abhängigen Variablen durch das Modell erklärt wird - in unserem Fall 26,5%.

Die Größe des Effekts für treated:post lässt sich als ungefähre prozentuale Veränderung interpretieren. Die Einführung der Kostentransparenz führt zu einer steigerung der Verkaufszahlen von 17,7%.

Durch die Verwendung von log_units als abhängige Variable können wir, wie bereits erwähnt, den Effekt als prozentuale Veränderung und damit intuitiver interpretieren. Desweiteren lassen sich so Ausreißer abmildern.

Durch die Kontrolle für Wochentage können wir Verzerrungen der Schätzung vermeiden, indem wir systematische Schwankungen der Verkaufszahlen eliminieren. Auf Basis der zugrundeliegenden Daten, lässt sich eine klare Empfehlung zur Beibehaltung bzw. Ausweitung der Kostentransparenz aussprechen. Die Ergebnisse sind statistisch hoch signifikant und weisen einen positiven Effekt auf die Verkaufszahlen auf.

Mögliche Probleme bei der Betrachtung eines natürlichen Experiments können beispielsweise die Verletzung des “Parallel-Trends” annahme sein. Ein weiteres Problem könnte Endogenität sein, also dass die Zuteilung nicht ganz zufällig war und auf anderen Merkmalen basierte.

Literatur

Mohan, B., Buell, R. W., & John, L. K. (2020). Lifting the veil: The benefits of cost transparency. Marketing Science, 39(6), 1105-1121. https://doi.org/10.1287/mksc.2019.1200

Anhang

Mediator

Im Rahmen von Mediationen ist der Mediator eine Variable, die den erklärenden Zusammenhang zwischen einer unabhängigen und einer abhängigen Variable vermittelt. Dabei wird untersucht, inwieweit der Einfluss der unabhängigen Variablen (z.B. Kostentransparenz) auf die abhängige Variable (z.B. Kaufabsicht) über einen vermittelnden Mechanismus - wie das Vertrauen der Kunden - erfolgt.

Mediatoreffekt: Der Mediatoren-Effekt, oft als ACME (Average Causal Mediation Effect) bezeichnet, beschreibt den indirekten Effekt, den die unabhängige Variable auf die abhängige Variable über den Mediator ausübt. Ist dieser Effekt signifikant, signalisiert dies, dass ein wesentlicher Teil des gesamten Einflusses über den vermittelnden Mechanismus läuft. Gleichzeitig kann ein nicht-signifikanter direkter Effekt (ADE - Average Direct Effect) darauf hindeuten, dass der Mediator den hauptsächlichen Erklärungsmechanismus darstellt.
Funktion und Wirkung des Mediators: Analog zum Konzept der signalgebenden Funktion bei Statussymbolen - deren Wert unter anderem von der Exklusivität und dem sozialen Kontext abhängt - fungiert der Mediator als vermittelnder Kanal, der erklärt, wie und warum der ursprüngliche Zusammenhang zwischen zwei Variablen zustande kommt. Der Mediator „überträgt“ quasi den Effekt der unabhängigen Variable auf die abhängige Variable. Dadurch kann in Modellen, in denen der direkte Zusammenhang zwischen der unabhängigen und der abhängigen Variable durch die Einbeziehung des Mediators verschwindet oder abgeschwächt wird, abgeleitet werden, dass der Mechanismus über den Mediator läuft. Dies ermöglicht ein tieferes Verständnis der zugrundeliegenden psychologischen Prozesse - etwa wie das Vertrauen der Kunden die Wirkung von Kostentransparenz auf deren Kaufabsicht vermittelt.

Zusammengefasst spielt der Mediator eine zentrale Rolle bei der Aufklärung der kausalen Mechanismen, indem er als vermittelnder Faktor zwischen Ursache und Wirkung identifiziert wird. Die signifikante Vermittlung über den Mediator zeigt, dass nicht allein das Vorhandensein von Kostentransparenz entscheidend ist, sondern auch, inwiefern diese Transparenz das Vertrauen stärkt - was wiederum maßgeblich die Kaufabsicht beeinflusst. So liefert die Mediationsanalyse wertvolle Einsichten, die über einfache bivariate Zusammenhänge hinausgehen und die Komplexität kausaler Mechanismen innerhalb von sozialen oder marktorientierten Prozessen sichtbar machen.

Informationen zum Studiendesign des Experiments 1 und 2

Abbildung 1: Kostentransparenz Infografik

Abbildung 2: Design der Schokoladenverpackung ohne und mit Kostentransparenz

Kostenoffenlegung als Wettbewerbsvorteil

Chancen und Potenziale der Kostentransparenz

Motivation

Aufbau der Studie

Daten

Datenimport und -aufbereitung

Deskriptive Analyse

Beschreibung und Interpretation

Regressionsanalyse

Zusatzaufgabe

Literatur

Anhang

Mediator

Informationen zum Studiendesign des Experiments 1 und 2