Motivation

Die Untersuchung von Kostentransparenz ist aus ökonomischer Sicht besonders spannend, da sie Einblicke in das Zusammenspiel von Marktverhalten, Preiswahrnehmung und Konsumentenvertrauen ermöglicht. In klassischen Märkten gilt Information als asymmetrisch verteilt - insbesondere Kostenstrukturen bleiben für Konsument:innen meist verborgen. Wenn Unternehmen jedoch freiwillig ihre Produktionskosten offenlegen, entsteht eine neue Form der Marktkommunikation, die sowohl auf das Kaufverhalten als auch auf die Markenbindung Einfluss nehmen kann.

In diesem Projekt beschäftigen Sie sich mit der ökonomischen Wirkung unterschiedlicher Formen von Kostentransparenz, darunter produktbezogene Einzelkosten-Offenlegung im Point-of-Sale oder auch verbal vermittelte Transparenz in Kombination mit Vertrauensmessung. Ziel ist es, zu untersuchen, wie sich diese Varianten auf Zahlungsbereitschaft, Vertrauen und wahrgenommene Preisfairness auswirken.

Kern dieser Ausarbeitung ist die Frage, inwiefern Kostentransparenz eine rationale Kaufentscheidung unterstützt oder über emotionale Mechanismen - etwa durch erhöhte Markenattraktivität - wirkt. Für die Analyse greifen Sie auf ein breites Methodenrepertoire zurück, das ökonomische Modellierung mit experimenteller Verhaltensforschung verbindet, und leisten so einen Beitrag zum besseren Verständnis moderner Konsumentenentscheidungen in transparenten Märkten. Für ihre Analyse verwenden Sie die Daten der folgenden Ausarbeitung:

Mohan, B., Buell, R. W., & John, L. K. (2020). Lifting the veil: The benefits of cost transparency. Marketing Science, 39(6), 1105-1121.

Aufbau der Studie

Lesen Sie sich den folgenden Text zum Hintergrund und Aufbau der Studie durch und beantworten Sie nachfolgende Fragen dazu:

Der Ausgangspunkt der betrachteten Untersuchung war ein reales Ereignis: Ein Online-Händler stellte im Dezember 2013 ein hochwertiges Lederportemonnaie zum Verkauf. Einige Wochen später wurde auf den Produktseiten eine Infografik zur Kostenzusammensetzung ergänzt, allerdings versehentlich nur bei drei von fünf Farbvarianten. Obwohl der Händler diesen Fehler nicht beabsichtigte, entstand daraus ein sogenanntes natürliches Experiment, also eine reale Vergleichssituation mit kontrollierbaren Unterschieden. Die Verkäufe konnten analysiert werden, um zu überprüfen, ob die Offenlegung der Produktionskosten einen Einfluss auf das Kaufverhalten hatte.

Dieses natürliche Experiment lieferte erste Hinweise darauf, dass Kostentransparenz wirkt - und war damit die Basis für zwei gezielte Experimente im Labor, die Sie sich in diesem Projekt genauer anschauen sollen. Beide Laborexperimente knüpfen an die reale Ausgangslage an - gehen aber unterschiedliche Forschungsfragen an:

Experiment 1: In einem realitätsnahen Online-Setting wurde untersucht, ob Konsument:innen anders entscheiden, wenn sie Informationen zu Produktionskosten sehen. Hierbei sahen die Teilnehmer:innen eine Produktseite für einen Rucksack von Everlane - entweder mit oder ohne Kostenaufstellung (vgl. Abbildung 1: Kostentransparenz Infografik im Anhang). Zusätzlich wurde ein Vergleichsprodukt von J. Crew gezeigt (ohne Hinweise zur Kostenzusammensetzung). Die Teilnehmer:innen mussten entscheiden, von welchem Anbieter sie lieber einen Gutschein erhalten würden. Das Ziel der Forscher war es zu messen, ob Konsument:innen bei mehr Transparenz auch eher kaufen, folglich sich für diesen Gutschein entscheiden.

Experiment 2: Nachdem Experiment 1 zeigte, dass es einen Effekt der Kostentransparenz gibt, stellt sich die psychologische Anschlussfrage, warum es diesen Effekt gibt und wie dieser festzumachen ist. So sahen die Teilnehmer:innen im 2. Experiment ein fiktives Produkt - eine Schokoladentafel. In der Kontrollgruppe wurden nur übliche Produktinfos gezeigt. In der Treatmentgruppe gab es zusätzlich eine detaillierte Kostenaufstellung (vgl. Abbildung 2: Design der Schokoladenverpackung ohne und mit Kostentransparenz im Anhang). Im Anschluss wurden Vertrauen in die Marke und Kaufbereitschaft durch einen Fragebogen abgefragt. So sollte herausgefunden werden, ob Vertrauen der zentrale psychologische Mechanismus für die Kaufentscheidung der Kund:innen ist.

Beantworten Sie nun folgende Fragen:

Welches reale Ereignis war der Auslöser der Forschung?
Welche konkrete Verhaltensfrage steht im Mittelpunkt von Experiment 1 - Was wollten die Forscher:innen direkt am Kaufverhalten testen?
Welcher psychologische Faktor steht im Zentrum von Experiment 2 - und wie hängt er mit dem Kaufverhalten zusammen?

a: Das reale Ereignis 2013, bei dem ein Online-Händler ein hochwertiges Lederportemonnaie zum Verkauf anbot.Bei dem lud er aber versehentlich nur bei drei von fünf Farbvarianten eine Infografik zur Kostenzusammensetzung hoch. Dieses Versehen führte zu einem natürlichen Experiment, bei dem untersucht werden konnte, ob die Offenlegung der Produktionskosten das Kaufverhalten beeinflusst.
b: Zentrale Frage in Experiment 1 war, ob sich Konsumenten anders verhalten, wenn sie Informationen zu Produktionskosten sehen. Genauer, ob Kostentransparenz einen direkten Einfluss auf die Entscheidung, einen Gutschein für ein bestimmtes Produkt (hier ein Rucksack von Everlane mit oder ohne Kostenaufstellung) im Vergleich zu einem anderen (J. Crew ohne Transparenz) zu wählen?
c: Im zweiten Experiment steht der psychologische Faktor „Vertrauen in die Marke im Mittelpunkt. Das Experiment sollte zeigen, ob durch Kostentransparenz das Vertrauen in die Marke steigt, und ob dieses gesteigerte Vertrauen wiederum die Kaufbereitschaft der Konsumenten positiv beeinflusst. Vertrauen wird hier also als zentraler psychologischer Mechanismus für die Wirkung von Kostentransparenz auf das Kaufverhalten betrachtet.

Nachdem Sie nun die grundlegende Forschungsidee und Zielsetzung der beiden Experimente kennengelernt haben, befassen wir uns im nächsten Schritt vertiefend mit Experiment 1. Ziel ist es, den genauen Aufbau, sowie das konkrete Verhalten der Teilnehmer:innen besser zu verstehen.

Lesen Sie sich den folgenden Text zum Aufbau des ersten Experiments durch und beantworten Sie anschließend Fragen dazu:

Cost transparency refers to the disclosure of the costs to produce a good or provide a service. Although cost transparency is a strategy traditionally employed in the context of supplier-firm relationships, wherein the two-way sharing of cost information between parties facilitates collaboration on cost reduction measures, we investigate its effects within the context of consumer-firm relationships. Information on the costs associated with providing goods and services is rarely shared with consumers, but we provide evidence of when and why voluntarily doing so can increase consumers’ purchase interest. Specifically, building on the psychology of disclosure and trust, we posit that cost transparency, insofar as it represents an act of intimate disclosure, fosters trust. In turn, we propose that this heightened trust increases consumers’ willingness to purchase from the transparent firm. In the sections that follow, we discuss our central predictions and highlight alternative accounts. Then, we present experiments, conducted in the lab and in the field, that document the main effects of cost transparency, its underlying psychological drivers, and conditions that moderate its effects.

This first experiment explores how cost transparency influences consumer preferences in an online shopping context. The study was designed as a between-subjects randomized experiment using an incentive-compatible setup, meaning participants made real choices with the possibility of receiving a tangible reward. A total of 509 U.S.-based participants were recruited through Amazon Mechanical Turk (MTurk). Each participant was randomly assigned to one of two experimental conditions:

Cost Transparency Condition: Participants were shown a simulated product page for a backpack sold by the retailer Everlane. This page included a cost breakdown infographic, listing the production costs such as materials, labor, transport, and duties, with a clearly stated total cost.
Control Condition: Participants saw the same backpack from Everlane but without any cost information. In both conditions, participants also saw a comparable backpack from J. Crew, which does not practice cost transparency.

Participants were instructed to view both product pages and then asked which company they would prefer to receive a $50 gift card from. Their response served as the main behavioral outcome, representing a choice between the transparent vs. non-transparent retailer. To ensure accurate interpretation of the presented information, a comprehension check followed the main choice question. Participants were also asked for demographic information such as age, gender, income, and education, to allow for potential control variables in later analysis.

Beantworten Sie nun folgende Fragen:

Wie viele Personen nahmen final an dem Experiment teil?
Worin bestand der Unterschied zwischen der Transparenzbedingung und der Kontrollbedingung?
Welche Anreizstruktur wurde verwendet, um die Entscheidung der Teilnehmenden realistisch zu gestalten?
Wie unterschieden sich die beiden gezeigten Onlinehändler im Experiment?
Warum wurde im Anschluss an die Entscheidungsfrage ein Verständnischeck durchgeführt?
In der Beschreibung des Experiments wird von “between-subjects randomized experiment using an incentive-compatible setup” gesprochen. Was versteht man hierunter im Detail?

Hinweis: Für die Beantwortung der letzten Frage können Sie diesen Artikel (Seite 1-5) als Grundlage verwenden.

a: Am Experiment nahmen 509 Personen aus den USA teil.
b: In der Transparenzbedingung wurde den Teilnehmern die Website mit einem Rucksack mit Infografik zur Kostenzusammensetzung Material, Arbeit, Transport, Zoll, Gesamtkosten) vorgelegt. In der Kontrollbedingung wurde ihnen dieselbe Seite ohne Kostentransparenz vorgelegt. In beiden Bedingungen wurde zusätzlich ein Vergleichsprodukt gezeigt, welches grundsätzlich keine Kostentransparenz bietet.
c: Die Teilnehmer konnten eine reale Entscheidung treffen, bei der sie einen 50$ Gutschein vom jeweiligen Anbieter bekommen, den sie wählen. Dadurch wurde sichergestellt, dass ihre Wahlverhalten möglichst authentisch und ernsthaft war.
d: Der Rucksack von Everlane besitzt je nach Bedingung eine Kostentransparenz oder nicht. Der Rucksack von J. Crew war immer ohne Kostentransparenz.
e: Um sicherzustellen, dass die Teilnehmenden die vorgelegten Informationen richtig verstanden haben, wurde ein Verständnischeck durchgeführt. Unaufmerksamkeiten oder Fehlinterpretationen konnten so ausgeschlossen werden, damit diese nicht das Ergebnis verfälschen würden.
f: Between-subjects Design bedeutet, dass jede Versuchsperson nur einer Bedingung zugeordnet (Transparenz oder Kontrolle) wird. Dadurch lassen sich die Effekte klarer einer bestimmten Manipulation zuordnen, ohne dass sie durch Kontrasteffekte oder Lernen innerhalb der Person verzerrt werden. Randomized Experiment stellt sicher, dass Die Zuteilung zu den Bedingungen zufällig erfolgt, wodurch Störeinflüsse durch systematische Unterschiede zwischen Gruppen minimiert werden. Incentive-compatible Setup stellt sicher, dass die Versuchssituation so gestaltet ist , dass es für die Teilnehmenden rational ist, ihre echten Präferenzen zu zeigen, weil ihre Entscheidung echte Konsequenzen haben kann (z. B. durch den möglichen Erhalt eines Gutscheins). Die Teilnehmenden haben keinen Anreiz strategisch oder unehrlich zu antworten, da sie bei ehrlicher Entscheidung einen für sie optimalen Nutzen erwarten dürfen.

Daten

Datenimport und -aufbereitung

Die Daten, die Sie für die nachfolgenden Analysen verwenden, wurden zu Replikationszwecken von den Autoren der Studie zur Verfügung gestellt und können hier heruntergeladen werden:

Bhavya Mohan, Ryan W. Buell, Leslie K. John (2020) Lifting the Veil: The Benefits of Cost Transparency. Marketing Science 39(6):1105-1121. mksc.2019.1200.sm1.pdf

Wir haben die Daten für Sie heruntergeladen und im Unterordner mit dem Namen Daten bereitgestellt. Für ihre Analyse werden die Dateien Experiment1.csv und Experiment2.csv genutzt. Für die Zusatzaufgabe ist die Datei Experiment3.csv relevant.

Lesen Sie den Datensatz Experiment1.csv aus dem Unterordner Daten in R ein. Nennen Sie den Datensatz in R daten_exp1.

Im Datensatz sind unterschiedliche Variablen enthalten. Weiterhin habe wir Ihnen ein Readme mit den Beschreibungen zu den Variablen bereitgestellt. Nutzen Sie dieses und den Text aus Aufgabe 2, um die Variablen zu beschreiben.

Beschreibung der Variablen im Datensatz zu Experiment 1

treatment
- Gibt an, welcher Versuchsgruppe ein Teilnehmender zugeordnet wurde.
- 1 = Proband mit einer Produktseite mit Kostentransparenz
- 0 = Standard Produktseite ohne Kostentransparenz als Kontrollgruppe
everlane
- Hier wird erfasst, für welches Unternehmen die Teilnehmenden die Geschenkkarte gewählt haben. Dies soll die Wertschätzung der Teilnehmer zeigen, da sie hier ihren Persönliche nutzten maximieren können
- 1 = Everlane Geschenkkarte(transparenter Anbieter)
- 0 = J. Crew Geschenkkarte
passed
- Die Teilnehmenden mussten einen Verständnistest über die erhaltenen Produktinformationen absolvieren, um sicherzustellen, dass die gezeigten Informationen verstanden wurden.
- 1 = Test bestanden
- 0 = Test nicht bestanden
email_provided
- Erfasst, ob die Teilnehmenden eine E-Mail-Adresse angegeben haben, um den Gutschein zu erhalten.Die ist besonders relevant, weil sich hier zeigt ob die Teilnehmer ein tatsächliches intresse an den Gutscheinen/Produkten entwickelt haben
- 1 = E-Mail-Adresse angegeben
- 0 = Keine E-Mail-Adresse angegeben
female
- Freiwillige Angabe über das Geschlecht des Teilnehmenden.
- 1 = weiblich
- 0 = männlich
age
- Freiwillige Angabe über das Alter des Teilnehmenden.
educ
- Freiwillige Angabe über den erreichten Bildungsabschluss mit einer Abgrenzung zwischen verschiedenen Kategorien.
- 1 = Einige Jahre in der Schule
- 2 = Schulabschluss
- 3 = Einige Jahre College
- 4 = Hochschulabschluss
- 5 = Postgradual/beruflich
income
- Freiwillige Angabe über die Höhe des monatlichen Einkommens nach unterschiedlichen Kategorien.
- 1 = Keines
- 2 = Unter 60 Dollar
- 3 = 60-499 Dollar
- 4 = 500-999 Dollar
- 5 = 1.000-1.999 Dollar
- 6 = 2.000-2.999 Dollar
- 7 = 3.000-3.999 Dollar
- 8 = 4.000-4.999 Dollar
- 9 = 5.000-7.499 Dollar
- 10 = 7.500-9.999 Dollar
- 11 = Über 10.000 Dollar
- 12 = Weiß nicht/Bevorzuge keine Antwort

Hinweise: - Die Angaben (female, age, educ, income) waren freiwillig und wurden nicht von allen Teilnehmenden gemacht.

Deskriptive Analyse

Sie sollten sich im ersten Schritt einen Überblick über ihre Daten verschaffen.

Auf Basis des Datensatzes daten_exp1 aus Aufgabe 3 erstellen Sie eine deskriptive Tabelle mit der Anzahl an Beobachtungen, den Mittelwerten, der Standardabweichungen, dem Median, sowie den Minima und Maxima für alle in daten_exp1 enthaltenen Variablen.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie insbesondere auf die Verteilungen der einzelnen Variablen ein. Was fällt hier besonders auf.

Deskriptive Tabelle
Variable	Anzahl Beobachtungen	Mittelwert	Standardabweichung	Median	Minimum	Maximum
Treatment	509	0.50	0.50	0	0	1
Everlane-Geschenkkarte	509	0.63	0.48	1	0	1
Verständnis-Test bestanden	509	0.77	0.42	1	0	1
E-Mail angegeben	509	0.56	0.50	1	0	1
Geschlecht	509	0.49	0.50	0	0	1
Alter	505	37.59	11.74	35	18	81
Bildung	505	3.76	0.84	4	1	5
Einkommen	505	7.58	2.43	8	1	12
Note:
Quelle: Bhavya Mohan, Ryan W. Buell, Leslie K. John (2020) Lifting the Veil: The Benefits of Cost Transparency. Marketing Science 39(6):1105-1121. mksc.2019.1200.sm1.pdf

Beschreibung:
Die Tabelle enthält die Daten aus dem Experiment und führt alle enthaltenen Variablen auf, sowie die gängigsten statistischen Merkmale für jede Variable. Es werden die Anzahl der Beobachtungen, der Mittelwert, die Standardabweichung, der Median, Minimum und Maximum der Werte erfasst.
In der ersten Spalte der Anzahl der Beobachtungen fällt direkt auf, dass der Datensatz trotz der freiwilligen Angaben von (female, age, educ, income) fast vollständig ist. Es fehlen nur jeweils vier Beobachtungen für age, educ und income von insgesamt 509 Beobachtungen.
Bei der Treatment-Variable gibt es durch die 0/1-Kodierung einen Mittelwert von 0,5, da Treatment- und Kontrollgruppe fast gleich groß sind. Da die Teilnehmeranzahl ungerade ist und der Median bei 0 liegt, gibt es einen Teilnehmer mehr in der Kontrollgruppe. Minimum und Maximum haben entsprechend keine besondere Aussagefähigkeit.
Die Everlane-Variable zeigt mit dem Mittelwert (0,63), dass sich eine Mehrheit aller Teilnehmer für den Gutschein von Everlane entschieden hat. Dies bestätigt auch der Median. Des Weiteren gibt es eine relativ große Standardabweichung von 0,48.
Der Verständnistest wurde im Durchschnitt von 77% der Teilnehmer bestanden, was darauf hindeutet, dass viele Teilnehmer aktiv beteiligt waren. Auch hier ist die Standardabweichung relativ hoch, was auf eine starke Streuung hinweist. Der Median bestätigt wieder, dass eine Mehrheit der Teilnehmer bestanden hat; Minimum und Maximum sind wieder nicht relevant interpretierbar.
Es zeigt sich zudem, dass 56% der Teilnehmer bereit waren, eine E-Mail für den Erhalt des Gutscheins anzugeben.
Beim Geschlecht aller Teilnehmer sieht man eine fast gleichmäßige Aufteilung mit 49% Frauenanteil und 51% Männeranteil. Der Median liegt bei 0, das bestätigt wieder den etwas höheren Männeranteil.
- Hinweis: Bei den nächsten drei Variablen fehlen jeweils 4 Beobachtungen.
Das Alter der Teilnehmer liegt im Mittel bei 37,59 Jahren. Mit einem Median von 35 zeigt sich, dass der Mittelwert robust ist und die meisten Teilnehmer eher jünger sind. Zudem gibt es eine Standardabweichung von etwa 11,8 Jahren, welche relativ hoch ist und eine starke Verteilung um Median und Mittelwert andeutet. Die Spannweite des Alters ist ebenfalls groß, mit 18 bis 81 Jahren.
Die Bildung der Teilnehmer hat einen Mittelwert von 3,76 auf der Skala von 1 bis 5 und der Median liegt bei 4. Das bedeutet, dass eine Mehrheit der Teilnehmer mindestens einen Hochschulabschluss hat, doch durchschnittlich liegt das Bildungsniveau aller Teilnehmer etwas unter dem Hochschulabschluss. Damit zeigt sich, dass sich ein Großteil der Teilnehmer im oberen Bildungsniveau der Skala bewegt.
Als letztes wird das Einkommen der Teilnehmer dargestellt. Hier gibt es eine Skala von 1 bis 12. Der Mittelwert zeigt, dass durchschnittlich 7,58 angegeben wurde, und der Median gibt den Einkommensbereich 8 an, dies entspricht dem Bereich von 4.000–4.999 Dollar. Die Standardabweichung von 2,43 deutet auf eine relativ hohe Streuung in den Einkommen der Teilnehmer hin.

Interpretation:
Es fällt direkt auf, dass die Treatment- und Kontrollgruppe fast exakt aufgeteilt wurden. Dies zeigt sich am Mittelwert von 0,5, was auf eine gute Randomisierung hinweist. Auch sind beide Geschlechter mit 49/51 repräsentativ verteilt. Beim Alter der Teilnehmenden zeigt sich ebenfalls ein ähnliches Bild: Durch die hohe Standardabweichung zeigt sich eine relativ breite Altersverteilung. Des Weiteren sind die Daten sehr vollständig, da es nur drei Variablen mit je 4 fehlenden Werten gibt, was im Verhältnis zur Gesamtanzahl von 509 eher unbedeutend ist. Dies spricht für eine hohe Qualität des Datensatzes. Bei der Auswahl der Geschenkkarte zeigt sich eine starke Tendenz aller Teilnehmenden hin zu Everlane; ob die Kostentransparenz daran einen Anteil hat, lässt sich hier noch nicht feststellen. Dass 77% aller Teilnehmenden die Verständnistests bestanden haben, deutet auf einen verständlichen Versuchsaufbau hin und trägt ebenfalls zur Datenqualität bei. Es zeigt sich auch am Anteil der Teilnehmenden, welche eine E-Mail zum Erhalt des Gutscheins angegeben haben, dass 56% großes Interesse an dem Produkt hatten. Dies könnte besonders wichtig für spätere Auswertungen sein, da diese Teilnehmenden über das Experiment hinweg Interesse zeigen. Die Bildung der Teilnehmenden zeigt, dass tendenziell eher höher gebildete Personen an dem Experiment teilgenommen haben. Dies lässt sich auch durch die Einkommensverteilung bestätigen, da der Median bei 8 liegt, also 4.000–4.999 Dollar pro Monat. Doch die Standardabweichung in den Einkommensbereichen zeigt eine gewisse Streuung in den Einkommen.

Im Datensatz daten_exp1 gibt es Variablen für die keine Beobachtungen vorhanden sind.

Gegeben ihrer Variablenbeschreibung in Aufgabe 3:
- Macht es Sinn die Beobachtungen aus dem Datensatz zu entfernen, wenn für bestimmte Variablen keine Werte vorhanden sind?
- Wenn ja, warum?
- Wie viele Beobachtungen entfernen Sie dadurch aus ihrem Datensatz?

Entfernen Sie nun alle Beobachtungen (d.h. gesamte Zeilen aus dem Datensatz), bei denen für mindestens eine der erhobenen Variablen kein Wert vorliegt, da unvollständige Daten für die Analyse nicht berücksichtigt werden sollen.

Untersuchen Sie weiterhin, ob sich die Teilnehmer, die die Webseite mit der Kostentransparenz gesehen haben (Treatmentgruppe), systematisch von jenen unterscheiden, die die Kontrollversion gesehen haben. Auch wenn es sich um ein Experiment handelt, bei dem die Zuteilung zu den Gruppen zufällig erfolgt ist, sollten Sie dennoch prüfen, ob es unbeabsichtigte (systematische) Unterschiede zwischen den Gruppen gibt. Erstellen Sie hierfür eine Balancing-Tabelle, in der Sie die Mittelwerte von Alter (age), Geschlecht (female), Einkommensstufe (income) und Bildungsniveau (educ) zwischen den beiden Gruppen vergleichen, die Differenzen berechnen und mithilfe von T-Tests prüfen, ob diese Unterschiede statistisch signifikant sind.

Beschreiben und interpretieren Sie ihre Tabelle.
- Was fällt Ihnen in Bezug auf die p-Werte auf?
- Was müssten Sie bei einer weiteren Regressionsanalyse berücksichtigen?

Hinweis: Die beiden Gruppen, die Sie in der Balancing Tabelle betrachten sollen, können aus den Werten (1 und 0) der Variable treatment abgeleitet werden.

Balancing Tabelle
	Mittelwert Treatment	Mittelwert Kontroll	Differenz	p-Wert
Alter	37.27	37.91	-0.64	0.54
Bildung	3.79	3.73	0.06	0.42
Geschlecht	0.49	0.49	0.00	0.96
Einkommen	7.76	7.40	0.36	0.10
Note:
Quelle: Bhavya Mohan, Ryan W. Buell, Leslie K. John (2020) Lifting the Veil: The Benefits of Cost Transparency. Marketing Science 39(6):1105-1121. mksc.2019.1200.sm1.pdf

Macht es Sinn, Beobachtungen aus dem Datensatz zu entfernen, wenn für bestimmte Variablen keine Werte vorhanden sind?

Im vorliegenden Datensatz ergibt es Sinn, unvollständige Beobachtungen zu entfernen. Fehlende Werte können zu strukturellen Verzerrungen führen, insbesondere wenn das Fehlen nicht zufällig ist. Beispielsweise geben Personen mit niedrigerem Einkommen ihr Einkommen möglicherweise seltener an, wodurch eine systematische Verzerrung entsteht.

Wenn ja, warum?

Das Entfernen von unvollständigen Beobachtungen ist dann sinnvoll, wenn nur wenige Werte fehlen. In diesem Fall werden nur vier Beobachtungen entfernt, was im Verhältnis zur gesamten Anzahl von 509 Beobachtungen kaum ins Gewicht fällt. Gleichzeitig wird dadurch verhindert, dass fehlerhafte oder verzerrte Ergebnisse entstehen, die durch das Fehlen wichtiger Angaben verursacht werden könnten. Dadurch können wir die Qualität unseres Datensatzes steigern.

Wie viele Beobachtungen entfernen Sie dadurch aus ihrem Datensatz?

Insgesamt werden durch das Entfernen der unvollständigen Beobachtungen lediglich 4 Beobachtungen aus dem Datensatz entfernt. Betroffen sind dabei die Variablen Alter, Bildung und Einkommen. Die verbleibenden Daten sind dadurch vollständig und ermöglichen eine zuverlässigere Auswertung.

Tabelle

Beschreibung:
Die Tabelle zeigt in der ersten Spalte die vier wichtigen Variablen Alter, Bildung, Geschlecht und Einkommen und dann nach Kontroll und Treatment Gruppe Aufgeteilt den Mittelwert in der zweiten und dritten Spalte. Danach folgt in der vierten Spalte die Differenz dieses Mittelwerte und die fünfte Spalte zeigt dann den Dazugehörigen P-Wert. Insgesamt sind die Differenzen in Vergleich zu den Mittelwerten sehr gering.

Interpretation:
Die Mittelwerte der Treatment- und Kontrollgruppe unterscheiden sich insgesamt nur minimal. Besonders auffällig ist, dass es einen perfekten Ausgleich der Geschlechter gibt hier sind keine Abweichungen zwischen Kontroll- und Treatmentgruppe vorhanden. Zudem weichen Alter und Bildung nur im Bereich von 1–2% von den Mittelwerten ab, was ebenfalls sehr gering ist. Die größte Differenz gibt es mit 0,36 beim Einkommen. Die geringen Differenzen spiegeln sich auch in den p-Werten wider: Keiner der p-Werte ist auf dem üblichen Niveau signifikant, sodass hier eine gute Randomisierung stattgefunden hat und es keine signifikanten Unterschiede zwischen den Gruppen gibt. Des Weiteren lässt sich feststellen, dass bei der größten Differenz beim Einkommen der p-Wert auf dem 10%-Niveau signifikant ist. Dies kann als Hinweis auf eine mögliche Unsicherheit interpretiert werden, aber nicht als Beleg für Unterschiede.

Die Randomisierung hat insgesamt in diesem Experiment sehr gut funktioniert. Es gibt keine signifikanten Unterschiede zwischen Kontroll- und Treatmentgruppe, lediglich das Einkommen weist eine geringe Unsicherheit auf. Dies sollte man für die nachfolgende Analyse im Hinterkopf behalten.

Nachdem Sie sich in den vorangegangenen Aufgaben bereits mit der Verteilung der Daten und den Unterschieden zwischen den einzelnen Gruppen auseinandergesetzt haben, geht es nun um eine explorative Betrachtung von Zusammenhängen zwischen den zentralen Variablen im Datensatz.

In dieser Aufgabe führen Sie eine Korrelationsanalyse durch, um herauszufinden, ob und wie stark einzelne Merkmale - wie Alter, Bildung, Einkommen oder Geschlecht - mit der Treatment-Zugehörigkeit sowie der Entscheidung für die Everlane-Gutscheinkarte zusammenhängen.

Wählen Sie die folgenden Variablen aus dem Datensatz daten_exp1 aus:

treatment
everlane
age
income
educ
female

Berechnen Sie die Korrelationsmatrix dieser Variablen. Visualisieren Sie die Matrix (als Tabelle oder Grafik), in der die Korrelationskoeffizienten und deren Stärke farblich dargestellt sind.

Beschreiben und interpretieren Sie ihre Tabelle/Grafik. Gehen Sie hierbei auch auf folgende Fragen ein:

Was bedeutet ein positiver Zusammenhang (Korrelation) zwischen treatment und everlane im Kontext der Hypothese, dass Kostentransparenz die Entscheidung für Everlane beeinflusst?
Warum kann eine Korrelation auf einen Zusammenhang hinweisen, aber nicht ausreichen, um einen kausalen Effekt nachzuweisen - selbst wenn wir wissen, dass treatment im Experiment zufällig zugewiesen wurde?
Was nützt ihnen eine Korrelationsmatrix im Vergleich zu einem einfachen Mittelwertvergleich zwischen den Gruppen?

Hinweis: Für die Darstellung der Korrelationsmatrix können Sie z.B. das Paket corrplot verwenden.

Beschreibung:

Die Grafik zeigt eine Korrelationsmatrix mit den wichtigsten Variablen des Experiments: Treatment, Everlane, Alter, Einkommen, Bildung und Geschlecht. Die einzelnen Werte in der Matrix geben an, wie stark zwei Variablen miteinander linear korreliert sind. Positive Werte deuten auf einen Zusammenhang zwischen den Variablen hin, negative Werte auf einen gegenläufigen Zusammenhang. Der Wertebereich ist in der Legende zu sehen und reicht von 1 (orange) bis -1 (blau). Bei einer Korrelation von 0, also keinem Zusammenhang, ist der Wert weiß dargestellt.
Auffällig ist, dass es keine starken Korrelationen (weder positiv noch negativ) zwischen den dargestellten Variablen gibt. Die höchste Korrelation findet sich zwischen Bildung und Einkommen (0,19); dies deutet darauf hin, dass mit steigendem Bildungsniveau tendenziell auch das Einkommen steigt. Zwischen Treatment und Everlane liegt eine Korrelation von 0,16 vor, was zeigt, dass Teilnehmende aus der Treatmentgruppe tendenziell häufiger die Everlane-Geschenkkarte gewählt haben.

Dagegen ist die geringste Korrelation bei Alter und Everlane (-0,05); dies bedeutet, dass mit steigendem Alter die Wahl der Everlane-Geschenkkarte leicht abnimmt. Zwischen den anderen Variablen gibt es kaum einen nennenswerten Zusammenhang. Insgesamt zeigt die Grafik keine deutlichen linearen Zusammenhänge.

Interpretation:

Der positive Zusammenhang zwischen treatment und everlane bedeutet, dass Teilnehmer der Treatmentgruppe häufiger Everlane-Gutscheine gewählt haben als die Teilnehmer der Kontrollgruppe. Im Kontext der Hypothese bedeutet das, dass Kostentransparenz einen positiven Einfluss auf die Kaufentscheidung hat und Teilnehmer mit mehr Informationen das Produkt tendenziell eher wählen.
Eine Korrelation bedeutet nicht automatisch, dass es einen Kausaleffekt zwischen den Variablen gibt, da es weitere unbeobachtete Variablen geben kann, die ebenfalls einen Einfluss auf die Variablen ausüben, oder es kann sich um eine zufällig entstandene Korrelation handeln, besonders bei kleinen Datensätzen. Nur durch weitere Auswertungen, wie eine Regressionsanalyse, können genauere Aussagen zu einer Kausalität getroffen werden.
Im Vergleich zum Mittelwertvergleich kann die Korrelationsmatrix gezielt die Beziehungen zwischen den Variablen hervorheben und einen Überblick über alle Korrelationen liefern. Dagegen zeigt der Mittelwertvergleich nur Unterschiede zwischen Kontroll- und Treatmentgruppe.

In Aufgabe 1 und 2 haben Sie gelesen, dass den Teilnehmern ein Angebot gemacht wurde, eine Everlane-Gutscheinkarte anzunehmen. Erzeugen Sie eine geeignete Grafik, die den durchschnittlichen Anteil der angenommenen Angebote (d.h. den Anteil, in dem die Everlane-Karte gewählt wurde) getrennt für die Treatment- und die Kontrollgruppe darstellt. Fügen Sie in der Grafik zusätzlich den Standardfehler der Mittelwerte ein. Führen Sie einen T-Test durch, um zu prüfen, ob der Unterschied im Mittelwert zwischen der Treatment- und Kontrollgruppe statistisch signifikant ist, und geben Sie das Testergebnis (den p-Wert) deutlich sichtbar in der Grafik an. Achten Sie dabei auf eine verständliche Beschriftung Ihrer Grafik sowie auf einen aussagekräftigen Titel.

Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie insbesondere auf folgende Fragen ein:

Welche Aussage lässt sich auf Basis des durchgeführten T-Tests treffen?
Welche der in den vorherigen Aufgaben (vgl. Aufgabe 4 und 5) analysierten Faktoren könnten dazu beigetragen haben, dass ein signifikanter Unterschied im Anteil angenommener Everlane-Angebote zwischen Treatment- und Kontrollgruppe beobachtet wird?

Beschreibung:
Die Grafik zeigt den durchschnittlichen Anteil der Teilnehmenden, die sich für einen Everlane-Gutschein entschieden haben, getrennt nach Kontrollgruppe (rot) und Treatmentgruppe (blau). Die Y-Achse bildet den Anteil angenommener Gutscheine ab (Skala von 0 bis 1), also den Anteil, in dem die Everlane-Karte gewählt wurde. Die Treatmentgruppe weist einen deutlich höheren durchschnittlichen Annahmeanteil von ca. 70 % auf, während die Kontrollgruppe deutlich darunter liegt, bei etwa 55%. Die schwarzen Linien stellen den Standardfehler des Mittelwerts dar. Der p-Wert des durchgeführten T-Tests ist oben in der Grafik angegeben: p = 0.0004.

Interpretation:

Der T-Test ergibt einen p-Wert von 0.0004, also kleiner als 0.001. Das bedeutet, dass der Unterschied im Mittelwert zwischen Treatment und Kontrollgruppehoch signifikant ist. Es besteht eine sehr geringe Wahrscheinlichkeit (< 0.1 %), dass dieser Unterschied zufällig entstanden ist. Daraus lässt sich schließen, dass die Behandlung (Treatment) einen klaren, messbaren Einfluss auf die Gutscheinwahl hatte. Das Treatment hat die Wahrscheinlichkeit, dass sich Teilnehmende für den Everlane-Gutschein entscheiden, um rund 15 Prozentpunkte erhöht.
Aus den Analysen in Aufgabe 4 und 5 ergeben sich folgende unterstützende Faktoren:
1.Gute Randomisierung (Aufgabe 5): Die Treatment- und Kontrollgruppen unterscheiden sich nicht signifikant hinsichtlich Alter, Geschlecht, Bildung oder Einkommen. Dadurch kann der Unterschied nicht durch strukturelle Unterschiede zwischen den Gruppen erklärt werden – ein wichtiger Hinweis darauf, dass der Effekt wirklich vom Treatment selbst stammt.
2.Hohe Datenqualität (Aufgabe 4): Es gibt kaum fehlende Werte, und der Datensatz ist fast vollständig. Die Mehrheit (77%) hat den Verständnistest bestanden, was auf ein gutes Verständnis des Experiments hindeutet. Dadurch ist sichergestellt, dass die Ergebnisse auf verlässlichen und informierten Entscheidungen der Teilnehmenden basieren.
3.Hohes Interesse am Angebot (Aufgabe 4): 56% der Teilnehmenden gaben ihre E-Mail-Adresse an, um den Gutschein zu erhalten – ein Hinweis auf echtes Interesse und Engagement, besonders relevant für das Verhalten in der Treatmentgruppe.

In den vorherigen Aufgaben des Projekts haben Sie sich bereits intensiv mit dem Experiment 1 auseinandergesetzt, in dem untersucht wurde, ob und wie die Offenlegung von Produktionskosten - also Kostentransparenz - das Konsumverhalten beeinflusst. Es wurde gezeigt: Wenn Konsument:innen transparent mitgeteilt wird, wie sich die Kosten eines Produkts zusammensetzen, steigt ihre Bereitschaft, bei dem entsprechend transparenten Unternehmen einzukaufen.

Diese Ergebnisse legen nahe, dass die Offenlegung sensibler Unternehmensinformationen (wie Produktionskosten) das Vertrauen der Konsument:innen in das Unternehmen stärkt und sie somit eher zu einem Kauf motiviert.

Doch was genau ist der psychologische Mechanismus hinter dieser Wirkung? Ist es tatsächlich das Vertrauen in das Unternehmen, das durch die Offenlegung sensibler Informationen gestärkt wird - und in der Folge die Kaufbereitschaft erhöht?

Um genau diese Frage zu beantworten, führen die Autoren ein weiteres Experiment durch, das den vermuteten psychologischen Vermittlungsmechanismus des Vertrauens genauer untersucht. Dabei wurde geprüft, ob Vertrauen tatsächlich als Mediator zwischen Kostentransparenz und Kaufinteresse wirkt. Hierzu wurde ein kontrolliertes Online-Experiment mit über 600 Teilnehmer:innen durchgeführt. Die Teilnehmenden wurden zufällig einer von zwei Bedingungen zugewiesen:

In der Kostentransparenz-Gruppe (Treatment) wurde zusätzlich eine detaillierte Aufschlüsselung der Produktionskosten angegeben. Diese beinhaltete die einzelnen Kostenkomponenten (z.B. Kakaobutter, Verpackung, Arbeitskosten) sowie die Gesamtkosten der Schokoladentafel (vgl. Abbildung 2 im Anhang).
In der Kontrollgruppe sahen die Teilnehmer die Verpackung einer fiktiven Schokoladenmarke namens „Cocoa Passion“. Diese enthielt nur die üblichen Informationen wie Zutaten, Nährwerte und eine Produktbeschreibung.

Ziel war es, zu untersuchen, ob die Offenlegung dieser sensiblen Informationen das Vertrauen der Konsument:innen in die Marke stärkt - und ob dieses Vertrauen wiederum die Kaufbereitschaft beeinflusst. In den nächsten Aufgaben werden Sie diese Studie genauer beleuchten, analysieren und evaluieren, ob sich die Hypothese empirisch bestätigen lässt.

Lesen Sie die Daten des zweiten Experiments (Experiment2.csv) in R ein. Nennen Sie den Datensatz daten_exp2. Benennen Sie die Variable cost in treatment um.

Untersuchen Sie, ob sich die Teilnehmer, die die Verpackung mit transparenter Kosteninformation gesehen haben, systematisch von jenen unterscheiden, die nur die Kontrollversion gesehen haben.

Erstellen Sie hierfür eine Balancing-Tabelle, in der Sie die Mittelwerte von Alter (age), Geschlecht (female), Einkommensstufe (income), Bildungsniveau (educ), Vertrauen (trust) und Kaufbereitschaft (wtb) zwischen den beiden Gruppen vergleichen, die Differenzen berechnen und mithilfe von T-Tests prüfen, ob diese Unterschiede statistisch signifikant sind. Nehmen Sie weiterhin die Anzahl an Beobachtungen in der Treatment- und in der Kontrollgruppe in ihre Tabelle mit auf.

Beschreiben und interpretieren Sie ihre Tabelle. Gehen Sie dabei insbesondere auf folgende Fragen ein:

Was versteht man unter der Variable wtb?
Was lässt sich aus der Größen der Stichprobe ableiten?
Wo könnte es bei einer Regression (oder einem sonstigen Vergleich der Gruppen) zu Problemen kommen und was wären mögliche Auswirkungen?

Hinweis: Für die Beschreibung der wtb können Sie das bereitgestellte Readme nutzen.

Balancing Tabelle
	Mittelwert Treatment (N= 306 )	Mittelwert Kontroll (N= 295 )	Differenz	p-Wert
Alter	34.06	36.27	-2.21	0.02
Geschlecht	3.57	3.51	0.05	0.44
Einkommen	0.48	0.42	0.05	0.21
Bildung	6.79	6.96	-0.17	0.37
Vertrauenswürdigkeit	5.27	4.82	0.45	0.00
Kaufbereitschaft	4.27	3.74	0.53	0.00
Note:
Quelle: Bhavya Mohan, Ryan W. Buell, Leslie K. John (2020) Lifting the Veil: The Benefits of Cost Transparency. Marketing Science 39(6):1105-1121. mksc.2019.1200.sm1.pdf

Beschreibung:
Die Tabelle vergleicht Treatment- und Kontrollgruppe bezüglich folgender Variablen: Alter, Geschlecht, Einkommen, Bildungsniveau, Vertrauen in die Marke ,Kaufbereitschaft (wtb). In den Spalten stehen die Mittelwerte in beiden Gruppen, Differenz zwischen diesen Mittelwerten und der p-Wert aus dem T-Test zur Signifikanzprüfung. Die Stichprobengröße ist bei der Treatmentgruppe 306 Personen und bei der Kontrollgruppe 295 Personen.

Was versteht man unter der Variable wtb?:
Die Variable wtb steht für “willingness to buy” bzw. Kaufbereitschaft. Sie misst, wie stark Teilnehmende bereit wären, das Produkt zu kaufen.
Was lässt sich aus der Größe der Stichprobe ableiten?:
Die Gruppen sind mit 306 (Treatment) und 295 (Kontroll) Teilnehmenden annähernd gleich groß, was ein gutes Design mit balancierter Randomisierung erkennen lässt. Dadurch steigt die statistische Aussagekraft der Tests, und kleinere Effekte können eher erkannt werden.
Wo könnte es bei einer Regression zu Problemen kommen?:
Beim Altersunterschied (signifikant, p = 0.02): Könnte als Confounder wirken (z.B. jüngere Personen sind vertrauensbereiter). Die Lösung wäre, dass Alter in der Regressionsanalyse zu kontrollieren. Mögliche Endogenität/Verkettung zwischen trust und wtb bedeutet das Vertrauen könnte nicht nur Folge, sondern auch gleichzeitig Teil des Entscheidungsprozesses sein. Die Lösung hier, der Einsatz eines Mediationsmodells, um die Wirkung von Transparenz, Vertrauen und Kaufbereitschaft zu testen.

Die Ergebnisse zeigen klar, dass die Kostentransparenz zu einem signifikanten Anstieg des Vertrauens und der Kaufbereitschaft führt. Die Gruppen sind im Allgemeinen gut vergleichbar, bis auf einen kleinen, aber signifikanten Altersunterschied (Treatmentgruppe ist im Schnitt 2 Jahre jünger). Eine Regression mit Kontrolle für Alter sowie ein Mediationsmodell sind empfehlenswert, um den vermuteten psychologischen Mechanismus (Vertrauen als Vermittler) fundiert zu testen. Sehr signifikanter Unterschied bei Vertrauen (p=0.00). Transparenz erhöht das Vertrauen deutlich. Ebenfalls ein sehr signifikanter Unterschied bei der Kaufbereitschaft (p=0.00). Transparenz steigert also die Kaufabsicht klar.

In ihrem Datensatz gibt es einige Beobachtungen ohne vorhandene Werte. Behalten Sie nur die Beobachtungen bei denen vollständige Werte vorliegen. Erzeugen Sie eine geeignete Grafik, welche den durchschnittlichen Anteil der ‘Kaufbereitschaft’ im zweiten Experiment für die Treatment- und Kontrollgruppe darstellt.

Die Grafik soll:

die Mittelwerte der Kaufbereitschaft für beide Gruppen zeigen,
die zugehörigen Standardfehler als Fehlerbalken visualisieren und
das Ergebnis des T-Tests, der die Mittelwertdifferenz prüft, direkt in die Grafik integrieren.

Beschreiben und interpretieren Sie ihre Grafik.

Beschreibung: Die Grafik zeigt die durchschnittliche Kaufbereitschaft der Teilnehmer des zweiten Experiments, aufgeteilt nach der Kontroll- und Treatmentgruppe. Die Balken stellen dabei die Höhe des Mittelwerts der Kaufbereitschaft dar. Hierzu kommen die beiden Fehlerbalken der Gruppen, welche die Unsicherheit der Mittelwerte zeigen und einen Bereich angeben, in dem der wahre Wert liegen kann. Des Weiteren sieht man, dass die Kaufbereitschaft der Treatmentgruppe höher ist als die der Kontrollgruppe. Zudem wurde noch ein T-Test durchgeführt; der entsprechende p-Wert dazu ist direkt unter der Überschrift und beträgt 0.0013. Dieser prüft, ob sich die Mittelwerte der beiden Gruppen signifikant voneinander unterscheiden.

Interpretation: Die Grafik zeigt, dass es einen deutlichen und hoch signifikanten Unterschied zwischen der Kontroll- und Treatmentgruppe gibt. Die Treatmentgruppe zeigt eine höhere Kaufbereitschaft, dies deutet auf einen positiven Einfluss der Kostentransparenz auf die Kaufentscheidung hin. Dabei ist der Unterschied zwischen den beiden Gruppen mit einem p-Wert von 1,3% auf dem üblichen 10%, 5%- und fast sogar 1% Niveau signifikant. Das bedeutet, dass die unterschiedlichen Kaufbereitschaften der Gruppen mit hoher Wahrscheinlichkeit nicht nur auf einen zufälligen Unterschied zurückzuführen sind.

Nachdem Sie nun die Differenzen in der Kaufabsicht zwischen der Treatment- und der Kontrollgruppe im zweiten Experiment überprüft und getestet haben, geht es im nächsten Schritt darum, den möglichen Mediator Vertrauen genauer zu untersuchen. Hierfür sollen Sie sich in einem ersten Schritt das Vertrauen der Personen allgemein anschauen, um einen Eindruck zu dieser wichtigen Variable zu bekommen. Dafür werden Personen anhand hohem und niedrigem Vertrauen und deren Kaufbereitschaft für das Produkt unterteilt.

Erstellen Sie eine oder mehrere geeignete Grafik(en), die den Zusammenhang zwischen Vertrauen (Trust) und der Kaufabsicht (WTB) unabhängig der beiden Treatment- und Kontrollgruppen darstellen. Achten Sie auf eine passende Darstellung der Informationen.

Die Grafik(en) sollen folgende Informationen enthalten:

Unterteilen Sie ihre Daten in Personen mit hohem und niedrigem Vertrauen. Nutzen Sie für die Unterteilung den Median des Vertrauens in ihren Daten als Schwellenwert.
Abhängig der Einstufungen in hohes und niedriges Vertrauen soll nun die durchschnittliche Kaufbereitschaft dargestellt werden. Hier soll die Grafik so dargestellt werden, dass auf der x-Achse das Vertrauensniveau (“hoch” und “niedrig”) und auf der y-Achse die entsprechende Kaufbereitschaft abgebildet wird.
Berechnen Sie weiterhin die Mittelwerte der beiden Vertrauensgruppen und visualisieren diese in geeigneter Art und Weise in ihren Grafik(en).
Führen Sie einen t-Test durch, um zu prüfen, ob die Mittelwertsunterschiede zwischen den beiden Vertrauensgruppen statistisch signifikant sind. Geben Sie den p-Wert in der Grafik an.

Beschreiben und interpretieren Sie ihre Grafik(en). Beantworten Sie insbesondere folgende Fragen:

Welche Implikationen hat ein signifikanter Unterschied für die Rolle von Vertrauen auf Kaufentscheidungen?
Wie stark unterscheidet sich die Kaufbereitschaft zwischen Personen mit hohem und niedrigem Vertrauen?
Könnte auf Basis ihrer Darstellung Vertrauen als Mediator zwischen dem Treatment und der Kaufbereitschaft fungieren?

Beschreibung: Die dargestellte Grafik zeigt die Kaufbereitschaft (WTB) nach Vertrauensniveau als Boxplot. Auf der x-Achse wird zwischen hohem und niedrigem Vertrauen der Teilnehmer in das vorgestellte Unternehmen unterschieden. Die Einteilung der Gruppen erfolgte anhand des Medians der Vertrauenswerte, sodass alle Teilnehmer mit einem Wert über dem Median der Gruppe „hoch“, alle anderen der Gruppe „niedrig“ zugeordnet wurden. Die Skala für das Vertrauen reicht von 1 = „Überhaupt nicht vertrauenswürdig“ bis 7 = „Sehr vertrauenswürdig“.
Auf der y-Achse ist die Kaufbereitschaft abgebildet, die ebenfalls auf einer Skala von 1 („Überhaupt nicht wahrscheinlich“) bis 7 („Sehr wahrscheinlich“) gemessen wurde. Der Boxplot visualisiert für beide Gruppen die Verteilung der Kaufbereitschaft, einschließlich Median, Quartilen und möglicher Ausreißer. Zusätzlich sind die exakten Mittelwerte der Kaufbereitschaft als schwarze Punkte in den Boxplots hervorgehoben und als Zahlen in den jeweiligen Boxen angegeben. Es fällt auf, dass die Teilnehmer mit hohem Vertrauen einen Mittelwert von 5,06 und damit um 1,85 Punkte eine deutlich höhere durchschnittliche Kaufbereitschaft aufweisen als die mit niedrigem Vertrauen (Mittelwert 3,21). Unter der Überschrift ist zudem der p-Wert des T-Tests angegeben, der p-Wert ist mit 7,634×10⁻³¹ extrem klein.

Interpretation:

Die Grafik zeigt, dass es einen großen Unterschied in der Kaufbereitschaft zwischen den Vertrauensniveaus gibt. Dieser Unterschied von 1,85 Punkten ist auf der 1 bis 7 Skala sehr hoch. Der p-Wert des T-Tests ist zudem extrem klein, was auf einen hoch signifikanten Unterschied zwischen den Gruppen hinweist. Der Boxplot veranschaulicht nicht nur die Mittelwerte, sondern auch die Streuung und Verteilung der Kaufbereitschaft innerhalb der Gruppen. Es wird sichtbar, dass ein Großteil der Personen mit hohem Vertrauensniveau eine größere Kaufbereitschaft als der Mittelwert von 5,06 aufweist. Dagegen hat ein Großteil der Gruppe mit niedrigem Vertrauensniveau eine niedrigere Kaufbereitschaft als der Mittelwert von 3,21. Dies deutet darauf hin, dass die Tendenz sogar auf einen noch größeren Unterschied zwischen den Gruppen schließen lässt. Die sehr hohe Signifikanz legt nahe, dass der Unterschied zwischen den Gruppen mit großer Sicherheit kein Zufall ist.
Prinzipiell könnte Vertrauen als Mediator zwischen Treatment (z.B. Kostentransparenz) und Kaufbereitschaft fungieren. Allerdings lässt sich dies allein auf Basis dieser Grafik noch nicht abschließend beurteilen. Die Grafik zeigt, dass Vertrauen stark mit der Kaufbereitschaft zusammenhängt, aber um eine Vermittlerrolle nachzuweisen, müsste zusätzlich geprüft werden ob das Treatment tatsächlich das Vertrauen beeinflusst und ob der Effekt des Treatments auf die Kaufbereitschaft über das Vertrauen vermittelt wird. Insgesamt zeigt die Analyse, dass Vertrauen einen deutlichen und signifikanten Einfluss auf die Kaufbereitschaft hat.

Regressionsanalyse

Sie haben nun ihren Datensatz kennengelernt und es scheint so, als ob insbesondere Personen, welche transparente Kosten sehen, dazu neigen, das Produkt zu kaufen. Doch um ihre deskriptiven Analysen zu erhärten, wollen Sie im folgenden eine Analyse mittels Regressionen durchführen.

Betrachten Sie hier noch einmal das erste Experiment (daten_exp1). Führen Sie eine Regression durch, bei der Ihnen everlane als abhängige Variable dient. Als erklärende Variable nutzen Sie das treatment. Erstellen sie eine weitere Regression, die zusätzlich noch für die folgenden Variablen kontrolliert:

Alter
Bildungsstufe
Einkommen
Geschlecht

Stellen Sie die Regressionsergebnisse in einer Tabelle mit stargazer oder modelsummary dar!

Beschreiben und interpretieren Sie ihre Ergebnisse. Gehen Sie insbesondere auf folgende Fragen ein:

Lässt sich der Effekt des Treatments auf die Entscheidung der Kunden kausal interpretieren?
Ist es wichtig auf weitere Faktoren zu kontrollieren?
Beziehen Sie sich hier auch auf die Ergebnisse aus Aufgabe 5.

Regression: Everlane Gutschein ~ Treatment
	Basismodell	Mit Kontrolle
+ p < 0.1, * p < 0.05, p < 0.01, * p < 0.001
99% Konfidenzintervall
Konstante	0.556***	0.686***
	[0.478, 0.633]	[0.344, 1.028]
Treatment	0.152***	0.155***
	[0.042, 0.262]	[0.045, 0.264]
Alter		-0.002
		[-0.007, 0.002]
Bildung		-0.001
		[-0.067, 0.066]
Einkommen		-0.012
		[-0.035, 0.011]
Geschlecht (weiblich)		0.091*
		[-0.018, 0.201]
Num.Obs.	505	505

Beschreibung:
Die Tabelle zeigt die Ergebnisse zweier Regressionsmodelle, in denen die abhängige Variable die Kaufentscheidung (everlane) ist. Die unabhängigen Variablen variieren je nach Modell. Die erste Spalte enthält die Namen der Variablen (Konstante, Treatment, Alter, Bildung, Einkommen, Geschlecht). Die zweite Spalte zeigt die Ergebnisse des Basismodells (nur mit Treatment als Prädiktor). Die dritte Spalte zeigt die Ergebnisse des Modells „Mit Kontrolle“, in dem zusätzlich Alter, Bildung, Einkommen und Geschlecht berücksichtigt werden. Beide Modelle basieren auf 505 Beobachtungen.

Lässt sich der Effekt des Treatments auf die Entscheidung der Kunden kausal interpretieren?
Ja der Effekt lässt sich kausal interpretieren. Wie in Aufgabe 5 gezeigt wurde, erfolgte die Zuteilung zum Treatment zufällig. Es gab keine systematischen Unterschiede zwischen Kontroll und Treatmentgruppe, bis auf einen kleinen, nicht signifikanten Unterschied im Einkommen. Es gibt keine Selektionseffekte, die Balance zwischen den Gruppen (Alter, Bildung, Geschlecht, Einkommen) war gegeben. Der Effekt ist stabil, er bleibt auch nach Kontrolle weiterer Variablen bestehen.

Ist es wichtig auf weitere Faktoren zu kontrollieren?
Grundsätzlich ja aber im vorliegenden Fall eher nicht. Die Kontrolle zusätzlicher Variablen (Alter, Bildung, Einkommen, Geschlecht) verändert den Treatment-Effekt nicht. Die Kontrollvariablen selbst sind alle nicht signifikant, und ihre Effekte sind sehr klein (z.B. Alter: -0.00 und Einkommen: -0.01). Die Standardfehler verändern sich ebenfalls kaum. Dennoch kann die Kontrolle theoretisch hilfreich sein, um Effizienz zu erhöhen oder verdeckte Effekte zu entdecken. Eine Kontrolle in diesem Experiment bringt also inhaltlich keine Änderungen, aber ist methodisch korrekt und erhöht die Aussagekraft.

Die Mittelwerte hier und in Aufgabe 5 sind sehr ähnlich. Dies deutet auf eine gute Randomisierung hin. Nur das Einkommen zeigt eine minimale Differenz (0.36), aber auch hier ist der p-Wert nur auf 10% Niveau also nicht eindeutig signifikant. Daraus können wir ableiten, dass keine systematische Verzerrung vorliegt. Treatment wirkt positiv und signifikant auf die Kaufentscheidung. Alle Kontrollvariablen Alter, Bildung, Einkommen, Geschlecht (weiblich) haben einen sehr kleine Koeffizienten (alle nahe 0), Konfidenzintervalle, die den Wert 0 enthalten und keine statistische Signifikanz. Daraus folgt, dass diese Merkmale keinen systematischen Einfluss auf die Kaufentscheidung in diesem Setting haben. Die Konfidenzintervalle des Treatment-Effekts sind relativ eng ([0.04, 0.26]), was auf eine hohe Präzision der Schätzung hinweist. Die Intervalle der Kontrollvariablen sind deutlich breiter – sie reichen in beide Richtungen und enthalten 0 was zeigt, dass für diese Variablen eine hohe Unsicherheit vorliegt, sie sind nicht gut geschätzt.

Während die bisherigen Analysen zeigen, dass das Treatment einen Effekt hat, stellt sich nun die Frage, warum das so ist. Nun sollten Sie im weiteren Verlauf durch vertiefende Regressionsanalysen prüfen, ob dies auf das Vertrauen der Kunden zurückzuführen ist. Dazu betrachten Sie noch einmal den Datensatz zu Experiment 2 (daten_exp2) und untersuchen, ob das Treatment (Kunden sehen transparente Kostenstruktur) zu einer höheren Kaufabsicht führt, weil sie das Vertrauen der Konsumenten in das Unternehmen stärkt.

Schauen Sie sich den Einfluss der Kostentransparenz auf die Kaufabsicht in den folgenden zwei Regressionen genauer an und zeigen Sie ihre Ergebnisse nebeneinander:

1. Regression: Abhängige Variable ist die Kaufabsicht; die erklärende Variable ist das Treatment.

2. Regression: Wie in der 1. Regression, doch kontrollieren Sie hier zusätzlich auf die Variablen Alter, Einkommensniveau, Bildungsstufe und Geschlecht.

Stellen Sie die Regressionsergebnisse in einer Tabelle mit stargazer oder modelsummary dar!

Beschreiben und interpretieren Sie ihre Ergebnisse allgemein. Gehen Sie weiterhin auch speziell auf folgende Fragen ein:

Sollten die Kontrollvariablen in ihrer zweiten Regression den Koeffizienten des Treatments ändern? Was würden Sie erwarten und warum? Nutzen Sie hierzu die Ergebnisse aus Aufgabe 8.
- Vergleichen Sie die Regressionskoeffizienten der Treatment-Variable in der ersten und zweiten Regression. Gibt es hier einen signifikanten Unterschied in der Größe des Effekts?
Bringt ihnen die Regression Vorteile gegenüber einer reinen Darstellung der Mittelwerte wie in Aufgabe 9?
Ist der Effekt des Treatments auf die Kaufabsicht ihrer Ansicht nach kausal interpretierbar?
- Welche Voraussetzungen müssen erfüllt sein, damit man diesen Regressionskoeffizienten als kausalen Effekt interpretieren kann?
- Überlegen Sie sich, wie sich das Ergebnis verändern würde, wenn zusätzlich Vertrauen (trust) in das Modell aufgenommen wird. Würde sich der Effekt von treatment verändern? Warum oder warum nicht?

Regression: Kaufwahrscheinlichkeit ~ Treament
	Basismodell	Mit Kontrolle
+ p < 0.1, * p < 0.05, p < 0.01, * p < 0.001
99% Konfidenzintervall
Konstante	3.74***	3.70***
	[3.44, 4.04]	[2.49, 4.92]
Treatment	0.53**	0.50**
	[0.11, 0.96]	[0.07, 0.93]
Alter		-0.01+
		[-0.03, 0.01]
Einkommen		0.02
		[-0.07, 0.12]
Bildung		0.10
		[-0.15, 0.36]
Geschlecht (weiblich)		0.00
		[-0.44, 0.43]
Num.Obs.	601	601

Beschreibung:
Die Tabelle präsentiert die Ergebnisse zweier linearer Regressionsmodelle, die den Einfluss einer transparenten Kostenstruktur (Treatment) auf die Kaufwahrscheinlichkeit untersuchen. Beide Modelle basieren auf einer Stichprobe von 601 Beobachtungen. Spalte 1, untersucht den direkten Effekt des Treatments ohne Berücksichtigung weiterer Variablen, Spalte 2 berücksichtigt zusätzlich demografische Faktoren (Alter, Einkommen, Bildung, Geschlecht).

Sollten die Kontrollvariablen in ihrer zweiten Regression den Koeffizienten des Treatments ändern?
Da die Randomisierung weitestgehend erfolgreich war, sollte der Treatment-Koeffizient sich kaum ändern (Aufgabe 8 zeigte nur einen kleinen Altersunterschied, aber keine anderen signifikanten Gruppenunterschiede). Ebenfalls sind keine starken Confounder vorhanden, die Kontrollvariablen hatten keine signifikanten Effekte auf die Kaufabsicht. Der Treatment-Effekt ändert sich nur minimal (von 0.53 → 0.50), was die Erwartung bestätigt. Die Stabilität des Koeffizienten spricht dafür, dass, die Randomisierung wirksam war und keine starken Verzerrungen durch Confounder bestehen.

signifikanter Unterschied in der Größe des Effekts
Der Treatment-Effekt bleibt zwischen den Modellen nahezu identisch (0.53 zu 0.50). Die minimale Änderung von 0.03 Punkten ist praktisch irrelevant. Kein relevanter Unterschied zwischen den Modellen, die Kontrollvariablen verändern den Treatment-Effekt weder substantiell noch statistisch.

Bringt ihnen die Regression Vorteile gegenüber einer reinen Darstellung der Mittelwerte wie in Aufgabe 9?
Ein einfacher Vergleich der Kaufabsicht zwischen Treatment- und Kontrollgruppe ignoriert mögliche Verzerrungen durch Drittvariablen (z. B. Alter, Einkommen). Durch Kontrolle der Variablen Alter, Einkommen, Bildung, Geschlecht wird der Treatment-Effekt isoliert. Mittelwerte zeigen nur ob ein Unterschied besteht, nicht wie stark er ist oder ob er signifikant ist. Durch die Regression erhält man Effektstärken, Konfidenzintervalle und Signifikanzniveaus. Mittelwertvergleiche sind statisch und können keine Mediation oder Interaktionen testen.

kausal interpretierbar? und welche Vorraussetzungen?
Der Effekt ist grundsätzlich kausal interpretierbar. Die Randomisierung weitgehend erfolgreich war, die Kontrollvariablen den Effekt nicht verzerren, und der Mechanismus (Transparenz zu Vertrauen zu Kaufabsicht) plausibel ist. Der Treatment-Effekt kann nur dann kausal interpretiert werden, wenn es Confounder gibt, dann müssen diese in der Regression kontrolliert werden. Das Modell muss korrekt spezifiziert sein, keine wichtigen Variablen dürfen fehlen. Keine Messfehler in den erklärenden Variablen (die zu Verzerrung führen können). Die Variation in der erklärenden Variable muss auf exogene, also nicht durch den Output beeinflusste Faktoren zurückgehen. Randomisierung muss gegeben sein.

Würde sich der Effekt von treatment mit Vertrauen verändern?
Vertrauen in das Produkt, Unternehmen oder die Quelle des Treatments hat mit hoher Wahrscheinlichkeit einen direkten Einfluss auf die Kaufwahrscheinlichkeit. Personen mit höherem Vertrauen sind eher empfänglich für das Treatment. Wenn Vertrauen durch das Treatment beeinflusst wird (Mediator), nimmt der direkte Effekt von Treatment ab. Wenn Vertrauen ein Confounder ist (nicht durch Treatment beeinflusst, aber mit Treatment und Kaufabsicht assoziiert), dann wird die Schätzung präziser, und der Effekt von Treatment kann sich ändern (höher oder niedriger). Da Vertrauen ein zentraler psychologischer Faktor im Kaufprozess ist, der sowohl mit Treatment als auch mit Kaufverhalten korreliert, wird sich der treatment-Effekt in deinem Modell ziemlich sicher ändern

Sie haben nun gesehen, dass es auch hier einen direkten Effekt des Treatments (transparente Kostenstrukur) auf die Kaufabsicht gibt. Doch um die dahinter liegenden Mechanismen zu verstehen, müssen Sie tiefer in psychologische Prozesse eintauchen. Experiment 2 zeigt dafür ein entsprechendes Design, um zu testen, ob Vertrauen als vermittelnder Mechanismus eine Rolle spielt. Im nächsten Schritt analysieren Sie nun selbst diese Beziehung mit theoretischen Modellen und Regressionsmethoden, um ein Gefühl dafür zu bekommen, wie sich direkte und indirekte Effekte voneinander unterscheiden.

Bevor Sie im nächsten Schritt ein konkretes DAG zu einem psychologischen Mediationsmechanismus erstellen, machen Sie sich zunächst mit den theoretischen Grundlagen von Directed Acyclic Graphs (DAGs) vertraut. DAGs (gerichtete azyklische Graphen) sind ein nützliches Werkzeug in der Kausalanalyse.

Beantworten Sie folgende theoretische Fragen zu DAGs:

Wofür werden DAGs in der empirischen Forschung verwendet?
Nennen und beschreiben Sie zwei zentrale Knotentypen in einem DAG: Confounder und Mediator.
Worin besteht der zentrale Unterschied, ob Vertrauen als Kontrollvariable (Confounder) oder als Mediator behandelt wird - und warum ist Letzteres entscheidend für das Verständnis psychologischer Prozesse im vorliegenden Experiment?

Verwendung von Dags:
In der empirischen Forschung werden Dags vielfältig genutzt um,:
1. Kausale Zusammenhänge zwischen Variablen visuell darzustellen.
2. Über Ursache-Wirkungs-Beziehungen, Hypothesen explizit zu machen.
3. Störfaktoren (Confounder), Mediatoren und Scheinkorrelationen zu identifizieren.
4. Eine fundiertere Planung von statistischen Modellen zu gewährleisten. Beispielsweise welche Variablen kontrolliert oder gemessen werden müssen, um eine unverzerrte Schätzung eines kausalen Effekts zu erhalten.

Knotentypen in einem DAG:
1. Confounder (Störvariable): Der Confounder beinflusst sowohl die unabhängige Variable (X) als auch die abhängige Variable (Y). Wenn er nicht kontrolliert wird, erzeugt er eine Scheinkorrelation zwischen X und Y.
2. Mediator (Vermittlungsvariable): Ein Mediator liegt auf dem kausalen Pfad zwischen unabhängiger (X) und abhängiger Variable (Y). Er liefert uns wie oder warum ein Effekt zustande kommt.

Vertrauen Confounder oder Mediator?:
Wenn Vertrauen als Confounder behandelt wird, bedeutet das: Vertrauen existiert unabhängig von Kostentransparenz, beeinflusst aber sowohl Transparenz als auch Kaufverhalten. In dem Fall würde man Vertrauen kontrollieren, um den direkten Effekt von Transparenz auf Kaufverhalten zu isolieren. Wenn Vertrauen als Mediator behandelt wird (wie im Experiment 2), bedeutet das: Kostentransparenz verursacht Vertrauen, und dieses Vertrauen beeinflusst wiederum die Kaufentscheidung. Vertrauen ist also Teil des Wirkmechanismus. Dies ist wichtig, weil es im Experiment nicht nur darum geht, ob Kostentransparenz wirkt, sondern wie sie wirkt. Vertrauen als Mediator zu modellieren erlaubt es, den psychologischen Mechanismus hinter dem beobachteten Verhalten aufzudecken

Nutzen Sie nun das Directed Acyclic Graph (DAG), um die Beziehungen zwischen den Variablen Treatment (T), Vertrauen (V) und Kaufbereitschaft (K) zu analysieren und den vermuteten Mediationsmechanismus zu untersuchen.

Beschreiben und interpretieren Sie ihr DAG und die Beziehungen zwischen den Variablen. Gehen Sie insbesondere auf folgende Fragen und Aspekte ein:

Begründen und erklären Sie die Struktur und den Aufbau ihres DAGs.
Welche Annahmen müssen getroffen werden, damit Vertrauen tatsächlich als Mediator interpretiert werden kann?
Welche Verzerrungen oder Störfaktoren könnten den Mediator-Effekt von Vertrauen beeinflussen? Wie könnte dies die Ergebnisse verzerren?

Hinweis 1: Für die Erstellung des DAGs können Sie das Paket dagify verwenden. Als Grundlage und Hilfsmittel können Sie die Vorlesungsfolien nutzen.

Hinweis 2: Eine direkte Visualisierung des DAGs in R ist schön, aber keine Pflicht. Sie können das DAG auch in Word/PowerPoint zeichnen und ihre Grafik mittels include_graphics() einfügen.

Der DAG zeigt den klassischen Aufbau einer Mediationsstruktur, hier befindet sich der Mediator Vertrauen (V) in der Mitte zwischen der unabhängigen Variable Treatment (T) und der abhängigen Variable Kaufbereitschaft (K). Die Wirkrichtung der Pfeile geht deshalb von Treatment über Vertrauen zur Kaufbereitschaft, da wir annehmen, dass der Effekt von dem Treatment auf Vertrauen wirkt und so die Kaufbereitschaft beeinflusst wird.

Die Pfade im DAG müssen statistisch signifikant sein, das bedeutet, dass sowohl Treatment mit Vertrauen als auch Vertrauen mit Kaufbereitschaft korrelieren muss.
Eine weitere wichtige Annahme ist die Reihenfolge: Es muss zeitlich zuerst das Treatment auftreten, gefolgt von dem Vertrauen und dann erst die gesteigerte Kaufbereitschaft. Dies ist besonders wichtig, um Rückwärtskausalität auszuschließen.
Als letztes muss noch angenommen werden, dass es keine Scheinzusammenhänge durch mögliche Störvariablen (Confounder) existieren. Diese könnten eine der drei Variablen im DAG beeinflussen; dadurch, dass diese unbeobachteten Faktoren nicht gemessen werden, können sie die Kausalität verzerren.

Der Mediator-Effekt könnte durch mehrere Ursachen beeinflusst werden. Zum einen könnte es einen unbeobachteten Confounder wie Persönlichkeitsmerkmale geben, etwa Risikobereitschaft, die sowohl das Vertrauen beeinflusst als auch die Kaufbereitschaft. Zum anderen könnte ein Messfehler des angenommenen Vertrauens zu einer Unter- oder Überschätzung des Mediationseffekts führen. Zudem sind weitere, nicht erfasste Mediatoren mögliche Störfaktoren für eine Beeinflussung des Mediator-Effekts durch das Treatment mit der Kostentransparenz könnten weitere Effekte auftreten, wie eine wahrgenommene höhere Qualität, welche ebenfalls einen Einfluss auf die Kaufbereitschaft haben kann.

Insgesamt könnten diese Verzerrungen dazu führen, dass der Mediator Effekt von Vertrauen über- oder unterschätzt wird, da andere Faktoren ebenfalls auf die Kaufbereitschaft oder das Vertrauen wirken. Somit könnte fälschlicherweise ein Effekt gemessen werden, der tatsächlich gar nicht stattfindet.

Führen Sie nun eine Regression durch, bei der Ihnen trust (Vertrauen) als abhängige Variable dient. Weiterhin soll ihnen treatment als erklärende Variable dienen. Erstellen sie eine weitere Regression, die zusätzlich noch für die folgenden Variablen kontrolliert: Alter, Einkommensniveau, Bildungsstufe und ob die Personen weiblich sind.

Stellen Sie die Regressionsergebnisse in einer Tabelle mit stargazer oder modelsummary dar!

Beschreiben und interpretieren Sie ihre Ergebnisse. Gehen Sie bei der Interpretation der Ergebnisse insbesondere auf folgende Fragen ein:

Macht es ihrer Ansicht nach Sinn auf die zusätzlichen Variablen in Regression 2 zu kontrollieren? Worauf müssen Sie besonders achten?
Was bedeutet ein signifikanter positiver Koeffizient für treatment in Bezug auf Vertrauen?
Warum ist dieser Pfad (Treatment ➝ Trust) notwendig, damit eine Mediation überhaupt möglich ist?
Überlegen Sie, ob andere Faktoren, die Sie möglicherweise nicht berücksichtigt haben, diesen Zusammenhang ebenfalls erklären könnten.

Vertrauen
	Basismodell	Mit Kontrolle
+ p < 0.1, * p < 0.05, p < 0.01, * p < 0.001
99% Konfidenzintervall
Konstante	4.82***	4.72***
	[4.62, 5.03]	[3.89, 5.54]
Treatment	0.47***	0.45***
	[0.18, 0.76]	[0.16, 0.75]
Alter		0.00
		[-0.01, 0.01]
Einkommen		-0.02
		[-0.08, 0.04]
Bildung		0.06
		[-0.12, 0.23]
Geschlecht (weiblich)		0.18
		[-0.12, 0.47]
Num.Obs.	601	601

Beschreibung:
Die Grafik zeigt zwei Regressionen auf die abhängige Variable Vertrauen. In der Spalte des Basismodells wird nur auf Treatment kontrolliert, während in der Kontrollspalte zusätzlich auf die Variablen Alter, Einkommen, Bildung und Geschlecht (weiblich) kontrolliert wird. Beide Regressionen enthalten 601 Beobachtungen aus dem Experiment und es werden die Koeffizienten aus der Regression auf dem 99% Konfidenzintervall geprüft, dieses wird in Klammern unter den jeweiligen Koeffizienten angezeigt. Hier zeigt sich, dass alle zusätzlichen Koeffizienten der zweiten Regression auf dem 99% Konfidenzintervall nicht signifikant von Null verschieden sind, da diese Intervalle die 0 enthalten.

Interpretation:
Die Regression mit dem Basismodell zeigt, dass bei Teilnehmern das Treatment durchschnittlich mit einem um 0,47 Einheiten höheren Vertrauen in Verbindung gebracht wird, dieser Wert auf dem 99% Niveau signifikant. Dagegen zeigt die Kontrollregression, dass Teilnehmer der Treatmentgruppe mit einem im Durchschnitt um 0,45 Einheiten höheren Vertrauen in Verbindung gebracht werden können, dieser Effekt ist ebenfalls auf dem 99% Niveau signifikant. Der Effekt von Treatment wurde in der zweiten Regression kleiner, da ein Teil der Varianz nun durch die Kontrollvariablen erklärt wird, diese Abweichung ist jedoch nur sehr gering. Prinzipiell ist es sinnvoll auf zusätzliche Variablen zu kontrollieren, um Unterschiede der Gruppen auszuschließen. Besonders bei kleinen Stichproben kann dies die Präzision erhöhen. Doch durch die bereits erwähnte Randomisierung der Gruppen und das Balancing (Aufgabe 8) sind die Gruppen im Durchschnitt vergleichbar, dadurch haben die zusätzlichen Variablen einen geringen Einfluss auf die Regression. Zudem sollte man darauf achten keine Variablen zu verwenden, die durch das Treatment beeinflusst werden, da es dann zu Verzerrungen in der Regression kommen kann.
Ein signifikanter positiver Effekt von Treatment auf Vertrauen bedeutet, dass sich durch die Kostentransparenz (Treatment) Teilnehmer im Durchschnitt ein höheres Vertrauen zu dem Unternehmen angeben. Das spricht dafür, dass Kostentransparenz tatsächlich einen positiven Einfluss auf das Vertrauen in das Unternehmen hat. Die Überprüfung der Relevanz von Treatment auf Trust ist notwendig, weil nur dann das Treatment über Vertrauen auf die Kaufbereitschaft wirken kann. Wenn dieser Zusammenhang nicht gegeben ist, kann Vertrauen nicht als Mediator (vermittelnde Variable) zwischen Treatment und Kaufbereitschaft verwendet werden.
Ein möglicher Faktor, der noch unbeobachtet ist, könnte die Vorerfahrung mit dieser Marke sein. Durch bereits getätigte Käufe könnte bereits ein Grundvertrauen in diese Marke entstanden sein. Dadurch könnte der Effekt von Treatment auf das Vertrauen über- oder unterschätzt werden.

Nachdem Sie nun den Effekt des Treatments auf das Vertrauen geschätzt und ausgewertet haben, sollen Sie nun testen, ob das Vertrauen als Mediator zwischen Treatment und Kaufabsicht wirkt.

Führen Sie eine Regression durch, bei der Ihnen die Kaufbereitschaft als abhängige Variable dient. Weiterhin sollen die erklärende Variablen nun treatment, sowie das Vertrauen (trust) umfassen. Erstellen sie eine weitere Regression, die zusätzlich noch auf Alter, Einkommensniveau, Bildungsstufe und ob die Personen weiblich sind, kontrolliert.

Stellen Sie die Regressionsergebnisse passend in einer Tabelle dar!

Beschreiben und interpretieren Sie ihre Ergebnisse. Gehen Sie bei der Interpretation der Ergebnisse insbesondere auf folgende Fragen ein:

Was könnten Ihrer Ansicht nach Gründe sein, dass treatment jetzt nicht mehr signifkant ist? Woran könnt das im Detail liegen?
Warum ist es wichtig, trust und treatment gemeinsam in einem Modell zu betrachten?
Warum könnte trust eine “notwendige Bedingung” sein, damit Transparenz der Kostenstruktur zu höherer Kaufbereitschaft führt?

Kaufbereitschaft
	Basismodell	Mit Kontrolle
+ p < 0.1, * p < 0.05, p < 0.01, * p < 0.001
99% Konfidenzintervall
Konstante	-0.18	-0.15
	[-0.85, 0.50]	[-1.33, 1.03]
Treatment	0.15	0.13
	[-0.21, 0.51]	[-0.23, 0.49]
Vertrauen	0.81***	0.82***
	[0.68, 0.94]	[0.69, 0.95]
Alter		-0.01*
		[-0.03, 0.00]
Einkommen		0.04
		[-0.04, 0.12]
Bildung		0.05
		[-0.16, 0.27]
Geschlecht (weiblich)		-0.15
		[-0.51, 0.21]
Num.Obs.	601	601

Beschreibung:
Diese Grafik stellt zwei Regressionen gegenüber einmal die Regression von Treatment und Vertrauen auf Kaufbereitschaft und In der zweiten Regression wurden zusätzlich vier Kontrollvariablen (Alter, Einkommen, Bildung , Geschlecht (weiblich)) aufgenommen, welche ebenfalls auf die Kaufbereitschaft regressiert werden. Beide Regressionen basieren auf 601 Beobachtungen.
Unter den Regressionskoeffizienten ist jeweils das 99%-Konfidenzintervall angegeben. Enthält dieses Intervall die Null, können wir nicht ausschließen, dass der jeweilige Wert nicht systematisch von Null verschieden ist, also der Effekt statistisch nicht signifikant ist.
Auffällig ist, dass der einzige signifikante Prädiktor in beiden Regressionen das Vertrauen ist. Durch das Hinzufügen der Kontrollvariablen ergeben sich ansonsten nur geringe Unterschiede. Der Koeffizient für Treatment verändert sich von 0,15 auf 0,13, und der Koeffizient für Vertrauen von 0,81 auf 0,82. Hier könnte der minimale Unterschied auf Rundung zurückzuführen sein.

Interpretation:
Die Konstante beider Regressionen ist nicht signifikant. Da die Konstante einen Wert angibt, bei dem alle Koeffizienten 0 wären, ist dies jedoch nur ein theoretischer Wert ohne praktische Bedeutung. Zwar kann Treatment den Wert Null annehmen (bei der Kontrollgruppe), aber Vertrauen läuft auf einer Skala von 1 bis 7 und kann somit nie Null annehmen.
Der Koeffizient für Treatment ist sowohl im Basismodell als auch im Kontrollmodell statistisch nicht signifikant auf dem 99%-Konfidenzintervall. Hieraus lässt sich ableiten, dass die Behandlung (Treatment) keinen direkten Einfluss auf die Kaufbereitschaft hat. Im Vergleich zu früheren Analysen (Aufgabe 12), in denen nur Treatment betrachtet wurde, ist der Effekt jetzt verschwunden. Durch das Kontrollieren für Vertrauen ist in dieser Regression nun Vertrauen signifikant und hat einen starken Einfluss auf die Kaufbereitschaft. Jeder zusätzliche Punkt Vertrauen korreliert durchschnittlich mit einer um 0,81 Einheiten höheren Kaufbereitschaft.
Durch das Aufnehmen von Vertrauen als Mediator wird deutlich, dass der Einfluss von Treatment auf die Kaufbereitschaft über das Vertrauen vermittelt wird. Dies bestätigt unsere Annahme, dass es sich bei Vertrauen um einen Mediator handelt: Treatment beeinflusst das Vertrauen und das Vertrauen beeinflusst wiederum die Kaufbereitschaft.
Es ist wichtig, diese beiden Variablen in die Regression aufzunehmen, um den Mediator-Effekt zu untersuchen. So kann geprüft werden, ob der Effekt von Treatment auf Kaufbereitschaft direkt ist oder durch Vertrauen vermittelt wird. Durch die gemeinsame Betrachtung lässt sich der direkte Effekt und der indirekte Effekt von Treatment auf die Kaufbereitschaft unterscheiden.
Vertrauen könnte notwendig sein, weil sich der Einfluss der Kostentransparenz auf eine höhere Kaufbereitschaft nur dann zeigt, wenn auch das Vertrauen steigt. Ohne den Einfluss von Vertrauen auf die Kaufbereitschaft zu messen, gibt es keinen nachweisbaren Einfluss von Treatment auf Kaufbereitschaft. Die Kostentransparenz wirkt also ausschließlich über das Vertrauen.

Alle zusätzlichen Variablen (Alter, Einkommen, Bildung , Geschlecht (weiblich)) haben kaum einen Einfluss auf die Kaufbereitschaft, außer das weibliche Geschlecht mit -0,15. Da aber alle zusätzlichen Variablen statistisch nicht signifikant sind, können diese Werte nur mit großer Unsicherheit betrachtet werden. Dies spricht dafür, dass in dem Experiment Vertrauen der entscheidende Faktor ist und andere persönliche Merkmale eine untergeordnete Rolle spielen.

Die Regression zeigt, dass die Kostentransparenz vollständig über das Vertrauen auf die Kaufbereitschaft wirkt durch das Hinzufügen von Vertrauen verschwindet der Einfluss von Treatment auf die Kaufbereitschaft. Trotz der klaren Korrelation von Vertrauen könnten möglich Störfaktoren zu einer Über oder Unterschätzung des tatsächlichen Zusammenhangs führen.

In den vorangegangenen Modellen wurde untersucht, ob das Treatment (Kostentransparenz) das Vertrauen in das Unternehmen beeinflusst und ob Vertrauen wiederum mit der Kaufabsicht zusammenhängt.

Bewerten Sie das experimentelle Design der Studie 2. Gehen Sie dabei auch darauf ein, inwiefern Ihre Ergebnisse aus Aufgabe 13 bis 16 das theoretische Verständnis von Vertrauensbildung in der Konsumentenpsychologie bestätigt oder infrage stellt. Welche Stärken und Schwächen sehen Sie bezüglich der internen Validität und der Kausalitätsaussagen? Diskutieren Sie zudem kurz, inwiefern die Ergebnisse auf andere Bevölkerungsgruppen oder kulturelle Kontexte übertragbar sind.

Hinweis: Informationen zum Verständnis der Vertrauensbildung in der Konsumentenpsychologie können Sie in dem folgenden Artikel auf Seite 2 bis 5 nachlesen.

Studiendesign Bewertung:
Durch eine Randomisierung der Teilnehmer wurden diese zufällig der Treatment- oder Kontrollgruppe zugewiesen, was die interne Validität erhöht. Da der Effekt der Kostentransparenz klarer auf das Treatment zurückgeführt werden kann, da sich die Kontroll- mit der Treatmentgruppe vergleichen lässt. Zudem wurde auch ein Balancing der Gruppen durchgeführt, das bestätigte, dass eine sehr gute Randomisierung der Gruppen stattgefunden hat und somit systematische Unterschiede der Gruppen ausgeschlossen werden konnten. Diese beiden Punkte zeigen bereits eine hohe interne Validität. Die Messung und Erfassung erfolgte direkt nach dem Experiment, sodass der Effekt durch das Treatment unmittelbar erfasst werden konnte. Dies ist ebenfalls wichtig, um den eigentlichen Effekt durch das Experiment nicht zu verzerren.
Die Ergebnisse aus den Aufgaben 13 bis 16 bestätigen die Annahmen aus der Konsumentenpsychologie deutlich. Die Analyse des Experiments zeigt, dass sich die Kaufbereitschaft durch das Vertrauen signifikant erhöht. Der Effekt von Kostentransparenz auf die Kaufbereitschaft verschwindet, sobald Vertrauen in die Regression aufgenommen wird; dies bestätigt unsere Annahme, dass Vertrauen als Mediator zwischen den beiden Variablen wirkt. Dies bestätigt auch die Ergebnisse aus der Literatur, dass Vertrauen die Unsicherheit reduziert und die Basis für nachhaltige Kundenbindung ist.
Doch die Konsumentenpsychologie zeigt, dass zusätzliche Faktoren, die ebenfalls das Vertrauen positiv beeinflussen, wie Verlässlichkeit, Sicherheit , persönliche Erfahrung und Empfehlungen, nicht erfasst wurden.
Besonders gut ist, wie schon erwähnt, die Randomisierung in Treatment- und Kontrollgruppe. Zudem ist auch die hohe Datenqualität hervorzuheben, da nahezu alle Variablen vollständig sind. Dies spricht ebenfalls für die Robustheit der Ergebnisse.
Trotzdem könnte es weitere unbeachtete Störfaktoren geben, gerade da sich das Vertrauen laut der Literatur aus mehreren Bestandteilen zusammensetzt. Hier können beispielsweise die bisherige persönliche Erfahrung auf das Vertrauen einwirken und die Ergebnisse unbemerkt beeinflussen. Zudem sollte die Selbstauskunft der Teilnehmer kritisch betrachtet werden, da es bei Skalen mit einer Mittelkategorie häufig zu Antwortverzerrungen kommt, insbesondere durch eine Tendenz, mittlere Werte anzugeben, anstatt die Extrempunkte zu wählen.

Insgesamt lassen sich die Ergebnisse nur eingeschränkt auf andere Bevölkerungsgruppen übertragen, da die untersuchte Gruppe aus US-Amerikanern bestand. Es wurde bereits eine selektive Auswahl getroffen. In anderen Ländern können die großen kulturellen Unterschiede zu ganz anderen Ergebnissen führen, vor allem durch die unterschiedlichen Normen und Werte der Gesellschaften. Hier könnten weniger Online-Erfahrung oder generelles Misstrauen gegenüber Unternehmen den Einfluss der Kostentransparenz verringern. Doch in Gesellschaften, in denen Transparenz als besonders wichtig gilt, könnten die Effekte sogar stärker ausfallen. Zudem wurde die Studie in einer kontrollierten Umgebung durchgeführt, welche nur schwer die realen Bedingungen einer Kaufentscheidung abbilden kann. Hier könnten weitere ausführliche Studien wie Feldexperimente oder Experimente in anderen Kulturen zu weiteren Erkenntnissen führen.
Zusammenfassend zeigen die Erkenntnisse wertvolle Hinweise zum Zusammenhang zwischen Vertrauen und Kaufbereitschaft, doch es kann keine generelle Aussage, vor allem über Kulturen hinweg, getroffen werden, da die Daten dazu zu begrenzt sind.

Zusatzaufgabe

Zu Beginn des Projektes hatten wir erwähnt, dass die Experimente, welche im Projekt durchgeführt wurden, auf Grund eines Missgeschicks in der Online-Darstellung von unterschiedlichen Produkten zustande kam. Hier wurden von einem privat geführten Online-Händler Geldbörsen in fünf Farbvarianten angeboten, wobei beabsichtigt war, allen Farben eine einheitliche Kostentransparenz-Infografik zuzuordnen. Aufgrund eines Versehens wurde die Infografik jedoch nur bei drei Farben implementiert. Dieses zufällige Ereignis führte zu einer klaren Trennung zwischen den Produkten mit dieser und ohne diese Infografik. Das dadurch entstandene natürliche Experiment sollen Sie sich in der Zusatzaufgabe näher anschauen.

Lesen Sie sich den nachfolgenden Text zum Aufbau des natürlichen Experiments innerhalb dieses Papers durch und beantworten anschließend nachfolgende Fragen:

On December 2, 2013, a privately held online retailer launched a holiday gift shop with a single email to its mailing list, promoting a leather wallet offered in five colors (burgundy, black, grey, bone, and tan) and priced at $115.00. Later, at the end of January, to boost post-holiday sales, the retailer decided to add a cost transparency infographic to the online product detail pages for each of the wallet’s five color combinations. The retailer’s intention was to use the same infographic for all wallets since they differed only in color.

However, due to an inadvertent mistake, the infographic was not introduced for two of the wallet colors (bone and tan). Consequently, the cost transparency information was implemented for only three of the five wallet colors (burgundy, black, and grey) over a period of five weeks. This error created a natural experiment, enabling us to test the impact of cost transparency on wallet sales.

Therefore we have the following procedure:

Operationalization of Cost Transparency: The infographic presented the total cost to produce the wallet, breaking it down into its specific components, namely: leather (14.68 US-Dollar), construction (38.56 US-Dollar), duties (4.26 US-Dollar), and transportation (1.00 US-Dollar). In addition, it included benchmark information indicating that the wallet had a 1.9x markup, in contrast to a 6x markup charged by a competitor. Because wallet colors serve as the basis for treatment assignment, the natural experiment compares “cost transparent” wallets (burgundy, black, and grey) to “non-transparent” wallets (bone and tan).
Identification Strategy: We use a difference-in-differences approach to compare the daily sales between the treatment (cost transparency) and control (no cost transparency) groups before versus after the introduction of the infographic. By doing so, the design isolates the causal effect of cost transparency on the daily count of wallets sold for each color.
Control Variables: Given that the cost transparency treatment was implemented by wallet color, and with only five available colors, it was necessary to control for potential confounders. For instance, we include a proxy for time-varying color popularity - the number of page views each wallet color received - and a proxy for time-varying inventory levels.

Beantworten Sie nun die folgenden Fragen in Bezug auf den vorherigen Text:

Wie ist das natürliche Experiment aufgebaut, und warum wird es als solches klassifiziert?
Welche Rolle spielt das zufällige Versäumnis, die Infografik bei zwei der fünf Farbvarianten einzuführen, in der Experimentstruktur?
Warum ist es notwendig, Variablen wie Seitenaufrufe und Lagerbestandsproxies in die Analyse einzubeziehen?
Welche potenziellen Verzerrungen könnten auftreten, wenn diese Kontrollvariablen nicht berücksichtigt werden?

1.: Durch ein operatives Versehen des Online-Händlers, entstand das natürliche Experiment ganz ungeplant. Die Infografik zur Kostentransparenz wurde nur bei drei von fünf Farbvarianten eines Lederportemonnaies eingeführt. Die Forscher nutzten diesen Umstand, um die Wirkung von Kostentransparenz auf das Kaufverhalten zu untersuchen, ohne dass bewusst Teilnehmer bestimmten Gruppen zugewiesen wurden. Es wird als natürliches Experiment klassifiziert, da die Zuordnung zur Treatment- oder Kontrollgruppe nicht durch die Forscher, sondern durch äußere Umstände erfolgte. Trotzdem besteht eine klare Vergleichsstruktur zwischen den Gruppen und es bietet eine realitätsnahe Datengrundlage mit kontrollierbaren Unterschieden.

2.: Das zufällige Versäumnis ist ein zentraler Aspekt im Experiment. Es führte zur ungeplanten Variation in der Kostentransparenz, wodurch ein quasi-randomisierter Vergleich zwischen den drei Farben mit Infografik (Treatment) und den zwei Farben ohne Infografik (Kontrolle) durchgeführt werden.

3.: Da die Zuordnung zur Treatment- und Kontrollgruppe auf Farbebene erfolgte und die Farben nicht identisch in ihrer Beliebtheit oder Verfügbarkeit sein könnten, müssen diese Unterschiede kontrolliert werden, um verzerrte Effekte zu vermeiden. Wenn bestimmte Farben schneller ausverkauft waren, könnten niedrigere Verkaufszahlen nicht mit fehlender Transparenz, sondern mit fehlender Verfügbarkeit zusammenhängen (Lagerbestandproxies). Seitenaufrufe dienen als Indikator für das Kundeninteresse an einer bestimmten Farbe.

4: Wenn Seitenaufrufe und Lagerbestände nicht berücksichtigt würden, könnten folgende Verzerrungen entstehen:
1. Scheinkorrelation: Höhere Verkäufe könnten fälschlich der Infografik zugeschrieben werden, obwohl sie durch höhere Popularität oder Sichtbarkeit bedingt sind.
2. Unterschätzung oder Überschätzung des Effekts der Kostentransparenz

Lesen Sie weiterhin das Kapitel “Difference-in-Differences” in Huntington-Klein (2021), speziell Kapitel 18.1 und 18.2 und beantworten Sie die folgenden Fragen dazu:

Kann eine Difference-in-Differences-Regression helfen, den kausalen Effekt der Kostentransparenz auf die Verkaufszahlen zu identifizieren?

Gehen Sie bei der Beantwortung dieser Frage insbesondere auf die nachfolgenden Punkte ein:

Welche Art von Variation nutzt eine DiD-Regression in diesem Fall zur Identifikation des Effekts?
Welche Voraussetzung(en) müssen erfüllt sein, damit DiD eine gültige Kausalschätzung liefert?
- Was bedeutet die „Parallel Trends“-Annahme in diesem Kontext?
- Warum reicht es nicht aus, nur zu vergleichen, wie sich die Verkaufszahlen nach der Einführung verändert haben?
Basierend auf dem Kontext des Buchkapitels zu Difference-in-Differences (DiD) und den Informationen aus Aufgabe 18, formulieren Sie bitte die Regressionsgleichung, mit der der Effekt der Kostentransparenzmaßnahme mithilfe eines DiD-Ansatzes untersucht werden kann.
- Definieren Sie dabei klar alle verwendeten Variablen.
- Stellen Sie die Regressionsgleichung in mathematischer Form dar.
- Beschreiben und erklären Sie das von Ihnen aufgestellte Modell.

Art der Variation:
Die DiD-Regression nutzt zeitliche und gruppenbasierte Variation. Zeitliche Variation: Vorher–Nachher-Vergleich also vor und nach Einführung der Infografik zur Kostentransparenz. Gruppenbasierte Variation: Vergleich zwischen Treatment-Gruppe (Farben mit Infografik: burgundy, black, grey) und Kontrollgruppe (Farben ohne Infografik).

Vorraussetzungen für eine gültige Kausalschätzung:
Damit DiD eine valide kausale Schätzung liefert, muss die sogenannte Parallel-Trends-Annahme gelten. Wenn keine Kostentransparenz eingeführt worden wäre, hätten sich die Verkaufszahlen der drei behandelten Farben (burgundy, black, grey) im gleichen Trend wie die der beiden unbehandelten Farben (bone, tan) weiterentwickelt.

Warum kein einfacher Vorher-Nachher-Vergleich reicht:
Ein einfacher Vorher-Nachher-Vergleich (z.B. nur die Verkaufszahlen vor und nach der Infografik) kontrolliert nicht für generelle Trends, wie z.B.:
Saisonale Schwankungen nach den Feiertagen
Allgemeiner Rückgang oder Anstieg des Kundeninteresses
Änderungen im Marketing oder Lagerbestand
Ohne Vergleichsgruppe würden diese Effekte fälschlich der Infografik zugeschrieben.

Regressionsgleichung:
y: tägliche Verkaufszahl (abhängige Variable)
treat: 1 = Farbe mit Infografik (Behandlung), 0 = ohne
post: 1 = Zeitpunkt nach Einführung der Infografik, 0 = davor
treat_post: Interaktion treat * post
pageviews: Seitenaufrufe pro Farbe pro Tag (Kontrollvariable)
inventory: Lagerbestand pro Farbe pro Tag (Kontrollvariable)

y ~ treat + post + treat_post + pageviews + inventory

treat: misst Gruppenunterschiede vor der Maßnahme
post: misst allgemeine Zeittrends
treat_post: misst den DiD-Effekt, also den kausalen Effekt der Infografik
pageviews und inventory: kontrollieren für Unterschiede in Sichtbarkeit und Verfügbarkeit

Zum Abschluss des Projekts sollen Sie sich das oben beschriebene natürliche Experiment genauer anschauen. Lesen Sie hierzu die Daten (Experiment3.csv) in R ein. Nennen Sie den Datensatz daten_exp3. Erstellen Sie eine Variable log_units, die die logarithmierte Anzahl an verkauften Einheiten darstellt.

Erstellen Sie weiterhin eine passende Grafik, die die durchschnittliche Anzahl der verkauften Produkte je Treatment pro Woche abbildet. Fügen Sie weiterhin eine vertikale Linie für den 28. Januar 2014 in ihre Grafik ein, welche die Einführung der Kostentransparenz markiert.

Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie insbesondere auf die Entwicklung der durchschnittlichen Verkaufszahlen in beiden Gruppen vor und nach dem 28. Januar ein. Gibt es visuelle Hinweise auf eine Wirkung der Kostentransparenz?

Angenommen, beide Gruppen (Treatment und Kontrolle) zeigen vor der Einführung der Kostentransparenz einen gleich starken Anstieg der durchschnittlich verkauften Einheiten. Was würde das für die Interpretation der Maßnahme im Rahmen eines Difference-in-Differences-Ansatzes bedeuten?

Hinweis: Für die Ableitung der Wochen aus dem Datumsformat kann die Funktion isoweek() aus dem Paket lubridate verwendet werden.

Beschreibung:
Die Grafik zeigt die durchschnittlich verkauften Produkte pro Woche (y-Achse) im Zeitraum von Dezember 2013 bis März 2014 (x-Achse). Es werden zwei Gruppen dargestellt. Treatment-Gruppe (rot), Farben der Geldbörse, bei denen die Infografik zur Kostentransparenz eingeführt wurde und Kontrollgruppe (blau), Farben ohne Infografik. Die vertikale, gestrichelte Linie markiert den 28. Januar 2014, also den Zeitpunkt, an dem die Kostentransparenz eingeführt wurde. Die Höhe der Balken zeigt die durchschnittlich pro Woche verkauften Einheiten je Gruppe.

Interpretation:
Vor dem 28. Januar 2014, verkaufte die Treatment-Gruppe im Durchschnitt leicht mehr Produkte pro Woche als die Kontrollgruppe. Die Verkaufszahlen beider Gruppen bewegen sich relativ parallel, es gibt keine großen Unterschiede im Trend. Nach dem 28. Januar 2014, stiegen die Verkaufszahlen der Treatment-Gruppe deutlich an. Die Kontrollgruppe bleibt relativ stabil oder zeigt leicht rückläufige Tendenzen. Dieser Unterschied wird nach der Einführung der Kostentransparenz immer deutlicher.

Die Grafik deutet darauf hin, dass die Einführung der Kostentransparenz zu einem deutlichen Anstieg der durchschnittlichen Verkaufszahlen in der Treatment-Gruppe geführt hat, während die Kontrollgruppe keinen vergleichbaren Anstieg zeigt.

Ein gleich starker Anstieg vor dem 28. Januar 2014 würde bedeuten, dass die sogenannte Parallel-Trends-Annahme erfüllt ist. Das ist entscheidend für die Gültigkeit eines Difference-in-Differences (DiD)-Ansatzes. Wenn beide Gruppen vor der Maßnahme gleich verliefen, dann kann man davon ausgehen, dass alle anderen Faktoren (wie Saison, Nachfrage, etc.) beide Gruppen gleich betreffen.

Erstellen Sie eine (mehrere) weitere passende Grafik(en), die die durchschnittlich verkauften Einheiten pro Tag in Treatment und Kontrolle vor und nach der Einführung der Kostentransparenz abbildet. Ergänzen Sie in ihrer Grafik die jeweiligen Standardfehler als Fehlerbalken. Beschreiben und interpretieren Sie ihre Grafik. Gehen Sie insbesondere auf die Unterschiede vor und nach der Einführung der Kostentransparenz ein.

Inwiefern lassen sich daraus erste Hinweise auf einen möglichen Effekt des natürlichen Experiments erkennen?

Hinweis: Für die Erstellung der Grafik können Sie sich an Aufgabe 7 und 9 orientieren.

Beschreibung:
Die beiden Grafiken zeigen die durchschnittlich verkauften Einheiten in der Kontrollgruppe und der Treatmentgruppe jeweils vorher und nachher der Einführung der Kostentransparenz.

In der vorherigen Aufgabe haben Sie den Effekt von Kostentransparenz auf die Verkaufszahlen anhand eines deskriptiven Vergleichs untersucht. Dabei haben Sie die durchschnittlich täglich verkauften Einheiten je Treatment vor und nach der Einführung der Transparenzmaßnahme grafisch gegenübergestellt. In dieser Aufgabe sollen Sie diesen Effekt nun ökonometrisch genauer untersuchen, indem Sie den Difference-in-Differences Ansatz in einem Regressionsrahmen anwenden.

Untersuchen Sie den Effekt der Einführung von Kostentransparenz auf die Verkaufszahlen mithilfe einer Difference-in-Differences Regression. Verwenden Sie hierfür Beobachtungen an Werktagen, sowie am Wochenende (Montag bis Sonntag), mit positiven Verkaufszahlen.

Erstellen Sie insgesamt zwei Regressionsmodelle:

Basismodell ohne Kontrollvariablen
Modell mit Kontrolle für Wochentagseffekte

Stellen Sie die Ergebnisse anschaulich dar. Beschreiben und interpretieren Sie Ihre Ergebnisse. Gehen Sie insbesondere auf folgende Aspekte ein.

Wie würden Sie die Größe des Effekts interpretieren, den Sie für treated:post erhalten haben?
Welche Vorteile bringt es, log_units (logarithmierte Verkäufe) als abhängige Variable zu verwenden?
Können Sie aus Ihrer Schätzung auf einen kausalen Effekt der Kostentransparenz schließen?
Inwiefern hilft die Kontrolle für Wochentage dabei, Verzerrungen in der Schätzung zu vermeiden?
Würden Sie auf Basis Ihrer Analyse eine Empfehlung zur Beibehaltung oder Ausweitung der Kostentransparenz geben?
Worin könnten ihrer Ansicht nach Probleme liegen bei der Betrachtung eines natürlichen Experiments, die die Ergebnisse verzerren könnten?

Hinweis 1: Nutzen Sie für die Schätzung die feols()-Funktion aus dem fixest-Paket.

Hinweis 2: Nutzen Sie die logarithmierten täglichen Verkaufszahlen als abhängige Variable.

log(Verkaufszahlen)
	Basismodell	Mit Kontrolle
+ p < 0.1, * p < 0.05, p < 0.01, * p < 0.001
95% Konfidenzintervall
Konstante	1.28***
	[1.19, 1.38]
Treatment	0.11+	0.11
	[-0.02, 0.23]	[-0.07, 0.29]
Transparenzmaßnahme	0.07	0.06
	[-0.09, 0.22]	[-0.16, 0.29]
Treatment:Transparenzmaßnahme	0.18+	0.18
	[-0.01, 0.38]	[-0.05, 0.42]
Num.Obs.	470	470
Std.Errors	IID	by: tag

Beschreibung:
Die Tabelle zeigt zwei Regressionsmodelle mit der abhängigen Variable log(Verkaufszahlen), Basismodell (ohne Kontrollvariablen) und Mit Kontrolle (für Wochentagseffekte). Konfidenzintervalle (95%) sind der DiD-Koeffizient (Basismodell): [-0.01, 0.38] und DiD-Koeffizient (Mit Kontrolle): [-0.05, 0.42].

Interpretation:
Der Koeffizient für treated:post (also die Interaktion zwischen Treatment-Gruppe und Zeitraum nach Einführung der Kostentransparenz) liegt in beiden Modellen bei 0.18. Da die abhängige Variable logarithmiert ist, entspricht das einem ungefähren Anstieg der Verkaufszahlen um 18–20 % nach der Einführung der Transparenzmaßnahme für die Treatment-Gruppe im Vergleich zur Kontrollgruppe. Dieser Effekt ist nur schwach signifikant (p < 0.1), das 95%-Konfidenzintervall enthält den Wert 0, was auf eine Unsicherheit der Schätzung hinweist.

Die Verwendung von log_units (logarithmierte Verkaufszahlen) bringt mehrere Vorteile: Regressionskoeffizienten lassen sich als prozentuale Änderungen interpretieren. Reduktion von Verzerrungen,die Log-Transformation reduziert Heteroskedastizität (also ungleiche Streuung der Fehler), was die Effizienz der Schätzung erhöht. Extreme Verkaufsschwankungen werden abgefedert, was robuste Ergebnisse ermöglicht.

Kann ein kausaler Effekt der Kostentransparenz abgeleitet werden?
Grundsätzlich ja, aber unter strengen Annahmen. Parallel Trends Annahme, die Kontroll und Treatment Gruppe hätten sich ohne Intervention gleich entwickelt. Keine weiteren gleichzeitigen Änderungen, die nur eine Gruppe betreffen (z.B. Werbeaktionen, Preisänderungen).Die Zuweisung zur Treatment-Gruppe darf nicht mit Verkaufsdynamik korrelieren. Da der Effekt nur schwach signifikant ist und die Konfidenzintervalle 0 enthalten, ist Vorsicht geboten bei der kausalen Interpretation.

Nutzen der Kontrolle für Wochentagseffekte
Verkäufe können sich systematisch nach Wochentagen unterscheiden. Die Kontrolle hilft dabei, exogene Schwankungen zu isolieren und den eigentlichen Effekt der Maßnahme sauberer zu identifizieren.

Empfehlung:
Beibehaltung der Maßnahme, weitere Daten sammeln um statistische Unsicherheit zu erhöhen.

Probleme bei natürlichen Experimenten
Selektionsverzerrung, wenn Zuordnung zur Treatmentgruppe nicht zufällig eefolgt. Messfehler insbesondere an Wochentagen oder bei Systemfehlern, Spill Over Effekte, wobei Kunden der Kontrollgruppe von den Maßnahmen der Treatmentgruppe beinflusst werden können.

Literatur

Mohan, B., Buell, R. W., & John, L. K. (2020). Lifting the veil: The benefits of cost transparency. Marketing Science, 39(6), 1105-1121. https://doi.org/10.1287/mksc.2019.1200

Anhang

Mediator

Im Rahmen von Mediationen ist der Mediator eine Variable, die den erklärenden Zusammenhang zwischen einer unabhängigen und einer abhängigen Variable vermittelt. Dabei wird untersucht, inwieweit der Einfluss der unabhängigen Variablen (z.B. Kostentransparenz) auf die abhängige Variable (z.B. Kaufabsicht) über einen vermittelnden Mechanismus - wie das Vertrauen der Kunden - erfolgt.

Mediatoreffekt: Der Mediatoren-Effekt, oft als ACME (Average Causal Mediation Effect) bezeichnet, beschreibt den indirekten Effekt, den die unabhängige Variable auf die abhängige Variable über den Mediator ausübt. Ist dieser Effekt signifikant, signalisiert dies, dass ein wesentlicher Teil des gesamten Einflusses über den vermittelnden Mechanismus läuft. Gleichzeitig kann ein nicht-signifikanter direkter Effekt (ADE - Average Direct Effect) darauf hindeuten, dass der Mediator den hauptsächlichen Erklärungsmechanismus darstellt.
Funktion und Wirkung des Mediators: Analog zum Konzept der signalgebenden Funktion bei Statussymbolen - deren Wert unter anderem von der Exklusivität und dem sozialen Kontext abhängt - fungiert der Mediator als vermittelnder Kanal, der erklärt, wie und warum der ursprüngliche Zusammenhang zwischen zwei Variablen zustande kommt. Der Mediator „überträgt“ quasi den Effekt der unabhängigen Variable auf die abhängige Variable. Dadurch kann in Modellen, in denen der direkte Zusammenhang zwischen der unabhängigen und der abhängigen Variable durch die Einbeziehung des Mediators verschwindet oder abgeschwächt wird, abgeleitet werden, dass der Mechanismus über den Mediator läuft. Dies ermöglicht ein tieferes Verständnis der zugrundeliegenden psychologischen Prozesse - etwa wie das Vertrauen der Kunden die Wirkung von Kostentransparenz auf deren Kaufabsicht vermittelt.

Zusammengefasst spielt der Mediator eine zentrale Rolle bei der Aufklärung der kausalen Mechanismen, indem er als vermittelnder Faktor zwischen Ursache und Wirkung identifiziert wird. Die signifikante Vermittlung über den Mediator zeigt, dass nicht allein das Vorhandensein von Kostentransparenz entscheidend ist, sondern auch, inwiefern diese Transparenz das Vertrauen stärkt - was wiederum maßgeblich die Kaufabsicht beeinflusst. So liefert die Mediationsanalyse wertvolle Einsichten, die über einfache bivariate Zusammenhänge hinausgehen und die Komplexität kausaler Mechanismen innerhalb von sozialen oder marktorientierten Prozessen sichtbar machen.

Informationen zum Studiendesign des Experiments 1 und 2

Abbildung 1: Kostentransparenz Infografik

Abbildung 2: Design der Schokoladenverpackung ohne und mit Kostentransparenz

Kostenoffenlegung als Wettbewerbsvorteil

Chancen und Potenziale der Kostentransparenz

Motivation

Aufbau der Studie

Daten

Datenimport und -aufbereitung

Deskriptive Analyse

Tabelle

Regressionsanalyse

Zusatzaufgabe

Literatur

Anhang

Mediator

Informationen zum Studiendesign des Experiments 1 und 2