Einer der wichtigsten parametrischen statistischen Tests ist der Student's t-Test (kurz: t-Test). Im Fokus dieses Artikels steht der sog. Zweistichproben-t-test für abhängige Stichproben (auch: gepaarter t-Test, engl.: paired two-sampe t-test), welcher anhand zweier abhängiger Stichproben prüft, ob sich die Mittelwerte der zugehörigen Grundgesamtheiten unterscheiden. Der Zweistichproben-t-test für unabhängige Stichproben (auch: ungepaarter t-test, engl.: unpaired two-sampe t-test) wird dagegen beim Mittelwertvergleich von unabhängigen Stichproben verwendet.
Sie benötigen beratende Hilfe bei Ihrer statistischen Auswertung in R oder möchten eine komplette R Auswertung inkl. Interpretationen bestellen, dann zögern Sie nicht uns zu kontaktieren (Kontaktdaten unten rechts). Unsere Experten helfen Ihnen gerne weiter (kostenloses unverbindliches Erstgespräch)!
Liegen abhängige bzw. verbundene Stichproben vor?
Erster Schritt bei der Durchführung des t-Tests ist festzustellen, ob ein t-Test für unabhängige oder abhängige Stichproben benötigt wird. Unabhängige Stichproben liegen in der Regel vor, wenn kein Fall oder keine Person aus einer Gruppe bzw. Stichprobe einem Fall oder einer Person aus der anderen Gruppe zugeordnet werden kann. Bei gepaarten Stichproben ist dies dagegen der Fall. Ungepaarte Stichproben sind z.B. zwei Altersgruppen oder Männer und Frauen. Beispiele für gepaarte Stichproben sind dagegen insbesondere Vorher-Nachher-Vergleiche, z.B. für die Feststellung der Wirksamkeit eines Medikaments bzw. einer Behandlung. Ebenso liegen gepaarte Stichproben vor, wenn z.B. Messungen an den gleichen Personen unter zwei unterschiedlichen Bedingungen durchgeführt werden.
Hypothesen
H0: Die Mittelwerte zwischen den beiden abhängigen Populationen unterscheiden sich nicht.
HA: Die Mittelwerte zwischen den beiden abhängigen Populationen unterscheiden sich.
Wird eine Wirkungsrichtung vermutet, können die Hypothesen entsprechend einseitig formuliert werden. Zum Beispiel bei der Analyse der Wirkung einer Diät auf das Gewicht lautet die Alternativhypothese voraussichtlich, dass die Diät zu einer Gewichtsreduktion geführt hat. Die Nullhypothese würde dann besagen, dass die Diät nicht zu einer Gewichtsreduktion geführt hat.
Es wäre zudem auch möglich zu unterstellen, dass sich die Mittelwerte der beiden abhängigen Population um die Zahl a unterscheiden. Im Hypothesenpaar oben gilt: a = 0.
Grundprinzip des t-tests für unabhängige Stichproben
Der gepaarte t-Test vergleicht zur Überprüfung der Nullhypothese die Mittelwerte von zwei abhängigen Stichproben. Dabei gilt: Je größer die Differenz zwischen diesen zwei Mittelwerten, umso eher wird die Nullhypothese abgelehnt. Allerdings kann der Standardfehler der Mittelwertdifferenz, ein Maß für dessen Schätzunsicherheit, dabei nicht unberücksichtigt bleiben. Je größer die Unsicherheit, desto größer muss auch die Mittelwertdifferenz sein, um die Nullhypothese zu verwerfen. Bezüglich der Schätzunsicherheit gilt, dass diese sowohl mit zunehmender Stichprobengröße als auch mit einer sinkenden Streuung der Differenzen zwischen den beiden Stichproben abnimmt.
Letztendlich handelt es sich beim t-Test für verbundene Stichproben um einen Einstichproben-t-Test für die Differenz zwischen den Beobachtungen der beiden Stichproben. Detaillierte Infos zur Theorie des t-Tests finden Sie hier.
Voraussetzungen
Vor der Anwendung des gepaarten t-Tests mit R möchten wir kurz auf dessen Vorraussetzungen eingehen:
Es liegt eine metrisch skalierte Variable für den Mittelwertvergleich vor. (Im Falle einer nur ordinal skalierten Variable, ist auf den Wilcoxon-Vorzeichen-Rang-Test zu verweisen.)
Es liegen genau zwei abhängige Stichproben vor. (Im Falle von drei oder mehr abhängigen Stichproben ist eine "Varianzanalyse mit Messwiederholung (Repeated measures ANOVA") anzuwenden.)
Die Messungen zwischen den Paarungen sind voneinander unabhängig (dies wird in der Regel nicht formell geprüft, sondern ergibt sich aus der Versuchsplanung bzw. der Kontrolle der Versuchsbedingungen).
Die Differenzen zwischen den Beobachtungen der beiden Stichproben sollten im Falle einer kleinen Stichprobe (Daumenregel: Stichprobengröße < 30) einer Normalverteilung folgen. Die Normalverteilungsannahme kann sowohl grafisch via QQ-Plot oder Histogramm als auch formal via Shapiro-Wilk-Test überprüft werden. Falls die Daten nicht normalverteilt sind, ist eine Transformation oder der nicht-parametrische Wilcoxon-Vorzeichen-Rang-Test anzuwenden. Bei großen Stichproben (Daumenregel: Stichprobengröße >= 30) wird die Annahme normalverteilter Differenzen nicht benötigt, da der Stichprobenmittelwert der Differenzen gemäß dem zentralen Grenzwertsatz approximativ normalverteilt sein sollten.
Datensatz und vorbereitende Schritte
Um die Reproduzierbarkeit der durchgeführten statistischen Analysen sicherzustellen, verwenden wir einen Datensatz aus dem R-Paket BSDA. Nachdem zunächst alle für die statistische Analyse benötigten R Pakete installiert und geladen werden, wird anschließend mit dem Befehl data(Fitness) der Fitness-Datensatz aus dem BSDA-Paket geladen
Der Fitness-Datensatz enthält Messungen zu der Sit-up-Leistung von 9 Personen vor und nach einer Woche Training. Folgende Variablen liegen vor:
subject: Identifizierer der Person
test: Zeitpunkt der Leistungsmessung (zwei Ausprägungen: Before oder After)
number: Anzahl der Situps
Der Datensatz weißt also die Dimension (18 x 3) auf. Die 18 Beobachtungen repräsentieren alle durchgeführten Messungen, 2 pro Person für die 9 Studienteilnehmer.
Wir vermuten, dass sich die Sit-up-Leistung durch das Training gesteigert hat. Daher lautet die Nullhypothese, dass das Training zu keinem Anstieg der Anzahl an Sit-ups führt. Entsprechende Nullhypothese wollen wir nun mit einem einseitigen gepaarten t-Test prüfen. Hierzu sind jedoch infolge einer Stichprobengröße von nur 9 Paaren normalverteilte Differenzen notwendig. Zur Prüfung der Normalverteilungsannahme wird der Shapiro-Wilk-Test durchgeführt. Der P-Value des Tests beträgt rd. 0,70. Folglich sprechen die Daten nicht gegen die Nullhypothese normalverteilter Daten. Es kann also der gepaarte t-Tests angewandt werden.
Durchführung des t-tests für abhängige (verbundene) Stichproben in R
Zur Durchführung des gepaarten t-Tests empfehlen wir die Verwendung des Pakets ggstatsplot, welches wir bereits installiert und geladen haben. Dabei handelt es um eine Erweiterung des populären R-Grafikpakets ggplot2. Die Grafiken aus ggplot2 können mit Hilfe von ggstatsplot um Details aus statistischen Tests ergänzt werden.
Mit Hilfe des Befehls ggwithinstats( ) können wir sowohl einen Boxplot erstellen als auch den t-Test durchführen. Hierfür müssen wir ggwithinstats( ) sagen, welcher Plot erstellt und welcher Test durchgeführt werden soll. Würden wir für das Argument type "nonparametric" angeben, würde der Wilcoxon-Vorzeichen-Rang-Test angewandt werden. Vollständigkeitshalber haben wir unten auch die Syntax für ausschließliche Durchführung eines einseitigen t-Tests angegeben.
Interpretation der Ergebnisse des t-tests für abhängige (verbundene) Stichproben in R Der Boxplot offenbart, dass durch das einwöchige Training die Anzahl der Sit-ups im Durchschnitt um zwei Wiederholungen gesteigert werden konnte. Über dem Plot ist das Ergebnis des gepaarten t-Tests dargestellt. Die Teststatistik beträgt 2,75. Der zugehörige P-Wert aus der t-Verteilung mit acht Freiheitsgraden (p) entspricht 0,0249 (gerundet: 0,02). Da dies der P-Wert des zweiseitigen t-Tests ist, müssen wir diesen noch halbieren, um den P-Wert des einseitigen t-Tests zu erhalten. Dieser beträgt rd. 0,0125 .Die Nullhypothese, dass das Training zu keinem Anstieg der Anzahl an Sit-ups geführt hat, wird somit verworfen.
Nun wissen wir zwar, dass ein statistisch signifikanter Mittelwertunterschied vorliegt, jedoch können wir noch keine Aussage über die Stärke des Unterschieds treffen. Es stellt sich also die Frage, ob ein Unterschied von 2 Sit-ups groß ist? Der P-Wert gibt hierüber keine Auskunft, sondern sagt nur, ob ein Trainingseffekt vorliegt. Hierzu müssen wir das ebenfalls über dem Boxplot dargestellte Effektstärkemaß Hedges' g betrachten. Hedges' g wird auf die gleiche Weise interpretiert wie das bekanntere Effektstärkemaß Cohens' d, ist aber für kleine Stichproben besser geeignet. Grundsätzlich kann Hedges' g jeden beliebigen Wert annehmen: Je größer Hedges' g absolut ist, desto stärker der Zusammenhang. Mit Blick auf die Interpretation von Hedges' g wird ab einem absoluten Wert von 0,2 von einem schwachen Effekt, ab 0,5 von einem mittleren Effekt und ab 0,8 von einem starken Effekt gesprochen. In unserem Beispiel beträgt Hedges' g 0,83. Es liegt also ein starker Unterschied in den Mittelwerten vor.
Fazit In diesem Artikel haben wir Ihnen gezeigt, wie Sie den t-Test für abhängige bzw. verbundene Stichproben in R durchführen.Wir hoffen, dass Ihnen dieser Artikel bei Ihren statistischen Analysen weiterhilft. Falls Sie Probleme mit einer statistischen Auswertung haben, zögern Sie nicht uns zu kontaktieren. Unser Team an Freelancern verfügt über langjährige Erfahrung auf dem Gebiet der Datenanalyse in R. Wir beraten Sie gerne bei Ihrem statistischen Problem. Darüber hinaus können Sie bei uns auch R Auswertungen inkl. verständlicher Interpretationen bestellen (z.B. Fragebogen-Auswertungen). Gerne bieten wir Ihnen hierfür ein kostenloses und unverbindliches Erstgespräch mit einem unserer Experten an. Sie können uns jederzeit per E-Mail oder Telefon (siehe unten rechts) erreichen.
Comments