Viele Studenten sind im Rahmen ihrer Hausarbeit, Bachelor- oder Masterthesis erstmalig mit der Durchführung von statistischen Auswertungen in R konfrontiert. Dieser Artikel soll Ihnen daher die absoluten Grundlagen der Datenanalyse mit R vermitteln und eine strukturierte Vorgehensweise aufzeigen.
Sie benötigen beratende Hilfe bei Ihren statistischen Auswertungen mit R oder möchten eine R Auswertung (z.B. Fragebogen-Auswertung) bestellen, dann zögern Sie nicht uns zu kontaktieren (Kontaktdaten unten rechts). Unsere Experten helfen Ihnen gerne weiter (kostenloses unverbindliches Erstgespräch)!
1. Installation von R und R-Studio
Bevor wir mit der Datenanalyse in R loslegen können, muss das Programm zunächst installiert werden. Zudem ist auch die Installation der bekannten Entwicklungsumgebung RStudio sehr zu empfehlen. Eine detaillierte Anleitung für die Installation von R und RStudio finden Sie hier.
2. Vorbereitungen
Vor dem Start der statistischen Auswertungen in R sollten wir noch eine Ordnerstruktur für unser Projekt anlegen. Das bedeutet, dass wir einen Ordner mit einem geeigneten Projektnamen erstellen, welcher die vier Unterordner Daten, Ergebnisse, Code und Sonstiges enthält. Im Ordner Daten speichern wir anschließend unsere Ausgangsdaten und im Ordner Sonstiges beispielsweise die Daten- und Projektbeschreibungen. Der Ordner Code dient dagegen der Speicherung unserer R-Skripte und der Ordner Ergebnisse ist für den Export der Ergebnisse der statistischen Auswertungen gedacht.
3. Erste Schritte in R
Geschafft! Endlich können wir mit der Datenanalyse in R beginnen. Hierzu starten wir die Umgebung RStudio. Diese teilt sich in vier Fenster (Panes):
Skript-Fenster: hier erstellen wir unsere Skripte (hier wird gecodet)
Console: enthält den Output unseres Codes
Environment: zeigt die Objekte (z.B. erstellte Variablen) in der Arbeitsumgebung an
Ein weiteres Fenster, welches den grafischen Output, die Paketverwaltung, das Ordnerverzeichnis und vor allem die Hilfe zu R-Befehlen in verschiedenen Tabs enthält.
Eine ausführlichere Beschreibung der Fenster finden Sie hier.
Wir starten im Skript-Fenster. Der erste Schritt ist die Festlegung des Arbeitsverzeichnisses (Pfad zu unserem Projektordner). Anschließend empfehlen wir alle für die Arbeit benötigten R-Pakete zu installieren und zu laden.
Das Arbeitsverzeichnis wird mit Hilfe des setwd( )-Befehls festgelegt. Dieser Befehl ist hier ausnahmsweise via # auskommentiert, um zu verdeutlichen, dass Sie Ihren eigenen Pfadnamen angeben müssen. Kommentare dienen ansonsten der Beschreibung des Codes und sollen diesen für andere Personen leichter verständlich machen. Da die hier benutzten Pakete bei uns bereits installiert waren, sind die Installationsanweisungen ebenso auskommentiert. Die R-Pakete müssen daher nur noch mit Hilfe des library( )-Befehls geladen werden. Wofür wir die einzelnen R-Pakete verwenden, werden wir erst im Laufe des Artikels zeigen.
4. Import der Daten
Falls Daten importiert werden müssen, sollte dies nun erfolgen. Je nach Format stehen hierfür unterschiedliche Befehle zur Verfügung. Text-Dateien können beispielsweise mit Hilfe des read.table( )-Befehls und csv-Dateien anhand der read.csv( )-Anweisung eingelesen werden. Weitere Informationen zum Import von Dateien verschiedenster Formate finden Sie hier.
Da es uns ein großes Anliegen ist, dass der Leser unsere einzelnen Schritte der Datenanalyse in R reproduzieren kann, haben wir hier auf dem Import eigener Daten verzichtet. Anstatt dessen haben wir den Datensatz wage1 aus dem R-Paket wooldridge verwendet. Dieses Paket stellt alle der im Buch 'Introductory Econometrics: A Modern Approach' verwendeten Datensätze zu Verfügung. Nachdem das Paket bereits installiert wurde, kann der Datensatz mit Hilfe des data( )-Befehls geladen werden. Der Datensatz enthält die Stundenlöhne von 526 U.S. Beschäftigten und stellt eine Zufallsstichprobe aus dem Current Population Survey von 1976 dar. Die str( )-Anweisung gibt einen Überblick über die Struktur des Datensatzes.
Es zeigt sich, dass der Datensatz neben dem Lohn und seiner logarithmierten Ausprägung noch 22 weitere Features enthält. Um nicht den Rahmen dieses Artikels zu sprengen, nehmen wir hier stark vereinfachend an, dass nur die folgenden fünf Variablen im Datensatz enthalten sind:
wage: Lohn in USD pro Stunde
educ: Ausbildungsjahre eines Beschäftigten
exper: Berufserfahrung in Jahren
tenure: Berufserfahrung beim derzeitigen Arbeitgeber in Jahren
female: Dummy (1: Frau, 0: Mann)
Eine Beschreibung der anderen Variablen finden Sie bei Interesse im Reference Manual des Pakets.
5. Explorative Datenanalyse (EDA)
Nachdem Sie in der Einleitung Ihrer empirischen Arbeit den Leser an das Thema herangeführt und sein Interesse geweckt haben, steht nun der empirische Teil der Arbeit an. Der empirische Teil ist je nach Thema unterschiedlich strukturiert, aber beginnt in der Regel mit einer Beschreibung des Datensatzes. Da wir dies bereits im vorherigen Kapitel gemacht haben, können wir nun zum nächsten Punkt übergehen.
Nach der Beschreibung des Datensatzes wird gewöhnlicherweise die explorative Datenanalyse durchgeführt. Die explorative Datenanalyse beinhaltet die Berechnung von deskriptiven Statistiken sowie die Erstellung von Grafiken. Dementsprechend berechnen wir anhand des folgenden Codes die wichtigsten deskriptiven Statistiken für unsere metrischen Variablen. Hierzu verwenden wir den describe( )-Befehl aus dem R-Paket psych.
Ein Blick auf die deskriptiven Statistiken verrät, dass der durchschnittliche Stundenlohn 5,9 USD ist. Der kleinste Verdienst eines U.S. Beschäftigten beträgt 0,53 USD pro Stunde und der größte Stundenlohn ist 24,98 USD. Da der Median der Variable deutlich unter dem Mittelwert liegt, kann von einer stark rechtsschiefen Verteilung ausgegangen werden. Das zeigt auch das mit Hilfe des hist( )-Befehls erstellte Histogramm der Variable.
In den deskriptiven Statistiken ist außerdem zu erkennen, dass ein U.S. Beschäftigter im Durchschnitt 12,56 Ausbildungsjahre aufweist. Das Histogramm zeigt, dass kaum ein Arbeitnehmer weniger als sechs Ausbildungsjahre aufweist. Der obigen Abbildung kann außerdem entnommen werden, dass die Variablen exper und tenure stark rechtsschief sind. Nachdem wir uns nun die metrischen Variablen detailliert angeschaut haben, kommen wir zu unserer Dummy-Variable female. Eine kurze Betrachtung dieser anhand des table( )-Befehls offenbart, dass 252 der 526 U.S. Beschäftigten im Datensatz Frauen sind.
Angenommen Sie sollen in Ihrer Arbeit untersuchen, ob sich die Stundenlöhne von weiblichen und männlichen U.S. Beschäftigten statistisch signifikant unterscheiden. Dann sollten Sie im Zuge der explorativen Datenanalyse auf jeden Fall einen gruppierten Boxplot erstellen. Hierfür verwenden wir Befehle aus dem sehr bekannten Datenvisualisierungspaket ggplot2.
Es zeigt sich, dass der durchschnittliche Stundenlohn (rote Raute) sowie der Median (dicke schwarze horizontale Linie) der Löhne bei Männern deutlich höher ist als bei Frauen. Genau genommen beträgt der durchschnittliche männliche Stundenlohn 7,1 USD, während das Durchschnittsgehalt der Frau bei 4,59 liegt. Außerdem ist zu erkennen, dass zahlreiche Ausreißer (schwarze Punkte) vorliegen. Dies ist darauf zurückzuführen, dass die Variable wage stark rechtsschief verteilt ist.
Neben diesem Zusammenhang sollten Sie sich auch die univariaten Zusammenhänge zwischen den verbleibenden Variablen und dem Stundenlohn näher anschauen. Da es sich dabei ausschließlich um metrische Variablen handelt, können Sie hierfür Streudiagramme nutzen. Diese können beispielsweise mit Hilfe des geom_point( )-Befehls erstellt werden.
5. Inferenzstatistische Analyse
Wie wir gerade festgestellt haben, verdienen Frauen im Durchschnitt 35,38% weniger als Männer. Im Zuge der inferenzstatistischen Analyse müsste nun mit Hilfe eines statistischen Tests überprüft werden, ob dieser Unterschied statistisch signifikant ist.
Wenn wir allerdings wie gerade beschrieben vorgehen, hätten wir einen großen Fehler gemacht. Wir hätten bei der Analyse die anderen relevanten Einflussfaktoren nicht berücksichtigt. Wir hätten vernachlässigt, dass sich Männer und Frauen hinsichtlich Ausbildung, Berufserfahrung und Zeit in einem Unternehmen unterscheiden können. Folglich ist der festgestellte Unterschied in.Höhe 35,38% mit großer Wahrscheinlichkeit falsch.
Daher ist es essentiell, möglichst alle relevanten Einflussfaktoren zu berücksichtigen! Folglich empfehlen wir zur Überprüfung unserer Ausgangsfrage die Spezifikation eines multiplen linearen Regressionsmodelles, welches die anderen Einflussfaktoren als Kontrollvariablen inkludiert. Anhand eines t-Tests kann anschließend untersucht werden, ob der Koeffizient der Variable female statistisch signifikant von Null verschieden ist.
Wer nun darauf hinweist, dass der t-test eine normalverteilte abhängige Variable vorraussetzt, hat absolut Recht. Die rechtsschiefe Verteilung der Stundenlöhne kann allerdings durch eine Transformation mit dem natürlichen Logarithmus einer Normalverteilung stark angenähert werden. In diesem Fall ist also ein log-lineares Modell zu schätzen. Darüber hinaus ist im Anschluss an die Schätzung zu prüfen, ob das log-lineare Regressionsmodell korrekt spezifiziert ist. Gegebenenfalls müssen nicht lineare Effekte mit Hilfe von quadratischen Termen approximiert werden. Darüber hinaus ist die Annahme homoskedastischer Fehler zu prüfen. Eine entsprechende Modellspezifikation inkl. Validierung würde allerdings über den Rahmen dieses Artikels hinausgehen und stellt daher ein Projekt für einen zukünftigen Post da.
Zusammenfassung -Key Facts
Ziel dieses Artikels war es Studenten eine strukturierte Vorgehensweise aufzuzeigen, welche sie in einer empirischen Hausarbeit, Bachelor- oder Masterthesis anwenden können. Darüber hinaus sollte dieser Post Ihnen die Grundlagen der quantitativen Datenanalyse mit R vermitteln und Sie dazu befähigen, einfache statistische Auswertungen in R selbstständig durchzuführen.
Im zweiten Teil des Artikels sollte allerdings auch betont werden, dass stark vereinfachte Analysen (z.B. ein Vergleich von unbedingten Mittelwerten) schnell zu falschen Schlussfolgerungen führen können. Außerdem sollte aufgezeigt werden, dass es bei der Anwendung von statistischen Modellen essentiell ist, stets dessen Annahmen zu überprüfen.
Wir hoffen, dass Ihnen dieser Artikel bei der quantitativen Datenanalyse mit R weiterhilft. Falls Sie Probleme bei Ihrer R Auswertung haben, zögern Sie nicht uns zu kontaktieren. Unser Team an Freelancern verfügt über langjährige Erfahrung in der Datenanalyse mit R. Wir beraten Sie gerne bei Ihrem statistischen Problem. Darüber hinaus können Sie bei uns auch R Auswertungen (z.B. Fragebogen-Auswertungen) bestellen (inkl. Dokumentation). Gerne bieten wir Ihnen hierfür ein kostenloses und unverbindliches Erstgespräch mit einem unserer Experten an. Sie können uns jederzeit per E-Mail oder Telefon (siehe unten rechts) erreichen.
Hallo, liebe Leute. Alles gut erklärt, aber ich brauche eine Thema für Hausarbeit. Ich habe in kaggle gesucht, aber zu wenig Variablen. Kann jemand mir helfen? Liebe Grüße Helene