Grafiken Session 4
1
Grundlegendes
Bei der Analyse von Daten sind Grafiken ein wichtiges Werkzeug. Viele Eigenschaften von Datensamples ((Auto)-Korrelationen, nicht lineare Zusammenh¨ange, m¨ogliche Verteilungen, . . . ) offenbaren sich bereits in entsprechenden Plots. R bietet eine Vielzahl von M¨oglichkeiten Daten grafisch zu analysieren. Die Elementarste Funktion ist hierbei plot(x, y, type, main, sub, xlab, ylab), welche die Punkte (xi , yi ) im ¨ R2 darstellt. Hierbei k¨ onnen u bzw. Unterschriften gesteuert werden. Die ¨ber main und sub die UberOptionen xlab und ylab liefern die M¨ oglichkeit die Achsenbeschriftungen zu ¨andern, w¨ahrend die Option type die Art des Plots festlegt (sollen Punkte, Linien oder Stufen gezeichnet werden, siehe help(lines) f¨ ur Details). Mit dem Befehl par(. . . ) k¨ onnen eine Vielzahl an weiteren Parametern eingestellt werden (Schriftarten und Gr¨ oßen, Achsenkontrolle, Achsenbeschriftung, Dicke der Linien, . . . ). Ein Beispiel f¨ ur ¨ die Anderung eines solchen Argumentes ist par(mfrow=c(x,y)), welches das Plotfenster in ein Gitter von x mal y Unterplots aufteilt. Folgende Befehle erzeugen zum Beispiel die Grafik in Abbildung 1 > > > > > > >
x > > >
x > > > >
2.2
par(mfrow=c(2,2)) x > > > >
par(mfrow=c(2,2)) boxplot(outcome ~ boxplot(outcome ~ boxplot(outcome ~ boxplot(outcome ~
group, group, group, group,
experiment, experiment, experiment, experiment,
range range range range
= = = =
1, outline=T, horizontal=F, col=’’red’’) 1, outline=F, horizontal=T, col=’’green’’) 1.5, outline=T) 1.5, subset=validity==’’Valid’’)
Das Ergebnis ist in der Abbildung 3 zu sehen.
2.3
qq-Plots
Ein qq-plot dient dazu die Quantile zweier Verteilungen zu vergleichen. Es werden hierbei die entsprechenden Quantile der beiden Verteilungen als zweidimensionale Datenpunkte aufgefasst und in einem 3
0.00
0.02
Density
4000 2000 0
Frequency
−40
−20
0
20
40
−40
−20
40
20
40
1500 0
500
Frequency
0.02 0.00
Density
20
X~N(0, 10)
0.04
X~N(0, 10)
0
−40 −20
0
20
40
−40
X~N(0, 10)
−20
0 X~N(0, 10)
Abbildung 2: Histogramme
4
60
● ● ● ● ●
2
● ● ● ●
3
−60
● ● ●
● ●
20
● ● ●
−20
● ●
● ●
20 40 60
●
● ●
● ●
−60
−60
● ● ● ● ●
1
−20 0
60
2
1
● ● ● ● ● ● ● ● ● ●
60
1
20
3
● ● ● ●
−20
20
● ● ● ● ● ● ●
−60
−20
● ● ● ● ● ● ● ● ●
2
3
● ●
1
2
3
Abbildung 3: Boxplots Diagramm dargestellt. Sind die beiden Verteilungen gleich, dann befinden sich die Punkte ungef¨ahr auf der 45◦ Linie durch das Diagramm. An Abweichungen von dieser Linie kann erkannt werden, ob und wie sich die beiden Verteilungen unterscheiden. Die R-Funktion qqplot(x,y,. . . ) empf¨angt als Arguments im Wesentlichen die beiden Verteilungen gegeben durch Datenpunkte (Annahme: alle Wahrscheinlichkeiten gleich). Falls eine Verteilung mit einer Normalverteilung verglichen werden soll, kann alternativ auch die Funktion qqnorm(x, . . . ) verwendet werden, welche nur ein Inputargument hat und die ben¨ otigten Quantile der Normalverteilung selbstst¨ andig berechnet. Das nachfolgende Beispiel (siehe Abbildung 4) zeigt einerseits ein Sample aus der Normalverteilung geplottet gegen die theoretischen Quantile der Normalverteilung und andererseits ein Sample aus einer t-Verteilung geplottet gegen die theoretischen Quantile der Normalverteilung. Wenig u ¨berraschend zeigt ¨ sich bei dem ersten Bild eine gute Ubereinstimmung der beiden Verteilungen w¨ahrend sich aus dem zweiten Plot ablesen l¨ asst, dass das Sample aus der t-Verteilung deutlich schwerer Enden hat als die Normalverteilung.
5
> > > > > > > > > > > > >
par(mfrow=c(1,2)) x1 > > >
par(mfrow=c(2,2)) curve(x^3-3*x, -2, 2) curve(x^2-2, add = TRUE, col = ’’violet’’) curve(cos, -pi, 3*pi, col = ’’blue’’) chippy