Hier mein Mitschrieb für den Kurstag vier von Mick Crawley’s R-Kurs. Diesmal hab ich die Funktionen etwas in kleinere Teile zerlegt. Kleinere Fehler sind trotzdem nicht ausgeschlossen, da der Kurs langsam an Tempo zulegt und die Art meines Mitschriebs etwas zeitraubend ist.
Hier also das

pdf

und die

Sweave Source

.

Viel Spass damit! Ich freue sowohl über generelle Rückmeldung, ob man dem Mitschrieb als Außenstehender folgen kann, als auch über jeden gefunden Fehler!

Kommentare (5)

  1. #1 Bernd W.
    Februar 16, 2010

    Additive effects: If there are interactions incorporate them in a model, always look at interaction terms fi rst.

    Was ist damit gemeint? Alle Prädiktoren erst einmal als Interaktionseffekte (IE) modellieren? Das klingt aber sehr empiristisch; ich würde ja immer eine theoretische Begründung bevorzugen, die einen Mechnismus unterstellt. IE gibt es wahrscheinlich mehr als man denkt, oder? (Übrigens musste ich auch erst lernen, dass IE viel, viel tückischer sind, als man (ich) gemeinhin gedacht hat. Ein normaler Test auf Signifikanz des IE bringt bspw. meistens erst einmal wenig. Mehr irgendwann auf meinem Blog…)

    Vor fast 7 Jahren habe ich mal mit einem Kommilitonen ein kleines Skript verfasst “Herleitung der Parameterschätzer einer OLS-Regression in Matrizennotation”. Das ganze auch mit R und einer Herleitung der Schätzer. Vielleicht ist es ja von Interesse; Fehler? Bestimmt, ist ja schon ziemlich lange her… die Notation empfinde ich heute auch als gewöhnungsbedürftig.

  2. #2 MisterX
    Februar 16, 2010

    Hallo !
    Sehr schöner Blog.
    Ich würde mich freuen wenn Ihr mal einen Artikel über den Zufallen in der Evolution schreiben würdet, interessiert bestimmt auch einige Leser !

    gruß

  3. #3 Emanuel Heitlinger
    Februar 17, 2010

    MisterX: Wenn du hier auf unsrem Blog nach “neutrale Theorie” suchst findest du was über Zufall in der Evolution. Die Posts sind allerdings etwas älter, ich werd nach dem Kurs hier wieder mit der Serie weiter machen.

    Bernd: Matritzen sind so n Thema an das ich mich noch nie richtig getraut hab. Diese Matrix-Schreibweise sieht aber sehr interessant aus, ich werd hoffentlich Zeit haben auch etwas damit zu spielen (schon allein um meine matrizen-phobie zu überwinden).
    Die Interaktionsaussge entspricht Crawleys Fokus auf Experimentelles Design: Immer in experimentellen plots alle treatments wiederholen. Bisher ist auch fast alles eher auf orthogonale Designs fixiert.
    Interaktion zuerst heißt dann immer mit dem maximalen Modell starten, Haupteffekte müssen auch drin bleiben, wenn eine ihrer Interaktionen signifikant ist auch wenn sie selbst es nicht sind.
    Was IE wirklich ausmacht werden wir wohl in den nächsten anderthalb Wochen besser lernen, heute sind sie erst mal als unterschiedliche Steigung (slope) in der Ancova aufgetreten. Ich bin mal gespannt auf deinen Interaktions-Post.

  4. #4 Fabio
    Februar 17, 2010

    Es lohnt sich auf jedenfall, einige Zeit zu investieren für Matrizenrechnung. Ich finde das Buch von Schmidt und Trenkler (Moderne Matrix-Algebra mit Anwendungen in der Statistik) sehr gut, weil es ohne mathematische Ansprüche daherkommt. Vielleicht versteht man nicht immer, warum man so zur korrekten Lösung kommt, aber darüber muss man einfach hinwegsehen. Mit Matrizen vermeidet man die unüberschaubaren Indizes von veschachtelten Summen.
    https://www.amazon.de/gp/product/3540330070/ref=sib_rdr_dp

    Interaktionen machen durchaus Sinn, ansonsten man solche Fälle verpasst:
    10 1
    1 10
    Dieser Fall hat keine Haupteffekte, jedoch einen Interaktionseffekt. Stellt man sich diese Kreuztabelle unbalanciert vor (zu 10 Beobachtungen in der linken Kolonne kommt eine auf der ersten):
    100 1
    10 10
    dann würde man hier beim Testen auf Haupteffekte einen falschen Reiheneffekt erhalten, das durch die Interaktion verursacht wird (the main effect is confounded with the interaction).
    Diese Beispiele stammen aus dem Buch von Good und Hardin (Common Errors in Statistics and How to Avoid Them).

    Zu: “Constant variance: If not true use transformations or a model to han-
    dele it (glm).”

    Hier einige Bemerkungen von Chatfield (Problem Solving, A statistician guide):

    “It is worth stressing that the most meaningful variable is often the given observed variable, in which case a transformation should be avoided if possible. The application of non-linear transformation, such as the square root, can radically change the character of a set of data and make the resulting inferences misleading, even thoough the data may perhaps be more normal.(…) Transformation should be the exception rather than the rule.”

    Hier gehen wohl die Meinungen auseinander. Mein früherer Professor sagte, Daten kennen kein Gewissen, man soll also ruhig transfomieren. Ich denke, die Aussage von Chatfield geht dahin, dass man transformieren soll, wenn es mathematisch-statistisch begründet ist (z.B. Wurzelziehen bei Zähldaten). Ansonsten ist das gewählte Modell nicht geeignet und es muss ein anderes Modell gewählt werden. Heutzutage ist das mit den Möglichkeiten, die zur Verfügung stehen, kein Problem.

    Ich habe eine Frage bei der Regressionsanalyse offen. Vielleicht kann mir die jemand beantworten. In der Varianzanalyse (Vergleich der Mittelwerte von mehreren Gruppen) gibt es ja das Problem des multiplen Testens. Beim multiplen Testen werden z.B. die P-Werte mit einem Bonferroni-Korrekturfaktor multipliziert und somit wird das Testen konservativer, was ja durchaus Sinn macht. Dasselbe sollte jedoch auch für die Regressionsanalyse gelten. Sollten die P-Werte für die Koeffizienten nicht auch entsprechend “korrigiert” werden?

  5. #5 MisterX
    Februar 17, 2010

    oki danke, ich werds mir reinziehen !

    gruß