0

我正在学习 R 并试图了解如何lm()处理因子变量以及如何理解 ANOVA 表。我对统计很陌生,所以请对我温柔一点。

这是烂番茄的一些电影数据。我试图根据 4 组中所有电影的平均分数来模拟每部电影的分数:那些被评为 G、PG、PG-13 和 R 的电影。

download.file("http://www.rossmanchance.com/iscam2/data/movies03RT.txt", destfile = "./movies.txt")
movies <- read.table("./movies.txt", sep = "\t", header = T, quote = "")
lm1 <- lm(movies$score ~ as.factor(movies$rating))
anova(lm1)

和方差分析输出:

## Analysis of Variance Table
## 
## Response: movies$score
##                           Df Sum Sq Mean Sq F value Pr(>F)
## as.factor(movies$rating)   3    570     190    0.92   0.43
## Residuals                136  28149     207

我了解如何获取此表中的所有数字Sum SqMean Sq除了as.factor(movies$rating). 有人可以解释一下这Sum Sq是如何从我的数据中计算出来的吗?我知道那Mean Sq只是Sum Sq除以Df

4

1 回答 1

1

There are various ways to get that. One of them is to use the equation:

http://en.wikipedia.org/wiki/Sum_of_squares_(statistics)

SS_total = SS_reg + SS_error

So:

y = movies$score
sum((y - mean(y))^2) - sum(lm1$residuals^2)
于 2013-02-13T18:09:32.227 回答