我正在学习 R 并试图了解如何lm()
处理因子变量以及如何理解 ANOVA 表。我对统计很陌生,所以请对我温柔一点。
这是烂番茄的一些电影数据。我试图根据 4 组中所有电影的平均分数来模拟每部电影的分数:那些被评为 G、PG、PG-13 和 R 的电影。
download.file("http://www.rossmanchance.com/iscam2/data/movies03RT.txt", destfile = "./movies.txt")
movies <- read.table("./movies.txt", sep = "\t", header = T, quote = "")
lm1 <- lm(movies$score ~ as.factor(movies$rating))
anova(lm1)
和方差分析输出:
## Analysis of Variance Table
##
## Response: movies$score
## Df Sum Sq Mean Sq F value Pr(>F)
## as.factor(movies$rating) 3 570 190 0.92 0.43
## Residuals 136 28149 207
我了解如何获取此表中的所有数字Sum Sq
,Mean Sq
除了as.factor(movies$rating)
. 有人可以解释一下这Sum Sq
是如何从我的数据中计算出来的吗?我知道那Mean Sq
只是Sum Sq
除以Df
。