好的,所以你需要重新定义你的问题。没有两个连续变量,我猜你在问,相关性不能用来“描述”一种关系。但是,您可以查看不同职位之间的通过率是否存在统计学上的显着差异。至于关于统计的问题,我同意莫蒂斯的观点……简历是最好的地方。至于进行测试的代码,试试这个:
首先,您需要确保安装了正确的软件包。您肯定需要 ggplot 和 ggfortify,如果您必须操作数据或其他东西,可能还需要其他工具。并加载库:
library(ggplot2)
library(ggfortify)
接下来,确保您的数据整洁:即列中的变量。
然后将数据导入 R:
#find file
data.location = file.choose()
#Import data
curr.data <- read.csv(data.location)
#Check data import
glimpse(curr.data)
然后使用 ggplot 绘图:
ggplot(curr.data, aes(x = POSITION, y = AVG_PASSES_COMPLETED)) +
geom_boxplot() +
theme_bw()
然后使用线性模型函数 ( lm()
) 进行建模,以查看关于位置的通过率是否存在显着差异。
passrate_model <- lm(AVG_PASSES_COMPLETED ~ POSITION, data = curr.data)
在测试假设之前,您需要检查模型的适当性
autoplot(passrate_model, smooth.colour = NA)
如果残差图看起来不错,那么我们就可以进行测试了。如果不是,那么您将不得不使用另一种类型的模型(我现在不会在这里讨论......)。
对此(我认为)的适当测试将是 Tukey 测试,这需要 ANOVA。这将给出一个摘要,并应向您显示是否因位置而存在差异:
passrate_av <- aov(passrate_model)
summary(passrate_av)
这将执行 Tukey 检验并给出成对比较,包括均值差异、95% 置信区间和调整后的 p 值:
tukey.test <- TukeyHSD(passrate_av)
tukey.test
它甚至可以为你做一个很好的情节:
plot(tukey.test)