问题是这样给出的:
阅读文件糖尿病.csv。有两个变量称为 BMI 和 Outcome。变量 Outcome 仅取两个值:0 和 1。对两个 Outcome 值的 BMI 标准差相同的假设进行非参数双样本检验
bmi <- diabetes$BMI
bmi
outcome <- diabetes$Outcome
outcome
n <- length(bmi)
# tstat
tstat <- ???
# Describe the population and draw synthetic samples
f1 <- function()
{
x <- c(bmi, outcome)
x <- sample(x)
m1 <- sd(x[1:n])
m2 <- sd(x[(n+1):length(x)])
return(m1 - m2)
}
# Create sampling distribution
sdist <- replicate(10000, f1())
plot(density(sdist))
# Gap
gap <- abs(mean(sdist) - tstat)
abline(v = mean(sdist) + c(-1,1) * gap, col = "dark orange")
s1 <- sdist[sdist <(mean(sdist - gap)) | sdist >(mean(sdist + gap))]
pvalue <- length(s1) / length(sdist)
pvalue
数据在一些称为“糖尿病”的数据集中。我的问题是如何表示“t 统计量”,因为结果是二元的?