r - 跨类别和列自动化卡方

Question

我有一个调查数据框，其中包含几个问题（列），编码为 1=agree/0=disagree。受访者（行）根据“年龄”（“年轻”、“中”、“老”）、“地区”（“东部”、“中”、“西部”）等指标进行分类。大约有 30 个类别共（3个年龄、3个地区、2个性别、11个职业等）。在每个指标中，类别不重叠且大小不同。

这模拟了数据集的缩减版本：

n<-400
set.seed(1)
data<-data.frame(age=sample(c('young','middle','old'),n,replace=T),region=sample(c('East','Mid','West'),n,replace=T),gender=sample(c('M','F'),n,replace=T),Q15a=sample(c(0,1),n,replace=T),Q15b=sample(c(0,1),n,replace=T))

对于 Q15a，我可以使用卡方来测试西方的响应是否与总样本显着不同，其中：

attach(data)
chisq.test(table(subset(data,region=='West')$Q15a),p=table(Q15a),rescale.p=T)

我想根据 Q15a 的总样本测试所有类别，然后再测试大约 20 个其他问题。由于每个问题大约有 30 个测试，我想找到一种方法（有效或其他方式）来自动执行此操作，但我正在努力了解如何让 R 自己执行此操作或如何编写循环来循环遍历类别。我已经搜索了[1]，并使用pairwise.prop.test() 进行了成对比较测试，但还没有找到任何真正回答这个问题的东西。

[1] 类似但不重复的问题（都是按列测试）：

使用循环在 R 中进行卡方检验

在 R 中使用 for 循环进行卡方分析

score 2 · Accepted Answer

这个怎么样？

# find all question columns containing Q, your "subset" may differ
nms <- names(data)
nms <- nms[grepl("Q", nms)]

result <- sapply(nms, FUN = function(x, data) {
  qinq <- data[, c("region", x)]
  by(data = qinq, INDICES = data$region, FUN = function(y, qinq) {
    chisq.test(table(y[, x]), p =  table(qinq[, x]), rescale.p = TRUE)
  }, qinq = qinq)
}, data = data, simplify = FALSE)

$Q15a
data$region: East

    Chi-squared test for given probabilities

data:  table(y[, x])
X-squared = 0.7494, df = 1, p-value = 0.3867

--------------------------------------------------------------------------------------------- 
data$region: Mid

    Chi-squared test for given probabilities

data:  table(y[, x])
X-squared = 0.2249, df = 1, p-value = 0.6353

--------------------------------------------------------------------------------------------- 
data$region: West

    Chi-squared test for given probabilities

data:  table(y[, x])
X-squared = 1.5877, df = 1, p-value = 0.2077


$Q15b
data$region: East

    Chi-squared test for given probabilities

data:  table(y[, x])
X-squared = 0.0697, df = 1, p-value = 0.7918

--------------------------------------------------------------------------------------------- 
data$region: Mid

    Chi-squared test for given probabilities

data:  table(y[, x])
X-squared = 0, df = 1, p-value = 0.9987

--------------------------------------------------------------------------------------------- 
data$region: West

    Chi-squared test for given probabilities

data:  table(y[, x])
X-squared = 0.056, df = 1, p-value = 0.8129

你可以提取任何你想要的东西。以下是提取 p.value 的方法。

lapply(result, FUN = function(x) lapply(x, "[", "p.value"))

$Q15a
$Q15a$East
$Q15a$East$p.value
[1] 0.3866613


$Q15a$Mid
$Q15a$Mid$p.value
[1] 0.6353457


$Q15a$West
$Q15a$West$p.value
[1] 0.2076507



$Q15b
$Q15b$East
$Q15b$East$p.value
[1] 0.7918426


$Q15b$Mid
$Q15b$Mid$p.value
[1] 0.9986924


$Q15b$West
$Q15b$West$p.value
[1] 0.8128969

快乐的格式化。

score 1 · Accepted Answer

您也可以使用 EnQuireR 包中的 chisq.desc() 函数。它对我来说很好。虽然可用的支持非常少，而且这个包很旧（长期没有更新），所以很少有功能不起作用，但我发现 chisq.desc() 很有用。它根据选定的阈值为包含卡方检验结果的表格单元格着色，跨越所有选定的分类变量。我无法发表评论，所以写作为答案。

r - 跨类别和列自动化卡方

2 回答 2

Related

Reference