问题标签 [statistical-test]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
606 浏览

r - R中的多重Wilcoxon符号秩检验

我有一个关于在 R 中执行多个 Wilcoxon 测试的问题。我有 7 个数据集,每个数据集我需要使用 10 个分类器比较 9 种不同的特征提取方法。由于它们是随机方法,因此每个分类器有 10 个值/重复。单个数据集的简单示例让我们假设我们有 3 个方法、3 个分类器、3 个重复:

现在,我需要一种方法在每对这些分类器之间针对不同的方法执行 Wilcoxon 检验,即 M1.C1 与 M2.C1、C2、C3、M1.C1 与 M3.C1、C2、C3 等等. 有人可以建议一种适当的方式来加载数据并以简单的方式执行多个测试,因为我对 R 比较陌生。非常感谢您的任何建议

0 投票
1 回答
1281 浏览

r - 两个样本 z 检验的功效分析

我需要计算对数据执行的统计检验的功效。我有 2 个 csv 文件,每个文件的样本大小为 50。均值的差异在 0.05 水平上具有统计显着性。样本来自方差未知的正态分布。

所以我使用以下代码执行了 az score 测试:X 和 Y 是两个样本,每个样本大小为 50。

我得到的 Z 分值为 -15.78006

现在我需要计算上面执行的统计测试的功效。我的问题是如何从这里找到力量。公式是什么?以及如何在 R 中应用它。如果您建议在 R 中使用 pwr 包,请解释它是如何工作的。

如果我含糊不清,请提前致谢并道歉。我是功率分析的新手。

0 投票
0 回答
1031 浏览

r - 相关双标图(缩放 2)和距离双标图(缩放 1)PCA 在 R 中的长度不正确

我正在运行一个主成分分析,我被告知缩放 1 的向量应该是长度 1。这里它们比 1 大得多。在缩放 2 中,它应该小于 1。

难道我做错了什么?

此外,如果数据被标准化以在比例 2 中绘制描述符的平衡圆,是否有可能?

这些数据是对不同种类鸟类的喙测量。

数据集如下所示(名为 pca.bird.clean):

PCA:

这是生成图像的代码(见这里

在此处输入图像描述

这是一个完整的可重现示例:

0 投票
1 回答
124 浏览

r - 对按工作日组织的数据进行统计测试

我有相应工作日(1=星期一,2=星期二,7=星期日等)有数值(也可以是0)的数据。我想通过不同的统计测试找出我的值(例如温度)是否取决于工作日(比如星期一的值较大,星期日的值较小)。我有模拟数据,但也测量过。如何通过 kruskal-wallis 测试来测试这种可能的依赖性?

第二件事;通过这张表,工作日或“温度”是我的因变量,它们是什么性质(序数,分类......)?

资料

0 投票
2 回答
2229 浏览

r - R中的Marascuilo程序

我正在执行 marascuilio 程序以比较比例之间的差异。我正在使用以下代码(从本教程复制和改编:

我需要输出也打印类别的标签(例如,哪些类别正在被比较)。

因此,如果类别列在一个单独的向量中,例如categories <- c("cat1", "cat2", cat"3),则比较是cat1-cat2cat1-cat3cat2-cat3

如何将这些标签附加到我的输出中?

0 投票
0 回答
513 浏览

r - 大型for循环的下标越界R

我有一个 for 循环,它非常适合(相对)少量重复次数 = 10,100。但是对于“时间”的较大值,我通过填写矩阵得到一个错误:下标超出范围......(参见下面的代码和代码解释)

错误: Error in M_zp_var[j, (1:n)] : subscript out of bounds

为了填充矩阵,我在第一个中使用了第二个 for 循环

我什至尝试过

相反,但它也不起作用。

正如我所说,如果我的外部循环很小,代码就可以工作。我不明白如果我选择更大的“倍”变量(1000、5000),为什么它的工作方式会有所不同。

我知道“下标越界”的意思

我希望你能帮助我,我会很高兴的!:(

代码:

解释:

该循环模拟“次”-次排列测试(蒙特卡洛)。一个循环生成 2 个随机样本,然后将它们随机排列 B=16000 次(使用函数进行排列Z_pi()),然后只采用不同的排列 ( unique()) 并且从每个排列中计算一个测试统计量......代码停止在涉及功能的标记行(粗体)工作Z_pi()

0 投票
2 回答
430 浏览

sas - SAS PROC LOGISTIC - 为什么拟合优度测试拒绝模型?

我正在使用 SAS (9.2) 中的 PROC LOGISTIC 对大学申请者数据集进行建模。目标变量是“Enrolled y/n”,我正在针对 13 个变量(指标、连续和类别的混合)进行建模,包括:提交的申请数量、参加的活动数量、申请人年龄等。

我使用整个数据集的 50% 来训练模型,这为我提供了不到 15,000 个观察值的样本量(用于训练)。

当我运行 PROC LOGISTIC 时,输出报告大多数变量在 <.0001 时非常显着。

“测试全局零假设:BETA=0”统计数据还报告该模型擅长 <.0001,并且关联统计表报告高百分比 (90%+) 的预测概率是一致的。

所有这些看起来都很棒,直到我得到拟合优度的偏差统计数据。Pearson、Deviance 和 Hossmer/Lemeshow 测试也都报告 Pr>ChiSq 值 <.0001。如果我正确地解释了这一点(参考 Paul Allison),这个显着性水平意味着该模型应该以不合适为由被拒绝。

我尝试使用 STEPWISE 来减少模型,但这只会导致拒绝单个因素,并且 GOF 统计数据不受影响。

怀疑多重共线性,我尝试仅对因变量的单一效应建模,但我仍然得到类似的结果 - 参数估计 p 值的显着性很高,但 GOF 测试中的显着性值也很高......

我的模型是否存在根本性错误——或者我在这种情况下误解了 GOF 测试?请任何人都可以建议我需要调查什么?

我一直在运行的代码只是为了单一效果,但它会产生与模型相同的问题结果,包括所有因素:

下面的输出:

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

在此处输入图像描述

0 投票
1 回答
1058 浏览

r - 在 R 中对数据帧进行矢量化 prop.test

这是一个基本问题,我收到以下错误。

prop.test 中的错误:“x”和“n”必须具有相同的长度

使用此代码

其中sizesize2是较大的常数 (>200,000)。

cv_MH看起来像

基本上,我试图在 cv_MH 中创建另一个变量来计算 p 值。

谢谢。

0 投票
1 回答
217 浏览

statistics - 何时需要进行多重比较校正?

我在假设检验方面不是很有经验,并且在发生多重比较问题时有问题的理解?

正如我所理解的多重比较问题发生在尝试从单个数据库执行多个统计测试时。因此,为了得出正确的结论,应调整显着性水平。(我对吗?)

在我的情况下,我有一个数据库,我对数据库的不同部分执行了几个 t 检验。换句话说,每个测试的数据与另一个测试完全不同,而所有数据都属于一个数据库。所以,原则上我的测试中不应该存在多重比较问题,对吗?

提前致谢。

0 投票
0 回答
32 浏览

statistics - 比较两个连续分布(LIWC 分数)时要进行哪个测试

我现在正在做一个项目,试图扩展LIWC 词典以适应我们的当地语言(混合英语、印度尼西亚语、马来语和汉语)。我们使用词嵌入模型在 LIWC 词典中找到与单词相似的词,然后根据新词典计算分数。

LIWC 字典的原始输出如下所示:

表示属于每个类别的词的比例,类别包括:

在扩展 LIWC 字典后,我想测试我们是否有与原始 LIWC 相似的输出。但是扩展字典中的单词后,每个类别的比例肯定会增加。因此,与其直接比较两个分数,我认为如果我们比较变量之间的关系会更有意义。

更准确地说,假设我有原始输出 dist1,

以及我们扩展字典 dict2 的输出,

其中 p 代表类别的数量。是否存在可以帮助我证明 dist1 中变量之间的关系与 dist2 中的关系是否相似的测试?