问题标签 [statistical-test]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Mann-Whitney U 的 p 值为 1 - 人工制品?
我rstatix
在 R 3.6.3 到 RStudio 1.2.5042 中使用该库,并且在运行两个样本 Wilcoxon aka Mann-Whitney U 测试时得到不可能的 p 值 1。
我的第一直觉说这是一个浮点精度问题,实际值大约是 0.999999,但我来这里是为了在一个未公开的联邦研究机构对此进行确认之前进行确认。
这是我的代码:
数据当然是匿名的。此链接将在 1 周后过期。
交叉发布以保持一致性:
https://stats.stackexchange.com/questions/467572/p-value-of-1-for-mann-whitney-u-artifact-of-r
python - 如何在 Python 中执行弗里德曼测试和事后测试?
我知道 Python 的 SciPy 库具有弗里德曼测试的功能
但是,这还不够,因为我需要更多信息来进行事后测试。
那么,我如何进行弗里德曼测试和事后测试(例如 Nemenyi 或 Bonferroni-Dunn 测试)并完全在 Python 上绘制关键差异图?
r - CAPdiscrim 错误:数字“环境”参数不是长度为 1
我正在尝试将 CAP 函数应用于不同年份收集的化学数据。
我有一个数据存档:
和环境数据集:
表演时CAPdiscrim
,
发生此错误:
eval 中的错误(predvars,data,env):
数字“envir”arg 长度不为 1
此外:警告信息:
在 cmdscale(distmatrix, k = nrow(x) - 1, eig = T, add = add) 中:
前 19 个特征值中只有 13 个 > 0
所有数据具有相同的长度。
谁能帮我?谢谢!
python - 如何根据给定数据实施、选择和排名最佳连续分布?
我已经做了一些关于根据给定数据找到最佳连续分布的研究,我发现了几个 StackOverflow 问题,如下所示:
此外,来自 ResearchGate:
此外,来自文章:
问题一:
但是,从所有这些研究中,我仍然无法确定哪种拟合优度指标可以帮助我为给定数据选择最佳分布模型。我已经为两个统计测试(Kolmogorov-Smirnov 和 Anderson-Darling)编写了我的方法我不确定我的方法对于这些测试是否正确,
问题2:
另外,我想知道如何创建一个类似表格的结构,其中包含所有拟合优度测试,例如:
- 卡方检验
- AIC
- BIC
- BICc
- R平方
- 科尔莫哥洛夫-斯米尔诺夫
- 安德森-达令
附带问题:
我将上面的代码运行到我的数据中,它不断给我最常见的分布是:
但是,如果我观察直方图,我的数据的 beta 分布并不理想。此错误的原因可能是什么?
编辑1:
我设法重新设计了 get_best_disfribution 函数,并想到了使用数据框将测试统计结果打印到以下代码中,所以,根据我之前的问题,我怎样才能对数据框进行排名(与照片相同)?
代码:
python - 执行 Johansen 整合检验时遇到错误
我正在尝试对以下数据框执行协整测试:
但是,我收到以下错误:
有人可以帮助我为什么会收到这样的错误吗?
r - 如何在 R 中使用逻辑回归找到 c-ctatistic 或 AUROC?
我正在运行逻辑回归以查看这些因素/变量如何影响结果(神经系统并发症)。
如何获得 c 统计量 - 也称为接收器操作特性 (AUROC) 曲线下的面积?
r - 用R中的中位数替换用逗号分隔的数字字符串
我需要帮助替换或提取数字字符串,在我的 df 的每个元素中用逗号分隔,并将其替换为中位数。例如,
现在我需要将变量a替换为每个元素中包含的这些数字的中位数,如下所示:
一点点背景。每个数字实际上是属于相应名称的一个单词的长度。我需要找到每个名称的中值长度,并确定以元音开头的名称是否具有更长的中值长度。因此,例如,从上面我将得出结论,以元音开头的名称长度较短。并使用测试来证明它在统计上是显着的。如果有人可以以任何方式指导我,我真的很感激!
python - 如何在时间序列应用程序中进行统计测试
我收到了一篇关于使用机器学习预测股市的论文的反馈,审稿人问了以下问题:
我希望您对您的方法的样本外性能进行统计测试。因此,在原始措辞中“显着不同”。我同意一些图形在视觉上看起来很棒,但在视觉上,随机噪声似乎包含模式。我相信 Sortino Ratio 是适合测试的统计数据,并且可以使用 bootstrap 进行测试。即,获得 BH 和您的策略的分布,并计算这些分布的重叠。
我的问题是我从来没有对时间序列数据这样做过。我的验证过程使用了一种叫做向前走的策略,我在时间上移动数据 11 次,生成 11 种不同的训练和测试组合,没有重叠。所以,这是我的问题:
1-考虑到审稿人的要求,最好(或更合适)的统计测试是什么?
2-如果我没记错的话,统计测试需要向量作为输入,对吗?我可以生成一个包含 11 个 sortino 比率值(每次步行 1 个)的向量,然后将它们与基线进行比较?还是我应该多次运行我的代码?考虑到审查的排序时间,我担心最后的选择是不可行的。
那么,在这个时间序列场景中统计比较机器学习方法的正确行动是什么?
r - 如何从r中的表中删除组?
我必须进行 t 检验,并且需要删除以“无答案”响应的那组人,这会产生第三组,即 99 组。我不断收到一条错误消息,说分组因子需要正好有两个组。我想保留第 1 组和第 2 组。这是我正在寻找的结果类型的示例:
我已经尝试过选择并保留功能,但它们要么不起作用,要么不做我想做的事。
有人可以帮助我吗?