问题标签 [statistical-test]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在 python 中为 2 个示例字符串列表创建 Kolmogorov-Smirnov 图表?
我在为 2 个将显示累积分布函数 (CDF) 的示例字符串列表创建 Kolmogorov-Smirnov 图表时遇到困难?
我已经能够计算出Ks_2sampResult(statistic=0.12939662567915355, pvalue=0.4183080902726968)
整个字符串列表,但困难在于如何绘制图表以显示累积频率分布 (CFS)
数据列表示例
列表 1 的子集,例如['team', 'new', 'estate', 'ho', 'ur', 'la', 'pak', 'ebay', 'biz', 'best']
列表 2 的子集,例如['ilsilenzio', 'stilllife', 'mathiasboe', 'achininimeshikaratnasiri', 'andrewdabeka', 'davekhodabux', 'lilytermetz', 'marianhorsley', 'lindacloutier', 'moniquehoogland',]
获取数据列表
绘制 CDF
python - 使用预先汇总的数据进行正态性检验
使用 spark 我为每个组(队列)聚合数据以仅包含平均值、标准差和方差。
现在在使用 python 的第二步中,我想测试正常性(https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.normaltest.html),然后使用 t-测试stats.ttest_ind
或stats.wilcoxon
等级测试。
然而,所有这些方法都期望数据作为原始的面向记录的值输入。如何将它们与预先聚合的数据一起使用?
r - 如何分离条形图?
我正在尝试绘制一个代表双向方差分析的条形图,但是条形图重叠,有没有人知道以这种方式绘制数据集的简单方法?
我期待这样的事情:
但是在同一个图中有两个因素和一个共同的 Y 轴。
r - 如何对 R 中的预测数据应用 wilcox 检验?
当我们有一个数据文件时,我们使用以下代码进行 k 折交叉验证训练数据,
我的问题是,如果我们必须找到显着性检验(wilcox 检验),我们该如何应用它?我们是否需要像下面这样通过 mode1 和 model 2 进行 wilcox 测试?
wilcox.test(模型1,模型2)
r - 如何对 train() 函数的结果进行 wilcox 测试
我在 R 中有以下代码,我想执行统计测试(wilcox)以确定两个模型之间是否存在显着差异。
我的问题是下一步是什么,以便我们执行 wilcox 测试,例如 wilcox.test (model1, model2)
r - 使用二项分布进行统计分析
我正在尝试使用二项分布来测试一个“随机”模型是否在 50% 的时间随机响应“virginica”,在 25% 的时间响应“setosa”,在最后 25% 的时间响应“versicolor”我的逻辑回归模型是否更准确,反之亦然。这可以做到吗?这是我的尝试...
machine-learning - 在训练和测试数据拆分后,是否需要验证数据集的 IID 并对相同分布进行统计测试?
我知道大多数机器学习算法都是基于输入数据是 IID(独立相同分布)的假设。因此,我们通常不进行统计测试来比较测试数据和训练数据的统计数据。
在实践中,严格来说,我们不能保证数据拆分同分布。通过不检查两个数据集的分布,会发生概念转移(或数据转移)。因此,我们的模型无法准确执行。但是,大多数网站帖子和教科书都没有涵盖这一点。
训练和测试数据拆分后是否需要验证 IID 并进行统计比较?例如两样本测试比较训练数据集和测试数据集的平均值
r - 名义尺度变量和基数尺度变量之间的相关系数
我必须描述变量“每场比赛完成的平均传球次数”(基本量表)和变量“位置”(名义量表)之间的相关性,并测量相关性的强度。为此,我必须考虑尺度正确选择相关系数。有谁知道最好的方法是什么?我不确定要使用什么,因为它是两个不同的比例。完整的数据集由以下变量组成:
- PLAYER:玩家的名字
- 国家:原产国
- 生日:生日日期
- HEIGHT_IN_CM:玩家的高度
- POSITION:玩家的位置
- PASSES_COMPLETED:玩家完成的传球
- DISTANCE_COVERED:玩家所覆盖的距离,以公里为单位
- MINUTES_PLAYED:播放分钟数
- AVG_PASSES_COMPLETED:玩家完成的平均传球次数
如果有人能给我一些建议,我将不胜感激。
谢谢!
r - R - 如何将数据转换成块形式进行弗里德曼测试?
在此处输入图像描述我有一些与治疗前后血液中化学物质水平有关的数据,并且有 4 个治疗组 - ABCD。有人告诉我,我可以运行弗里德曼测试来一次比较所有这些变量。我试过的代码是:
我收到此错误:
- ALPB 是治疗前的 ALP 水平。
- ALPM 是 ALP 之后的级别。
- 组是所有不同组的列标题。
所以我需要弄清楚如何将数据转换为块形式,以便我可以运行测试 - 有什么想法吗?
注意:我是 R 的新手,很抱歉提出一个非常基本的问题!
另外,我只关注 ALPB 和 ALPM - 我对其他专栏不感兴趣
r - 区域和年份分数之间的 R 中的 T 检验
我目前正在尝试运行(我相信是)独立样本 t 检验以确定分数之间是否存在显着差异,但是我对 R 有点陌生,并且正在尝试弄清楚情况.
本质上,我有一个数据集(我在下面的代码中提供的样本),按年份划分的区域及其各自的测试分数,我试图衡量显着差异的水平
到目前为止,我已经尝试过:
但是我没有看到任何显着的 p 值,而且我感觉我可能忽略了一些东西。我也尝试过查阅文献,但都失败了。只是想探索和咨询一些论坛,以确保我为我的特定目的覆盖了我的基地。例如,我想知道从 2003 年到 2012 年阿尔伯塔省的平均分数是否显着,但现在我相信它给了我一个与其他省份相比每个省的交叉表。
就像是:
将是我正在寻找的。
提前感谢您的任何指导!
杰斯