问题标签 [statistical-test]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
184 浏览

r - 使用 r 测试相关系数向量的显着性

我有一个相关系数向量 (r) 和一个包含观察次数 (n) 的向量,我想测试它们中的每一个以查看它们是否与 0 显着不同。

计算 t 值很容易,但是有没有办法使用 R 来测试它们,而不是求助于统计书后面的表格?

0 投票
2 回答
218 浏览

r - R - doParallel 不适用于 Student 和 Fisher 测试

因此,当我必须处理大量元素以更快地计算它时,我正在使用 R 包 doParallel 来并行化我的脚本的一些步骤。因为这一次,到目前为止我使用的所有函数都与 foreach() 完美配合:我只需要使用 registerDoParallel() 指定我的核心数量,仅此而已!

我最近尝试使用 var.test() 和 t.test() 在 R 中使用不同的统计测试,但我不明白为什么,但我意识到在 foreach() 中使用它不起作用......所以要更多清楚我基本上在做的是迭代相同维度的 2 个矩阵的行:每个矩阵中的每一行包含 5 个数值,例如:

对于第 1 行,从对 10 个数值(每个矩阵的第 1 行中的 2 组 5 个值)进行的 Fisher 检验中提取相应的 p.value。问题是我的矩阵有数百万行,所以我必须遍历行数,我用 foreach() 函数来做到这一点:

(这里我在 foreach() 之前设置了 registerDoParallel(cores = 6))。我尝试了不同的测试:fisher 测试和学生测试 (t.test()),不幸的是,它们都没有在我的 6 个内核上工作,只有一个。

我也尝试了“cl”: registerDoParallel(cl = 4) 它也不起作用。

我试图重新启动 R,退出并重新打开会话,重新启动计算机:不起作用。

有谁知道为什么它不起作用,以及如何解决这个问题?

我的配置:Linux Mint 18.2 Cinnamon 64 位(3.4.6);英特尔酷睿 I7-6700 CPU;R 版本 3.4.3 (2017-11-30); RStudio 版本 1.1.383 2009-2017。

这里有 2 个简短的矩阵示例

矩阵A:

矩阵B:

预先感谢大家的帮助。问候,

0 投票
1 回答
107 浏览

r - R 3个变量的多重/逻辑回归,统计检验?

我需要一些有关统计测试代码的帮助。基本上,我正在尝试研究年龄、政治地位和大麻合法化观点之间的关系。数据集是 2010 年英国社会态度调查。

使用的变量是:RAge(年龄)PartyIDN(政党确定)CanLegal(大麻合法化)

为简化起见,我将年龄分类,只保留了两个最大的政党。

我将如何进行统计测试以获取有关年龄、政治以及他们如何看待大麻合法化之间关系的 P 值?

欢迎任何帮助,谢谢!

0 投票
0 回答
118 浏览

r - 如何做累积图,哪个统计测试更好?

我需要在 R 中做一些累积图,但我真的不知道该用什么。我有如下数据。我想做一些图表,如图片所示(链接下方)。第一个告诉我,例如 80% 的止损发生在 Q 为 X 值时。第二个从超出值 (1mg/l) 开始,显示随时间累积的停止值。第三个显示随着时间的推移累积的止损。

[停止和排放百分比][1] [浓度累积停止][2] [随时间累积停止][3]

我使用的数据当然更大,是 10 年。

在做完这些图之后,我还想找出在排放量低或浓度过高时发生停车的时间比例。例如,在 10 年期间,10 个月代表停止。

我也在研究止损与其他变量的关系,但我不确定哪种测试最适合。我计划使用 Pearson 来确定放电与浓度的关系,但我不确定浓度的不连续数据是否有问题。对于 Stops 与浓度和放电的关系,我正在计划 Spearman 等级,但同样,我不确定它是否适用于分类变量(stops)和不连续数据(concentration)。您认为将这些变量关联起来的最佳选择是什么?

[1] : https ://i.stack.imgur.com/hYdkD.png [ 2 ]: https ://i.stack.imgur.com/N0qNW.png [3]:https://i.stack。 imgur.com/0nSrF.png

谢谢你的帮助!

0 投票
0 回答
30 浏览

statistics - 排名数据的统计显着性检验

我有以下格式的排名列表:

我想确定给定分数的每两对排名项目之间的差异是否显着。我应该进行什么统计测试?谢谢!

0 投票
1 回答
23 浏览

matlab - MATLAB - 统计矩阵比较以查找关系

我对 MATLAB 中的一个问题感到困惑。我希望在内部具有不同值的两个相同大小的矩阵(100x100)之间进行比较。我想找到矩阵内容之间的相似之处或关系。由于两个矩阵都来自不同的项目,因此需要进行归一化以使它们具有可比性。现在我在比较中挣扎。

我猜一个值的相关系数就足够了。

任何建议甚至代码示例?

一切都好丹尼尔

0 投票
0 回答
248 浏览

r - 在计算 kendall 的 tau-b 之前,我是否需要对变量进行排名?

我想对两个变量进行 Kendall 的 tau-b 等级相关性检验,看看它们是否相关。这两个变量都是连续的、强烈右偏的并且有很多联系。这就是为什么我选择做这个非参数测试。两个变量都没有排名。要进行 Kendall 的 tau-b 等级相关性测试,我在 R 中使用以下命令

这似乎是一个愚蠢的问题,但我不知道我是否应该在运行此命令之前对每个变量的数据进行排名,或者它是否自己计算排名。我还读到,对于 Kendall 的 tau-b,数据必须是正方形。如何判断我的数据是否为正方形?

0 投票
0 回答
927 浏览

python - 如何在 Python statsmodels adfuller 中为 maxlag 参数选择一个值?

我有关于网站点击量的月度数据,并想建立一个 SARIMA 模型来预测下个月的预期点击量。因为 SARIMA 模型需要处理固定数据,所以我对数据进行了转换并在 Python 中执行了 Augmented Dickey Fuller 测试,以便检测何时可以停止转换并开始将其输入模型(当p 值<0.05)。

由于数据是季节性的,我是否需要将 adfuller() 中的 maxlag 参数设置为 12,为什么/为什么不呢?

我在两个版本中都进行了 adfuller-test:

  • 默认最大延迟
  • 和 maxlag=12

当然,我收到不同的 p 值结果:

myTimeSeries 的情节

myLog 的情节

myDiff 的情节

mySeasonalDiff 的情节

看起来如果我必须设置 maxlag=12,我需要进一步转换我的数据,而如果我可以使用默认的 maxlag,我可以在获取日志和第一个差异后停止。所以我想知道,如何正确使用 ADF-Test。

谢谢你的帮助。

0 投票
0 回答
63 浏览

statistics - 如何比较不同统计检验的结果?

我不知道这是不是一个好问题。

情况就是这样,假设我有一个比例/连续因变量和一堆自变量。我的最终目标是建立一个模型来使用这些自变量来预测/估计因变量。我相信这是一个常见的设置。

关键是我知道所有变量的物理含义,但我不知道它们的详细关系(甚至相关与否)。我想更多地从分析/解释的角度构建模型,以便我可以从模型而不是黑匣子中获得一些真实世界的见解。

我的方法是尝试使用 CHAID 算法来构建决策树类型的模型。在每个分支,我想统计测试每个自变量,看看它与因变量之间是否存在关系。然后,根据测试结果,我想选择最强大的一个来构建我的树。

问题是,与大多数变量是分类的 CHAID 算法不同,在我的情况下,因变量是规模,而自变量是分类或规模,这意味着我可能需要对不同的变量进行不同的统计检验,例如 t 检验和 ANOVA 用于分类的和回归的连续的。我想知道我应该如何公平地比较这些结果以选择最强大的结果?(如 CHAID 中的修正步骤)

关于我计划的任何部分的任何想法对我来说都非常重要!谢谢!

0 投票
0 回答
23 浏览

p-value - 评估两个样本之间一个参数变化的显着性

假设我们有两个数据样本。其中之一有一个附加参数。该参数最初不存在于该数据样本中。但是在添加之后,我们可以看到样本的其他属性之一(例如性能百分比)显着增加。在另一个样本中,性能百分比没有增加。虽然另一个样本没有此参数,但我们如何确定第一个样本中性能百分比的变化是否与该特定参数的增加直接相关?

谢谢