问题标签 [statistical-test]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 线性模型的自举残差
假设我想在省略协变量之前和之后评估线性模型的优劣,并且我想实现某种自举。
我试图引导两个模型的残差之和,然后我应用 Kolmogorov-Smirnov 检验来评估这两个模型是否是相同的分布。
最小的工作代码:
但是,在删除wt(具有统计学意义)和am(不是)时,我得到了相同的结果。
如果我删除wt ,我应该期望一个更小的 p 值。
python - 用于获取逻辑回归的最大似然估计的 Python 包
由于这篇文章很长,我将在这里提出我的问题:
1. python 中是否有一个包可以为我提供最大似然估计参数,对于给定数量的参数 p,协变量 x 和数据值 y?(最好有关于如何实现它的综合文档)
2. 如果我尝试 O(100) 协变量和相似数量的数据样本,这种方法是否可扩展,即是否可行?
背景:
我正在尝试使用 python 研究具有不同数量的样本 n /协变量 p 的最大似然估计量的分布。我的脚本可以很好地生成逻辑回归的数据,但是我无法让任何参数估计方法(即最大化对数似然的参数值)正常工作。
我尝试过的方法:
- 编写我自己版本的 Newton Raphson 程序。但是我的估计中的错误在重复迭代中是不同的(我当然检查了明显的符号和不等式错误!)
- 使用牛顿共轭梯度实现。这也失败了,因为错误“数组的真值不明确”。当我编写自己的版本时,我可以使用 all() 来解决这个问题,但在使用包时不行。奇怪,因为我认为 Newton CG 是为多变量案例工作的!
-最后,我打算使用包statsmodels。我不知道我是否真的很迟钝,但我找不到任何全面的文档?为了获得逻辑回归参数,我发现的最好的是 this,我尝试过例如
我已经尝试过最后一行:
但似乎没有什么可以给我估计参数值。我要么有错误,要么有我不期望的对象。当然有一个python包应该这样做?!?当然,我不应该求助于 R(我不知道 RD:!!!)
可选 代码
我不想让这篇文章更长,但我相信它会被要求。所以我已经输入了实现 Newton Raphson 的代码,并且我一直在用现有的包替换这个函数:
r - 只有汇总数据(IQR,中位数)可用时的 Mann-Whitney U 检验
当原始数据不可用时(这通常发生在我们从不同的科学论文中获取数据时),当只有中位数、IQR 和样本量可用时,如何执行 Mann-Whitney 分析来检验两个样本在统计上是否不同?
我想通过使用 R 指挥官来解决这个问题。
例如:
样本1:中位数1=2.5;IQR1=1.25-3.4;n1=4
样本2:中位数2=3.1;IQR2=2.25-6;n2=8
当进行 MW 时,它们在统计学上是否不同?
sas - SAS Proc NPAR1WAY wilcoxon 精确测试产生空 P 值?
我有一个活动结果,其中我有一个测试和保持数据集,其中方差不是正态分布的。我试图使用 Proc NPAR1WAY wilcoxon 精确测试来获得 P 值。由于某种原因,所有输出都已正确填充,但 Exact Test 部分显示所有字段的 Null。不确定还要检查什么,因为 VAR 中的所有值都不为空,并且日志没有显示任何错误消息。
结果
r - 使用 For 循环时如何创建向量?
我正在尝试从 10,000 个大小为 30 的随机正常样本中进行双边符号测试。我正在尝试提取从 binom.test 给出的 p 值并将它们放入向量中,但无法完全弄清楚如何执行这个。
r - Survminer,生存包:“survdiff”对数秩和“常规”对数秩测试有什么区别?
我正在使用survminer
R 中的生存包。要计算 p 值以比较生存曲线,我正在使用该surf_pvalue
函数。
使用此函数,您可以通过两种不同的方式确定对数秩 p 值。一个称为“survdiff”,另一个称为“1”或“LR”。有关更多信息,请参阅此链接。第二个说它是“常规对数秩检验,对检测后期差异很敏感”,但两者之间有什么区别。有人知道吗?
谢谢你。
machine-learning - 如何检查文本数据样本是否正确代表总体?
我有一个包含 2 列的大型文本数据集 - 第一个是文本描述,第二个是它所属的类别。我使用以下方法选择分层样本:
但我需要证明它代表了原始人口。我如何证明或确保这一点?
我发现 Chi2 用于分类数据,但无法找到如何将其应用于文本数据。我发现的另一种方法是 PCA,但我们如何为文本数据绘制 PCA?
谁能告诉我如何通过使用统计测试方法或任何其他方法分析样本与总体,以确保它代表原始总体?