问题标签 [goodness-of-fit]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
115 浏览

r - 查找具有最低分量值的变量名称的快速方法

我有一个函数拟合分布并返回一个由分布名称、均值、sd 等组成的向量。我正在测试几个分布但我不能依赖 gofstat() 因为当有太多零要考虑时它会发疯.

因此,我必须手动比较几个变量的 AIC,确定哪些实际上属于“fitdist”类,并返回具有最低 AIC 的变量的名称。一旦我有了它,我计算平均值、标准差等并返回。

目前的代码如下所示:

它可以工作,但是要考虑数千个样本非常慢。我欢迎任何建议如何优化它并使其“更清洁”和更快。

顺便说一句,这就是我之前所拥有的,但是就像我提到的那样 - 样本包含太多的零,它很合适(双关语无意!)

ans[!test & ok] <- rep(no, length.out = length(ans))[!test & 中的错误:替换的长度为零

0 投票
3 回答
2594 浏览

python - 是否有适用于 python 的 Anderson-Darling 实现返回 p 值?

我想找到最适合某些数据的分布。这通常是某种测量数据,例如力或扭矩。

理想情况下,我想使用多个分布运行 Anderson-Darling,并选择具有最高 p 值的分布。这类似于Minitab中的“拟合优度”检验。我很难找到计算 p 值的 Anderson-Darling 的 python 实现。

我试过scipy stats.anderson(),但它只返回 AD 统计和具有相应显着性水平的临界值列表,而不是 p 值本身。

我也研究过statsmodels,但它似乎只支持正态分布。我需要比较几种分布的拟合(正态、威布尔、对数正态等)。

在 python 中是否有 Anderson-Darling 的实现,它返回 p 值并支持非正态分布?

0 投票
2 回答
367 浏览

r - 在适合卡方检验的优度上获得 p 值 = 1

我正在尝试使用 R 对一系列观察结果对泊松进行拟合优度检验。我正在计算每分钟有多少人在 57 分钟内做了某件事。我从来没有得到任何大于 13 的观察结果,我得到了以下数据:(对于 0 到 13 人以上的案例):

这意味着我观察了 3 次 0 人、4 次 1 人、9 次 2 人等等(最后的 0 表示我从未见过 14 人或更多人)。

其中mn是从数据中获得的平均值。最后,我跑

我得到:

我在这方面并不精通(既不是统计数据,也不是 R 编程),但我认为我不应该得到一个恰好为 1.0 的 p 值。我究竟做错了什么?(顺便说一句:我的代码很可能不是我想要做的事情的最佳选择,但我几乎不使用 R,这不是我现在工作的重点。)

0 投票
1 回答
787 浏览

r - 在 R 中查找 Weibull 拟合(生存模型)的 R 平方值

我有一个生存对象(S),我正在使用 R 中的 survreg 函数和 weibull 分布对其进行 weibull 拟合。

如何提取本质上是一条线性线的 Weibull 拟合的 R 平方值?或者有没有计算相关系数值Rho的函数?

基本上,我想计算拟合优度。

0 投票
0 回答
855 浏览

python - 执行 Kolmogorov-Smirnov 测试的拟合优度 - scipy

我正在尝试对我的数据和估计分布执行 KS 测试拟合优度。剧情是这样的 在此处输入图像描述

我正在使用的代码和结果如下:

sp.stats.kstest(df['col'], 'norm', args = (mean, sd), N = 1000000)

KstestResult(统计=0.06905359838747682, pvalue=0.0)

  • 从 df 我正在获取我的数据点。
  • '规范',因为我假设正态分布。
  • args 是一个元组
  • 我使用我的数据集估计的理论分布函数的参数。
  • N = 1000000 作为样本大小。

当然,拟合并不完美,但我不明白为什么 p 值只有 0.0。我是在使用该功能做错了什么还是不合适?我希望 p 值很小,甚至小到 0.01 或 0.000000536 或其他任何值,但不会完全为零。

任何想法有什么问题或可以做些什么来使它工作?

顺便说一句:原始数据最初是对数正态分布的(查看原始数据,在图中是对数转换后)

0 投票
1 回答
316 浏览

r - NbClust nstart 和 iter.max 选项

我有兴趣使用 NbClust 包来尝试和评估各种分类解决方案。我知道 NbClust 有实现此类算法的方法,但这些方法是有限的。特别是 NBClust 不允许多次启动或增加最大迭代次数(kmeans 中的 nstart 和 iter.max)。NbClust 警告我已超过最大迭代次数,但无法增加它。有人对如何在 NbClust 中应用这两个选项有任何建议吗?谢谢。

0 投票
1 回答
102 浏览

scipy - 计算两个样本的累积分布

我正在查看ks 测试(2 个样本)的 scipy 代码,它计算任何两个给定样本的 CDF 之间的最大距离。计算累积分布函数的代码(CDF)

我无法理解计算 cdf 的逻辑。首先,data1data2被排序,然后使用np.searchsorted我们试图找到 和 中的data_all位置。只不过是 sorted和的串联。data1data2data_alldata1data2

如果 的最小值data2低于data1. cdf这不违反不应随价值减少的假设吗

0 投票
1 回答
793 浏览

python - 关键点描述符匹配:如何计算每个模板的拟合优度?

我不确定这是否属于 stackoverflow 或其他 stackexchange 站点 - 非常欢迎在这里输入。

我使用 python OpenCV 将目标图像的 BRISK 关键点描述符与三个不同的模板进行匹配。

什么是确定哪个模板是最合适的模板的实用、稳健、统计合理的方法?

现在我计算cv2.RANSAC返回的内点数cv2.findHomography(顺便说一下,它不会返回拟合优度统计数据)并采用具有最高数字的模板。

我查看了描述符距离的直方图,它似乎总是以高斯为中心(奇怪地)在大约 105(单位?)。

https://en.wikipedia.org/wiki/Random_sample_consensus似乎很有用。

非常感谢指导 - 谢谢!

0 投票
1 回答
267 浏览

statistics - 多元回归模型(多输入多输出)评估

我一直在使用 R 平方(确定系数)和平均绝对百分比误差来查看回归模型得出的真实输出值(标量)和预测输出值(也是标量)之间的差异。

现在,我想以直观的方式查看回归输出(向量)如何接近我的真实输出(向量)。MSE 用于回归模型的训练,但很难判断您的模型是否正常。例如,如果真实输出值本身非常小(接近于零),并且如果您的预测输出是真实输出的两倍,那么即使预测是真实输出的两倍,MSE 也会非常小。

我已经搜索了一段时间,发现了“wilk 的 lambda 检验”、ANOVA、MANOVA、p 值、调整后的 R 平方等术语。但是我还没有弄清楚我可以并且应该使用什么。

0 投票
1 回答
509 浏览

r - 使用“bife”包的固定效应 logit 模型的拟合优度

我正在使用“bife”包在 R 中运行固定效应 logit 模型。但是,鉴于下面的结果,我无法计算任何拟合优度来测量模型的整体拟合。如果我能知道如何在有限的信息下测量拟合优度,我将不胜感激。我更喜欢卡方检验,但仍然找不到实现这一点的方法。