“goodness-of-fit”的相关标签问题

0 投票

1 回答

115 浏览

r - 查找具有最低分量值的变量名称的快速方法

我有一个函数拟合分布并返回一个由分布名称、均值、sd 等组成的向量。我正在测试几个分布但我不能依赖 gofstat() 因为当有太多零要考虑时它会发疯.

因此，我必须手动比较几个变量的 AIC，确定哪些实际上属于“fitdist”类，并返回具有最低 AIC 的变量的名称。一旦我有了它，我计算平均值、标准差等并返回。

目前的代码如下所示：

它可以工作，但是要考虑数千个样本非常慢。我欢迎任何建议如何优化它并使其“更清洁”和更快。

顺便说一句，这就是我之前所拥有的，但是就像我提到的那样 - 样本包含太多的零，它很合适（双关语无意！）

ans[!test & ok] <- rep(no, length.out = length(ans))[!test & 中的错误：替换的长度为零

r optimization goodness-of-fit fitdistrplus

2018-03-22T21:15:17.987

0 投票

3 回答

2594 浏览

python - 是否有适用于 python 的 Anderson-Darling 实现返回 p 值？

我想找到最适合某些数据的分布。这通常是某种测量数据，例如力或扭矩。

理想情况下，我想使用多个分布运行 Anderson-Darling，并选择具有最高 p 值的分布。这类似于Minitab中的“拟合优度”检验。我很难找到计算 p 值的 Anderson-Darling 的 python 实现。

我试过scipy stats.anderson()，但它只返回 AD 统计和具有相应显着性水平的临界值列表，而不是 p 值本身。

我也研究过statsmodels，但它似乎只支持正态分布。我需要比较几种分布的拟合（正态、威布尔、对数正态等）。

在 python 中是否有 Anderson-Darling 的实现，它返回 p 值并支持非正态分布？

python statistics p-value hypothesis-test goodness-of-fit

2018-06-12T07:00:52.737

0 投票

2 回答

367 浏览

r - 在适合卡方检验的优度上获得 p 值 = 1

我正在尝试使用 R 对一系列观察结果对泊松进行拟合优度检验。我正在计算每分钟有多少人在 57 分钟内做了某件事。我从来没有得到任何大于 13 的观察结果，我得到了以下数据：（对于 0 到 13 人以上的案例）：

这意味着我观察了 3 次 0 人、4 次 1 人、9 次 2 人等等（最后的 0 表示我从未见过 14 人或更多人）。

其中mn是从数据中获得的平均值。最后，我跑

我得到：

我在这方面并不精通（既不是统计数据，也不是 R 编程），但我认为我不应该得到一个恰好为 1.0 的 p 值。我究竟做错了什么？（顺便说一句：我的代码很可能不是我想要做的事情的最佳选择，但我几乎不使用 R，这不是我现在工作的重点。）

r statistics chi-squared goodness-of-fit

2018-06-18T03:26:39.900

0 投票

1 回答

787 浏览

r - 在 R 中查找 Weibull 拟合（生存模型）的 R 平方值

我有一个生存对象（S），我正在使用 R 中的 survreg 函数和 weibull 分布对其进行 weibull 拟合。

如何提取本质上是一条线性线的 Weibull 拟合的 R 平方值？或者有没有计算相关系数值Rho的函数？

基本上，我想计算拟合优度。

r weibull goodness-of-fit survival

2018-07-02T18:24:21.767

0 投票

0 回答

855 浏览

python - 执行 Kolmogorov-Smirnov 测试的拟合优度 - scipy

我正在尝试对我的数据和估计分布执行 KS 测试拟合优度。剧情是这样的

我正在使用的代码和结果如下：

sp.stats.kstest(df['col'], 'norm', args = (mean, sd), N = 1000000)

KstestResult(统计=0.06905359838747682, pvalue=0.0)

从 df 我正在获取我的数据点。
'规范'，因为我假设正态分布。
args 是一个元组
我使用我的数据集估计的理论分布函数的参数。
N = 1000000 作为样本大小。

当然，拟合并不完美，但我不明白为什么 p 值只有 0.0。我是在使用该功能做错了什么还是不合适？我希望 p 值很小，甚至小到 0.01 或 0.000000536 或其他任何值，但不会完全为零。

任何想法有什么问题或可以做些什么来使它工作？

顺便说一句：原始数据最初是对数正态分布的（查看原始数据，在图中是对数转换后）

python scipy statistics goodness-of-fit kolmogorov-smirnov

2018-07-04T23:39:17.357

0 投票

1 回答

316 浏览

r - NbClust nstart 和 iter.max 选项

我有兴趣使用 NbClust 包来尝试和评估各种分类解决方案。我知道 NbClust 有实现此类算法的方法，但这些方法是有限的。特别是 NBClust 不允许多次启动或增加最大迭代次数（kmeans 中的 nstart 和 iter.max）。NbClust 警告我已超过最大迭代次数，但无法增加它。有人对如何在 NbClust 中应用这两个选项有任何建议吗？谢谢。

r classification k-means goodness-of-fit

2018-07-12T11:02:19.050

0 投票

1 回答

102 浏览

scipy - 计算两个样本的累积分布

我正在查看ks 测试（2 个样本）的 scipy 代码，它计算任何两个给定样本的 CDF 之间的最大距离。计算累积分布函数的代码(CDF)。

我无法理解计算 cdf 的逻辑。首先，data1和data2被排序，然后使用np.searchsorted我们试图找到和中的data_all位置。只不过是 sorted和的串联。data1data2data_alldata1data2

如果的最小值data2低于data1. cdf这不违反不应随价值减少的假设吗

scipy statistics cdf goodness-of-fit cumulative-frequency

2018-08-02T16:21:10.970

0 投票

1 回答

793 浏览

python - 关键点描述符匹配：如何计算每个模板的拟合优度？

我不确定这是否属于 stackoverflow 或其他 stackexchange 站点 - 非常欢迎在这里输入。

我使用 python OpenCV 将目标图像的 BRISK 关键点描述符与三个不同的模板进行匹配。

什么是确定哪个模板是最合适的模板的实用、稳健、统计合理的方法？

现在我计算cv2.RANSAC返回的内点数cv2.findHomography（顺便说一下，它不会返回拟合优度统计数据）并采用具有最高数字的模板。

我查看了描述符距离的直方图，它似乎总是以高斯为中心（奇怪地）在大约 105（单位？）。

https://en.wikipedia.org/wiki/Random_sample_consensus似乎很有用。

非常感谢指导 - 谢谢！

python opencv keypoint ransac goodness-of-fit

2018-08-07T07:44:31.690

0 投票

1 回答

267 浏览

statistics - 多元回归模型（多输入多输出）评估

我一直在使用 R 平方（确定系数）和平均绝对百分比误差来查看回归模型得出的真实输出值（标量）和预测输出值（也是标量）之间的差异。

现在，我想以直观的方式查看回归输出（向量）如何接近我的真实输出（向量）。MSE 用于回归模型的训练，但很难判断您的模型是否正常。例如，如果真实输出值本身非常小（接近于零），并且如果您的预测输出是真实输出的两倍，那么即使预测是真实输出的两倍，MSE 也会非常小。

我已经搜索了一段时间，发现了“wilk 的 lambda 检验”、ANOVA、MANOVA、p 值、调整后的 R 平方等术语。但是我还没有弄清楚我可以并且应该使用什么。

statistics regression evaluation goodness-of-fit

2018-11-03T19:32:30.983

0 投票

1 回答

509 浏览

r - 使用“bife”包的固定效应 logit 模型的拟合优度

我正在使用“bife”包在 R 中运行固定效应 logit 模型。但是，鉴于下面的结果，我无法计算任何拟合优度来测量模型的整体拟合。如果我能知道如何在有限的信息下测量拟合优度，我将不胜感激。我更喜欢卡方检验，但仍然找不到实现这一点的方法。

r statistics logistic-regression goodness-of-fit log-likelihood

2018-11-08T11:11:13.537

问题标签 [goodness-of-fit]

Reference