问题标签 [kolmogorov-smirnov]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
195 浏览

pyspark - 在 pyspark 中聚合 Kolmogrov Smirnov 测试

spark.mllib有没有办法使用 groupBy 子句或某种聚合方法从 pyspark 中的库中应用 KS 测试?例如,我有一个df带有列的数据框IDRESULT如下所示:

有2个IDs 36482963648189每个对应的RESULT值都在几十万的数量级。是否可以像这样应用 groupBy 函数:

这样我得到一个输出数据框,如:

这可能吗?

0 投票
1 回答
55 浏览

r - R 中 Kolmogorov-Smirnov (KS) 检验的广义极值函数

R 中 Kolmogorov–Smirnov (KS) 测试的广义极值函数的缩写是什么。我正在尝试以下代码,但它不起作用:

0 投票
1 回答
95 浏览

python - python的Kolmogorov测试

我试图测试数据是否遵循“正态”分布,但 kstest 没有按我预期的那样工作。Vy 使用normalnumpy 它“从正态(高斯)分布中抽取随机样本”。

我已经检查了两种生成正态分布的方法,numpy但是scipy这并没有给出这是一个正态分布的结果。

但是,通过转换(data - np.mean(data))/np.std(data)我得到它是正态分布。

我在这里缺少什么?为什么它不直接与这个测试正常的结果?

0 投票
1 回答
1290 浏览

python - Python 中的 Kolmogorov-Smirnov 拟合优度检验

我正在尝试为我的数据获得最佳分布。装配完成如下图所示,但我需要测量,以选择最佳模型。我将拟合优度与卡方值进行了比较,并使用 Kolmogorov-Smirnov (KS) 检验来检验观察分布和拟合分布之间的显着差异。我搜索了一些潜在的解决方案1 , 2 , 3但我没有得到答案。从下图中的结果:

  1. 如果p-value高于k-statistic,是否意味着我们可以接受假设或数据很好地拟合分布?

  2. 或者,是否可以比较level of significance(a=0.005)p-value决定接受或拒绝假设?如果p-value低于a,则很可能两个分布不同。

  3. 对于Kolmogorov-Smirnov test,是否必须标准化数据 (-1,1) ?

  4. 从 KS 统计量和 P 值来看,最exponnorm适合数据。那是对的吗?

在此处输入图像描述

我通过以下方式计算了 P 值:

0 投票
1 回答
127 浏览

r - ks.test 中的错误来自于累积分布函数不是真的,因为离散分布在 R 中没有内置函数

我有这个离散数据,我想做一个样本 kolmogorov smirnov 测试但是当我运行以下代码时它给了我一个错误

错误:

当我尝试测试 cdf 函数时,

R给我以下错误

我认为 ks.test 中的错误来自错误的累积分布函数。

0 投票
0 回答
79 浏览

r - 是否可以在 Tableau 上的 R 中执行 KS 测试?

我的代码:

如果您" "在 R 中的引号之间运行一组命令,仅替换(.arg1)(norm(100)),您将看到该函数工作正常,并且d变量输出将仅返回一个数值(在本例中为 p 值)。

我不知道为什么这些功能在 Tableau Desktop 中不起作用。那么将 R 与 Tableau 集成的目的是什么?

0 投票
1 回答
26 浏览

python - 使用 kolmogorov-smirnov 检验评估自定义指数方程的拟合优度

我知道这里已经有几个类似的问题,但没有一个能真正回答我的具体问题。

我有一个单独的值数组(图中的黑色方块)。现在要检查黑色方块是否与红线有显着差异,红线是我通过将指数方程拟合到数据而创建的。合身是这样创建的:

如您所见,我使用的指数方程与“标准”指数方程略有不同,因此运行类似pval = scipy.stats.kstest(y_array, "expon")[1]不起作用的东西。我虽然类似的东西pval = scipy.stats.kstest(y_array, exponential_equation, args=(k,c)[1]会起作用,但这也返回一个 pvalue2.68e-104并通过眼睛评估拟合,看起来 pvalue 应该高于 0.05..

如果有人能告诉我我做错了什么或能指出我正确的方向,我会非常高兴!

干杯!

在此处输入图像描述

0 投票
0 回答
48 浏览

r - different results between the paper and my code to calculate the p-value of Kolmogorov–Smirnov (K–S) test in R

I want to know if the following distributions fit the given data well or not. I used the Kolmogorov–Smirnov (K–S) statistic for the following two distributions but, i obtained different p-value of k-s test than in the original paper.

In another words my question is why the p-value of k-s test is different from my code than the published paper. First I have note the first distribution has parameter "a" where [0 < a=exp(- theta) < 1 where theta >0 ]. I do not know if this the reason for the different result in the p-value . The first distribution has the following log-likelihood function, cumulative distribution function and finally the k.s-test

The data is

My results, first for maximum likelihood then for k-s test:

My results for k-s test

My results gave insignificant p-value which mean we reject this distribution to fit this data.

CDF of the previous distribution in published paper

The log-likelihood function

The results in the published paper as follows The results of p-value which is significant

The Second distribution: The second distribution has the following log-likelihood function, cumulative distribution function and finally the k.s-test The data d <- c(5, 11, 21, 31, 46, 75, 98, 122, 145, 165, 196, 224, 245, 293, 321, 330, 350, 420)

My results

k-s test result:

The cumulative distribution function The log-likelihood function

The results of p-value from the paper is p-value from published paper which is 1 i.e, based on the p-value of paper, this distribution is good to fit this data but my results give another result which is this distribution is not good to fit this data. For this distribution, all parameters are greater than zero.

Any help to know where the problem.

0 投票
1 回答
222 浏览

python - 如何计算Python中两个累积样本分布之间的最大距离?

假设有两个长度相同的一维 Numpy 数组样本 X1 和 X2。将两个样本分别转换为累积密度分布后,如何计算两个累积样本分布之间的最大距离?在下面的代码之后,我该怎么办?

0 投票
1 回答
555 浏览

python - 用于泊松分布的 scipy.stats kstest / 适用于 (x2) 面但不适用于 (x1) 面?

非常简单的测试:

  1. 使用泊松分布生成数字的随机分布。使用 KS 检验确定它是否与泊松分布匹配。
  2. 使用泊松分布生成 (x2) 随机数字分布。使用 (x2) 边 KS 测试来确定它们是否相同。

从上面看,(1) 给出了一个p 值,而 (2) 给出了一个p 值。为什么?

代码 1

结果: 0.1239297144718523 7.61680985798287e-14

代码 2

结果: 0.023672000000000026 0.6301973762116004