问题标签 [scipy.stats]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
127 浏览

python-3.x - Scipy 的 ks_2samp 函数给出了良好的 D_statistic 但错误的 p_value

我正在尝试执行两个样本的 Kolmogorov-Smirnov 检验,以检查两个样本是否来自同一群体。这是重现我的问题的代码:

使用 1.3 之前的 scipy 版本,我得到以下结果: d_statistic = 0.67317 和 p_value = 0.0

但是对于 scipy 版本 >= 1.3:d_statistic = 0.6705 和 p_value = 0.9904774590824749

两者都给出几乎相同的 d_statistic 但最新版本的 scipy 似乎给了我一个错误的 p_value 我不明白为什么。实际上,x 和 y 显然是两个样本,它们并非来自同一群体。

我做了一些研究,因为 scipy==1.3 发布了“精确”模式,并且是小样本的默认模式(len(x), len(y) <= 10000 这是我的情况)。但是,如果我将模式从 'exact' 更改为 'asymp',我得到的结果与我从最旧的 scipy 版本中得到的结果相同。

计算 p_value 时“精确”模式是否存在问题,还是我遗漏了什么?

感谢您的帮助,h1t5uj1

0 投票
2 回答
756 浏览

python - 尝试将 box-cox 转换应用于 Pandas 中的列时出错

这应该是非常基本的,但这里似乎没有关于它的帖子(好吧,我没有找到任何帖子)。

我尝试将 box-cox 转换应用于 Pandas 中的列,但出现此错误:

这就是我所做的:

这不应该工作吗?

它只是一个常规的 pandas 列,其数值变量范围从 0.005 到 39,并且没有缺失值。

0 投票
0 回答
18 浏览

python - 有没有一种有效的方法来估计python中两个多元正态分布的共同质量?

标题说明了大部分内容。我正在使用 scipy.stats 的multivariate_normal类来模拟多元正态分布。给定其中两个,我想估计它们共同共享的 PDF 的数量,该值应该在 0 和 1 之间。只需获取一堆坐标并使用multivariate_normal's built在每个点评估每个分布的 PDF in pdf()function 不是很好,因为它没有标准化,你几乎总是会得到高于 1 的答案。我找不到任何关于如何更改pdf()评估 PDF 的“粒度”的文档。任何帮助表示赞赏。

0 投票
1 回答
341 浏览

python-3.x - 如何获取所有数字列的“.describe()”统计信息,无论是否嵌套?

获取数据帧(或列表或数组)中任何列的简单描述性统计信息的最佳方法是什么,无论是否嵌套,一种高级 df.describe() 还包括具有数值的嵌套结构。

就我而言,我有一个包含许多列的数据框。有些列的每一行都有一个数字列表(在我的例子中是一个时间序列结构),这是一个嵌套结构。

这种嵌套结构意味着:

  • 数组列表,
  • 数组数组,
  • 一系列列表,
  • 在某些列中具有嵌套数值列表的数据框(我的情况)

如何一次性从任何级别的嵌套结构中获取简单的描述性统计数据?

要求

只会给我数字列的统计信息,但不会给我包含数值列表的列的统计信息。我无法仅通过应用获得统计信息

或者因为它是如何获得 NumPy 数组的描述性统计数据中的解决方案?对于非嵌套数组。

0 投票
1 回答
174 浏览

python - Python scipy rv_continuous 实现的问题

我正在尝试使用自定义分布创建 rv_continuous 的子类,我可以通过许多函数计算pdf。

这是我到目前为止所做的

辅助功能

最终密度函数

一组参数

从功能检查 pdf

现在构建我的分发类

实例化

正如我指定的 _pdf 我应该有一个工作分发实例

这行得通

cdf 也可以工作,尽管它非常慢

但是对于所有其他方法,我得到了 nans,例如

我在这里做错了什么?

0 投票
1 回答
34 浏览

pandas - 物流模型总结

这个函数产生一个错误我的代码:

它给出了这个错误,我不明白为什么?

我认为在 statsmodels 中有某种更新,我真的找不到解决这个问题的方法,虽然我找到了一些相同错误但原因不同的帖子。我将衷心感谢您的帮助。

0 投票
0 回答
479 浏览

python - 两个分布python之间的Wasserstein距离

我有一些数据在事件发生前后的分布。我想找到这两个分布之间的距离。换句话说,我需要在多大程度上扩展活动前的分布才能接近活动后的分布?我认为 Wasserstein 距离似乎很适合我的问题,但我有一些疑问:

  1. 分布为:X轴为天数,Y轴为当天数据点数。如何将这两列作为输入传递给 scipy.stats.wasserstein_distance ?
  2. 事后分布比事前分布更长尾。测量 X 轴幅度变化以及 Y 轴增加的最佳距离度量是什么?

这是真实数据集的示例图,蓝色是事件发生前,橙色是事件发生后。我的最终目标是从这样的分布中学习并概括一个比例因子,即我需要多少缩放我的事件前分布才能达到事件后分布?

1同一对象的两个分布。 蓝色是事件发生前,橙色是事件发生后

0 投票
1 回答
85 浏览

python - 如何创建线性分数分布作为自定义离散概率分布?

我定义了以下自定义概率分布:

当我让我的脚本运行时,我收到一条冗长的错误消息:

如果我这样做LF.mean(),我会得到

有谁知道这是为什么以及我如何解决这个问题?我是否必须定义我的概率分布的上限?

0 投票
0 回答
106 浏览

python - 使用 scipy 的 Pearson 相关性,提高速度的方法

我有一个 1222 行和 33000 列的数据框,我需要在 16000 与数据框中的剩余列之间运行相关性。目前,我正在使用scipy.statsPearson 相关方法从 python 中使用库。这是我正在尝试的功能:

上面的代码正在完成它的工作,但是,因为我的数据框大小1222 X 33000确实需要 30 多分钟才能完成工作。如果有人能提出一些方法来提高大数据帧的这个函数的速度,那就太好了。谢谢

0 投票
1 回答
34 浏览

pandas - 选择其值正常的列

我有一个包含多列的数据框,其想法是仅过滤其值来自正态分布的列。

在此示例中,仅选择了normal1、normal2、normal3列。选择标准可以通过 shapiro 检验: stats.shapiro,其中选择 p 值大于 0.05 的列。