问题标签 [scipy.stats]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

208 问题

0 投票

1 回答

127 浏览

python-3.x - Scipy 的 ks_2samp 函数给出了良好的 D_statistic 但错误的 p_value

我正在尝试执行两个样本的 Kolmogorov-Smirnov 检验，以检查两个样本是否来自同一群体。这是重现我的问题的代码：

使用 1.3 之前的 scipy 版本，我得到以下结果： d_statistic = 0.67317 和 p_value = 0.0

但是对于 scipy 版本 >= 1.3：d_statistic = 0.6705 和 p_value = 0.9904774590824749

两者都给出几乎相同的 d_statistic 但最新版本的 scipy 似乎给了我一个错误的 p_value 我不明白为什么。实际上，x 和 y 显然是两个样本，它们并非来自同一群体。

我做了一些研究，因为 scipy==1.3 发布了“精确”模式，并且是小样本的默认模式（len(x), len(y) <= 10000 这是我的情况）。但是，如果我将模式从 'exact' 更改为 'asymp'，我得到的结果与我从最旧的 scipy 版本中得到的结果相同。

计算 p_value 时“精确”模式是否存在问题，还是我遗漏了什么？

感谢您的帮助，h1t5uj1

python-3.x kolmogorov-smirnov scipy.stats

2020-05-29T14:29:00.960

0 投票

2 回答

756 浏览

python - 尝试将 box-cox 转换应用于 Pandas 中的列时出错

这应该是非常基本的，但这里似乎没有关于它的帖子（好吧，我没有找到任何帖子）。

我尝试将 box-cox 转换应用于 Pandas 中的列，但出现此错误：

这就是我所做的：

这不应该工作吗？

它只是一个常规的 pandas 列，其数值变量范围从 0.005 到 39，并且没有缺失值。

python pandas scipy scipy.stats

2020-06-03T12:48:57.997

0 投票

0 回答

18 浏览

python - 有没有一种有效的方法来估计python中两个多元正态分布的共同质量？

标题说明了大部分内容。我正在使用 scipy.stats 的multivariate_normal类来模拟多元正态分布。给定其中两个，我想估计它们共同共享的 PDF 的数量，该值应该在 0 和 1 之间。只需获取一堆坐标并使用multivariate_normal's built在每个点评估每个分布的 PDF in pdf()function 不是很好，因为它没有标准化，你几乎总是会得到高于 1 的答案。我找不到任何关于如何更改pdf()评估 PDF 的“粒度”的文档。任何帮助表示赞赏。

python scipy statistics scipy.stats

2020-06-06T06:02:55.950

0 投票

1 回答

341 浏览

python-3.x - 如何获取所有数字列的“.describe()”统计信息，无论是否嵌套？

获取数据帧（或列表或数组）中任何列的简单描述性统计信息的最佳方法是什么，无论是否嵌套，一种高级 df.describe() 还包括具有数值的嵌套结构。

就我而言，我有一个包含许多列的数据框。有些列的每一行都有一个数字列表（在我的例子中是一个时间序列结构），这是一个嵌套结构。

这种嵌套结构意味着：

数组列表，
数组数组，
一系列列表，
在某些列中具有嵌套数值列表的数据框（我的情况）

如何一次性从任何级别的嵌套结构中获取简单的描述性统计数据？

要求

只会给我数字列的统计信息，但不会给我包含数值列表的列的统计信息。我无法仅通过应用获得统计信息

或者因为它是如何获得 NumPy 数组的描述性统计数据中的解决方案？对于非嵌套数组。

python-3.x pandas numpy multidimensional-array scipy.stats

2020-06-15T09:29:32.143

0 投票

1 回答

174 浏览

python - Python scipy rv_continuous 实现的问题

我正在尝试使用自定义分布创建 rv_continuous 的子类，我可以通过许多函数计算pdf。

这是我到目前为止所做的

辅助功能

最终密度函数

一组参数

从功能检查 pdf

现在构建我的分发类

实例化

正如我指定的 _pdf 我应该有一个工作分发实例

这行得通

cdf 也可以工作，尽管它非常慢

但是对于所有其他方法，我得到了 nans，例如

我在这里做错了什么？

python random distribution scipy.stats

2020-06-22T14:04:32.430

0 投票

1 回答

34 浏览

pandas - 物流模型总结

这个函数产生一个错误我的代码：

它给出了这个错误，我不明白为什么？

我认为在 statsmodels 中有某种更新，我真的找不到解决这个问题的方法，虽然我找到了一些相同错误但原因不同的帖子。我将衷心感谢您的帮助。

pandas statsmodels scipy.stats

2020-06-26T18:51:34.003

0 投票

0 回答

479 浏览

python - 两个分布python之间的Wasserstein距离

我有一些数据在事件发生前后的分布。我想找到这两个分布之间的距离。换句话说，我需要在多大程度上扩展活动前的分布才能接近活动后的分布？我认为 Wasserstein 距离似乎很适合我的问题，但我有一些疑问：

分布为：X轴为天数，Y轴为当天数据点数。如何将这两列作为输入传递给 scipy.stats.wasserstein_distance ？
事后分布比事前分布更长尾。测量 X 轴幅度变化以及 Y 轴增加的最佳距离度量是什么？

这是真实数据集的示例图，蓝色是事件发生前，橙色是事件发生后。我的最终目标是从这样的分布中学习并概括一个比例因子，即我需要多少缩放我的事件前分布才能达到事件后分布？

1：

python statistics scipy.stats empirical-distribution earth-movers-distance

2020-07-01T03:24:07.057

0 投票

1 回答

85 浏览

python - 如何创建线性分数分布作为自定义离散概率分布？

我定义了以下自定义概率分布：

当我让我的脚本运行时，我收到一条冗长的错误消息：

如果我这样做LF.mean()，我会得到

有谁知道这是为什么以及我如何解决这个问题？我是否必须定义我的概率分布的上限？

python scipy scipy.stats

2020-07-04T12:24:47.590

0 投票

0 回答

106 浏览

python - 使用 scipy 的 Pearson 相关性，提高速度的方法

我有一个 1222 行和 33000 列的数据框，我需要在 16000 与数据框中的剩余列之间运行相关性。目前，我正在使用scipy.statsPearson 相关方法从 python 中使用库。这是我正在尝试的功能：

上面的代码正在完成它的工作，但是，因为我的数据框大小1222 X 33000确实需要 30 多分钟才能完成工作。如果有人能提出一些方法来提高大数据帧的这个函数的速度，那就太好了。谢谢

python correlation scipy.stats

2020-07-09T14:51:01.277

0 投票

1 回答

34 浏览

pandas - 选择其值正常的列

我有一个包含多列的数据框，其想法是仅过滤其值来自正态分布的列。

在此示例中，仅选择了normal1、normal2、normal3列。选择标准可以通过 shapiro 检验： stats.shapiro，其中选择 p 值大于 0.05 的列。

pandas numpy scipy.stats

2020-07-29T18:05:53.063

1 2 3 4 5 6 7 8 9 10