问题标签 [statsmodels]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1667 浏览

python - Statsmodels 绘制基于异方差一致标准误差的平均置信区间

这个问题类似于StatsModels 的置信区间和预测区间,但有一个额外的细微差别:

我的数据是异方差的,我想使用 statsmodels 提供的任何一种异方差一致标准误差(HC0_se、HC1_se 等)绘制均值的置信区间。对于每个拟合值,我无法轻松访问此信息(尽管很容易获得每个系数的间隔)。它似乎也不像标准平均置信区间数据那样包含在 stats.outliers 的结果汇总表中。

两个问题:

  1. 有谁知道我该怎么做?
  2. 通常使用线性回归结果对象中也可用的异方差一致协方差矩阵是什么?为什么可以使用它?

非常感谢

0 投票
3 回答
2869 浏览

python - 绘制最大似然估计的置信区间

我正在尝试编写代码来生成图书馆中不同书籍数量的置信区间(以及生成信息图)。

我表弟上小学,他的老师每周都会给我一本书。然后,他阅读并及时归还,以便下周再获得一份。过了一段时间,我们开始注意到他收到了他以前读过的书,随着时间的推移,这种情况逐渐变得越来越普遍。

假设图书馆的真实书籍数量为 N,老师每周随机(有替换)随机挑选一本给你。如果在第 t 周,您收到一本书的次数是 x,那么我可以按照https://math.stackexchange.com/questions/对图书馆中的图书数量进行最大似然估计615464/图书馆中有多少书


示例:考虑一个有五本书 A、B、C、D 和 E 的图书馆。如果您连续七周收到书 [A、B、A、C、B、B、D],那么 x 的值(重复次数)将在这些周之后的每一周之后为 [0, 0, 1, 1, 2, 3, 3],这意味着七周后,您收到了一本您已经读过三遍的书。


为了可视化似然函数(假设我已经理解了一个是正确的),我编写了以下代码,我相信它可以绘制似然函数。最大值约为 135,这确实是根据上面的 MSE 链接的最大似然估计。

输出看起来像

在此处输入图像描述

我的问题是:

  • 有没有一种简单的方法来获得 95% 的置信区间并将其绘制在图表上?
  • 如何在绘图上叠加平滑曲线?
  • 有没有更好的方法来编写我的代码?它不是很优雅,也很慢。

找到 95% 置信区间意味着找到 x 轴的范围,以便我们通过抽样得到的经验最大似然估计(在这个例子中理论上应该是 135)有 95% 的时间落在其中。@mbatchkarov 给出的答案目前没有正确执行此操作。


现在在https://math.stackexchange.com/questions/656101/how-to-find-a-confidence-interval-for-a-maximum-likelihood-estimate有一个数学答案。

0 投票
1 回答
1684 浏览

python - Python Statsmodels 从基于 M 估计器的稳健线性模型中测试系数

我有一个线性模型,我试图拟合在内生变量中有大量异常值的数据,但在外生空间中却没有。我研究过基于 M 估计器的 RLM 在这种情况下很好。

当我通过以下方式将 RLM 拟合到我的数据时:

汇总结果显示 az 统计量,并且似乎显着性系数检验基于此而不是统计量。但是,以下 R 手册(http://www.dst.unive.it/rsr/BelVenTutorial.pdf)显示了 t 统计在 pg 上的使用。19-21

两个问题:

  1. 有人可以从概念上向我解释为什么 statsmodels 使用 z 检验而不是 t 检验吗?

  2. 所有项和交互在结果中都非常显着 (|z| > 4)。在大多数情况下,每个项目都有 40 个或更多的观察值。有些项目有 21-25 个观察值。是否有理由相信 RLM 在小样本环境中无效?它产生的线必须是重新加权异常值后的最佳拟合线,但 z 检验对这种大小的样本有效(即,是否有理由相信 smf.rlm() 产生的置信区间不会产生 95%概率覆盖?我知道对于 t 检验,这可能是一个问题......)?

谢谢!

0 投票
1 回答
1581 浏览

python - 使用带有权重的python模块“statsmodels”中的稳健线性方法?

我有一些数据,y 有错误,y_err,在 x 处测量。我需要拟合一条直线来模仿matlab中的一些代码,特别是具有健壮“on”的拟合方法,并将权重设为1/yerr。matlab 文档说它使用 bisquare 方法(也称为 TukeyBiweight 方法)。到目前为止我的代码是..

但是我需要找到一种方法来包含来自 yerr 的权重。希望人们能提供帮助,这是我第一次尝试使用 statsmodel 模块。

针对第一个答案:我试过了;

但遗憾的是,这与 matlab 函数不匹配。

0 投票
1 回答
36 浏览

python - Statsmodels 0.5.0,在 IPython 中完成 TAB 时遇到问题

简单但非常令人沮丧的问题 - TAB 完成不适用于 statsmodels 包。我尝试了不同的安装方法(.exe 或通过 pip;easy_install 不起作用),但没有运气。有什么建议么?

0 投票
1 回答
6842 浏览

python - Statsmodels Poisson glm不同于R

我正在尝试根据 R 中提供的一些代码来拟合一些模型(空间交互模型)。我已经能够让一些代码在 python 框架中使用 statsmodels 工作,但其中一些根本不匹配。我相信我为 R 和 Python 编写的代码应该给出相同的结果。有没有人看到任何差异?或者是否有一些根本的差异可能会导致事情失败?R 代码是与教程中给出的数字相匹配的原始代码(在此处找到:http ://www.bartlett.ucl.ac.uk/casa/pdf/paper181 )。

R示例代码:

输出:

蟒蛇代码:

蟒蛇输出:

0 投票
1 回答
1308 浏览

python - Statsmodels重复图表?

我在单元格 5 中发布了一个 IPython Notebook http://nbviewer.ipython.org/gist/dartdog/9008026 我调用:编辑此代码应该产生重复的图形。

这是图形代码:

然后我得到两份上述图形的副本,一个接一个?有任何想法吗?使用 SM dev 6.0 提到的笔记本显示了重复的图表。

0 投票
1 回答
1323 浏览

python - 使用 PYMC3 进行回归

我在这里发布了一个 IPython 笔记本http://nbviewer.ipython.org/gist/dartdog/9008026

我通过标准的 Statsmodels OLS 工作,然后通过 Pandas 提供的数据与 PYMC3 类似,顺便说一句,这部分工作得很好。

我看不到如何从 PYMC3 中获取更多标准参数?这些示例似乎只是使用 OLS 来绘制基本回归线。看来PYMC3模型数据应该可以给出回归线的参数了吧?除了可能的痕迹,即最高概率​​线是什么?

欢迎对 Alpha、beta 和 sigma 的解释进行任何进一步的解释!

另外如何使用 PYMC3 模型来估计 y 的未来值给定一个新的 x 即预测具有一定的概率?

最后,PYMC3 有一个新的 GLM 包装器,我尝试过它似乎搞砸了?(不过很可能是我)

0 投票
2 回答
6000 浏览

python - 两个 beta 分布的乘积

假设我有两个随机变量:

X ~ Beta(α1,β1)

Y ~ Beta(α2,β2)

我想计算 Z = XY 的分布(随机变量的乘积)

使用scipy,我可以通过以下方式获取单个 Beta 的 pdf:

但是两个 Beta 的乘积呢?我可以分析地做到这一点吗?(Python/Julia/R 解决方案很好)。

0 投票
1 回答
685 浏览

python - python中的多变量回归属性选择

我是使用 statsmodels 的初学者,我也愿意使用其他基于 Python 的方法来解决我的问题:

我有一个包含约 85 个特征的数据集,其中一些特征高度相关。当我运行 OLS 方法时,我得到了一个有用的“强多重共线性问题”警告,正如我所料。

我之前通过 Weka 运行过这些数据,作为回归分类器的一部分,Weka 有一个 removeColinearAttributes 选项。

我该如何做同样的事情 - 让模型选择要使用的属性,而不是将它们全部放在模型中?谢谢!