问题标签 [patsy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1283 浏览

python - 从 patsy 中的 DesignMatrix 中获取名称

问题:不是使用 Designinfo 指定列的“名称”(这基本上使我的代码的可重用性降低),我可以不读取此 DesignMatrix 给出的名称,以便稍后将其输入 DataFrame,而无需知道预先“参考水平/对照组”水平是什么?

IE。当我做 dmatrix("C(carbs, Treatment(reference='lo')) + score", dta)

所以 g 将是转换后的数据框,我可以在不需要记录(或硬编码)列名及其参考级别的情况下对其进行逻辑建模。

0 投票
1 回答
352 浏览

ipython - ipython notebook 和 patsy 分类变量(公式)

我和这个问题有同样的错误。

奇怪的是,它在 ipython shell 中有效(提供了答案),但在 ipython 笔记本中无效。但它与C()运营商有关,因为没有它可以工作(但不是作为运营商)

与该示例相同:

这在 ipython notebook 和 shell 中都很有效,并且被patsy视为Region分类变量,因为它是由字符串组成的。

但是如果我尝试这个(如教程中所示):

我在 ipython 笔记本中遇到错误:

请注意,在 notebook 和 shellstatsmodelspatsy都是相同的版本(分别为 0.5.0 和 0.3.0)

你有同样的错误吗?

0 投票
1 回答
630 浏览

python - 如何使用 Patsy 的 API 准备大型数据集?

我正在运行逻辑回归,并且在使用 Patsy 的 API 来准备大于小样本的数据时遇到问题。

dmatrices直接在 DataFrame 上使用该函数,我会遇到这个突然的错误(请注意,在我的笔记本电脑上遇到这个问题后,我启动了一个具有 300GB RAM 的 EC2,并得到了同样的错误):

所以,我梳理了Patsy 的文档,发现了这个宝石:

但是,该方法的文档很少,源代码也基本上没有注释。

我已经到了这个代码:

但我收到PatsyError: Error evaluating factor: NameError: name 'ff' is not defined

这是被抛出的,因为 _try_incr_builders(从 dmatrix 调用)在 highlevel.py的第 151 行返回 None

使用这些 Patsy 函数准备数据的正确方法是什么?您可能拥有的任何示例或指导都会有所帮助。

0 投票
0 回答
693 浏览

python - 使用python statsmodels回归趋势+季节性

我有一个关于python回归的问题。长话短说,我需要找到一个 yt = mt + st 形式的模型,其中 mt 和 st 分别是趋势和季节性分量。在我之前的分析中,通过我的回归分析,我发现 mt 的一个好的模型是 mt = a0 + a1*t + a2*t^2 类型的二次趋势。现在,当我想添加季节性组件时,这是我最难的地方。现在,我采用了这两种方法……一种是通过 R 编程,我将 R 对象调用到 python 中,另一种是仅通过 python。现在,按照我书中的示例,我使用 R 进行了以下操作:

我得到了正确的回归系数。但是,如果我在 python 中做同样的事情,这就是我在复制它时遇到问题的地方。

我在这里做错了什么?我首先收到一条错误消息,指出“找不到数据类型”,它指向 res_result 公式。所以,然后我尝试将 ss_temp 更改为系列。然后,上面的语句起作用了。但是,与 R 输出相比,我的参数完全关闭。我一直在这上面花了一天时间,但无济于事。有人可以帮助我或指导我做什么,或者在 R 中是否有一个相当于 as.factor 的 python?我认为这在熊猫中是绝对的。

谢谢

如果上面的太难了,那也没关系。我仍然有我在 R 中回归的残差模型。但是,任何想法如何将其转换为 python 等效于 statsmodels 解释为回归的 res 吗?再次感谢

0 投票
1 回答
640 浏览

python-2.7 - Patsy's dmatrices cannot read my formula

I have a function LogReg, which is as follows: (using justmarkham's code as inspiration)

with the following outcome:

I do not see what goes wrong here, as the string does by my knowledge not contain the EOF character, nor does the Python code seem erroneous. Therefore, the question: Where does it go wrong (and preferably: , and how to fix it)?

P.S.: The software used are all the most recent stable packages as available on 04/09/2015.

0 投票
1 回答
75 浏览

python - 轻松配置分类变量

我有一个分类变量,假设cat_var它可以假设以下值:cat_var = ["A", "B", "C", "D"]

我运行了一系列回归,并patsy使得描述回归变得容易:regr= " y ~ x + C(cat_var)

我想知道调整分类变量使用的最简单方法是 . 例如,假设我想只为, , 即patsy创建假人,并将其视为一个单独的组。我可以重新映射到另一组值,但是已经有一些糖可以完成这项任务了吗?"A""B""C""D"cat_varpatsy

0 投票
1 回答
566 浏览

python - 带 Patsy 的 Logistic 回归 Bigram 文本分类

我正在努力将 LogisticRegression 文本分类从单字特征升级到双字母(两个词特征)。但是,当我在发送到 patsy.dmatrices 的公式中包含两个单词特征时,我收到以下错误...

我在网上四处寻找有关如何解决此问题的任何示例,但没有找到任何东西。我尝试在公式中抛出一些不同的语法选项,但似乎没有一个有效。

在传递给 dmatricies 的公式中包含多词特征的正确方法是什么?

0 投票
0 回答
264 浏览

python-3.x - 在patsy中编码分类变量之间的交互时如何摆脱主要影响?

我有一个非常相似的问题:

patsy 中的交互效果与 patsy.dmatrices 为 ":" 提供重复的列,如 "+" 或 "*"

除了交互项之外,我还有其他分类变量。我的公式是:

f = 'VarDep ~ C(MoisAvantDep):C(Groupe) + C(JourSemDep) + C(MoisDep) + jour_nuit'

当我使用这个公式运行 ols 回归时statsmodels,我得到了变量“Groupe”的主要影响,这是我想避免的。我尝试在公式中添加 -1(如上述讨论中所建议的那样),但仍然得到主要效果。

有什么建议吗?

0 投票
2 回答
433 浏览

python - patsy 公式 - 添加一个因子的幂

我使用 patsy 来构建设计矩阵。我需要包括原始因素的力量。例如,使用回归y~x1+x1^2+x2+x2^2+x2^3,我希望能够写

其中 data 是包含列 y、x1、x2 的数据框。但它似乎根本不起作用。有什么解决办法吗?

0 投票
1 回答
620 浏览

python - 在熊猫数据框中映射虚拟变量

我有一个包含 11 列的大型 DataFrame。我需要将分类变量转换为二进制值,所以我使用了Patsy

这很好用。但是,我想使用以原始数据框格式存储的数据来测试一个新样本,例如:

有没有一种简单的方法可以将其转换为与 X 相同的格式?