问题标签 [patsy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 从 patsy 中的 DesignMatrix 中获取名称
问题:不是使用 Designinfo 指定列的“名称”(这基本上使我的代码的可重用性降低),我可以不读取此 DesignMatrix 给出的名称,以便稍后将其输入 DataFrame,而无需知道预先“参考水平/对照组”水平是什么?
IE。当我做 dmatrix("C(carbs, Treatment(reference='lo')) + score", dta)
所以 g 将是转换后的数据框,我可以在不需要记录(或硬编码)列名及其参考级别的情况下对其进行逻辑建模。
python - 如何使用 Patsy 的 API 准备大型数据集?
我正在运行逻辑回归,并且在使用 Patsy 的 API 来准备大于小样本的数据时遇到问题。
dmatrices
直接在 DataFrame 上使用该函数,我会遇到这个突然的错误(请注意,在我的笔记本电脑上遇到这个问题后,我启动了一个具有 300GB RAM 的 EC2,并得到了同样的错误):
所以,我梳理了Patsy 的文档,发现了这个宝石:
但是,该方法的文档很少,源代码也基本上没有注释。
我已经到了这个代码:
但我收到PatsyError: Error evaluating factor: NameError: name 'ff' is not defined
这是被抛出的,因为 _try_incr_builders(从 dmatrix 调用)在 highlevel.py的第 151 行返回 None
使用这些 Patsy 函数准备数据的正确方法是什么?您可能拥有的任何示例或指导都会有所帮助。
python - 使用python statsmodels回归趋势+季节性
我有一个关于python回归的问题。长话短说,我需要找到一个 yt = mt + st 形式的模型,其中 mt 和 st 分别是趋势和季节性分量。在我之前的分析中,通过我的回归分析,我发现 mt 的一个好的模型是 mt = a0 + a1*t + a2*t^2 类型的二次趋势。现在,当我想添加季节性组件时,这是我最难的地方。现在,我采用了这两种方法……一种是通过 R 编程,我将 R 对象调用到 python 中,另一种是仅通过 python。现在,按照我书中的示例,我使用 R 进行了以下操作:
我得到了正确的回归系数。但是,如果我在 python 中做同样的事情,这就是我在复制它时遇到问题的地方。
我在这里做错了什么?我首先收到一条错误消息,指出“找不到数据类型”,它指向 res_result 公式。所以,然后我尝试将 ss_temp 更改为系列。然后,上面的语句起作用了。但是,与 R 输出相比,我的参数完全关闭。我一直在这上面花了一天时间,但无济于事。有人可以帮助我或指导我做什么,或者在 R 中是否有一个相当于 as.factor 的 python?我认为这在熊猫中是绝对的。
谢谢
如果上面的太难了,那也没关系。我仍然有我在 R 中回归的残差模型。但是,任何想法如何将其转换为 python 等效于 statsmodels 解释为回归的 res 吗?再次感谢
python-2.7 - Patsy's dmatrices cannot read my formula
I have a function LogReg, which is as follows: (using justmarkham's code as inspiration)
with the following outcome:
I do not see what goes wrong here, as the string does by my knowledge not contain the EOF character, nor does the Python code seem erroneous. Therefore, the question: Where does it go wrong (and preferably: , and how to fix it)?
P.S.: The software used are all the most recent stable packages as available on 04/09/2015.
python - 轻松配置分类变量
我有一个分类变量,假设cat_var
它可以假设以下值:cat_var = ["A", "B", "C", "D"]
我运行了一系列回归,并patsy
使得描述回归变得容易:regr= " y ~ x + C(cat_var)
我想知道调整分类变量使用的最简单方法是 . 例如,假设我想只为, , 即patsy
创建假人,并将其视为一个单独的组。我可以重新映射到另一组值,但是已经有一些糖可以完成这项任务了吗?"A"
"B"
"C"
"D"
cat_var
patsy
python - 带 Patsy 的 Logistic 回归 Bigram 文本分类
我正在努力将 LogisticRegression 文本分类从单字特征升级到双字母(两个词特征)。但是,当我在发送到 patsy.dmatrices 的公式中包含两个单词特征时,我收到以下错误...
我在网上四处寻找有关如何解决此问题的任何示例,但没有找到任何东西。我尝试在公式中抛出一些不同的语法选项,但似乎没有一个有效。
在传递给 dmatricies 的公式中包含多词特征的正确方法是什么?
python-3.x - 在patsy中编码分类变量之间的交互时如何摆脱主要影响?
我有一个非常相似的问题:
patsy 中的交互效果与 patsy.dmatrices 为 ":" 提供重复的列,如 "+" 或 "*"
除了交互项之外,我还有其他分类变量。我的公式是:
f = 'VarDep ~ C(MoisAvantDep):C(Groupe) + C(JourSemDep) + C(MoisDep) + jour_nuit'
当我使用这个公式运行 ols 回归时statsmodels
,我得到了变量“Groupe”的主要影响,这是我想避免的。我尝试在公式中添加 -1(如上述讨论中所建议的那样),但仍然得到主要效果。
有什么建议吗?
python - patsy 公式 - 添加一个因子的幂
我使用 patsy 来构建设计矩阵。我需要包括原始因素的力量。例如,使用回归,我希望能够写
其中 data 是包含列 y、x1、x2 的数据框。但它似乎根本不起作用。有什么解决办法吗?
python - 在熊猫数据框中映射虚拟变量
我有一个包含 11 列的大型 DataFrame。我需要将分类变量转换为二进制值,所以我使用了Patsy
:
这很好用。但是,我想使用以原始数据框格式存储的数据来测试一个新样本,例如:
有没有一种简单的方法可以将其转换为与 X 相同的格式?