问题标签 [patsy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1198 浏览

python - Pandas + Patsy + Statsmodels Linear Reg 问题传入分类变量(重复行)

[前言:我现在意识到我应该使用分类模型(也许是决策树),但我最终使用了线性回归模型。]

我有一个熊猫数据框:

在此处输入图像描述

我想使用流派、年份、番茄计分来预测观众得分。但是按照构造,每部电影的类型都列在一个列表中,所以我觉得有必要隔离每种类型,以便将每种类型作为单独的变量传递到我的模型中。

这样做之后,我修改后的数据框看起来像这样,每部电影都有重复的行,但该电影的每个流派元素都是孤立的(只有一部电影从数据框中拉出来显示):

在此处输入图像描述

现在,我的问题是,我可以将第二个数据帧按原样传递给 Patsy 和 statsmodel 线性回归,还是行重复会在我的模型中引入偏差?

总之,寻找一种方法让 patsy 和我的模型将每种类型视为单独的变量.. 但要确保我不会通过传入这种格式的数据框作为数据来伪造数字/模型(因为不是每部电影都具有相同的#类型)。

0 投票
1 回答
62 浏览

python - Changing dictionary consisting 16k dicts to a Pandas Dataframe

I'm working on a data mining problem for my Master Thesis. I'm using Python for data analysis, but I have no experience with Pandas, which is needed to convert my data to a Dataframe. In order to do Survival Regression with a Python package called Lifelines I need to create a Covariate Matrix from my experiment_data dict containing over 16k of dicts with Twitter data about Kickstarter projects (see example dict below).

If I create a Pandas Dataframe from this dict, I'll be able to create a Covariate Matrix by using Patsy, for example like this:

Now my question is how to create a Pandas Dataframe from the experiment_data dicts? The keys of the inner dictionaries (goal, launch, followers, etc.) should be columns for each Kickstarter project (i.e. index nr.: 0 to 16041).

Any help would be really appreciated. Thanks in advance!

P.S. If you have experience in Survival Regression using Python and Lifelines, please let me know!

0 投票
2 回答
480 浏览

python - as_formula specifier for sklearn.tree.decisiontreeclassifier in Python?

I was curious if there is an as_formula specifier (like in statsmodels) for sklearn.tree.decisiontreeclassifier in Python, or some way to hack one in. Currently, I must use

but I would prefer to have something like

The reason is that I would like to specify more than one X without having to do a lot of array shaping. Thanks.

0 投票
1 回答
1493 浏览

python - patsy 的倒数

Patsy 的能力不允许负整数,所以,如果我们有一些系列数据X

返回错误。我如何将 X 的倒数添加到这样一个糟糕的公式中?

0 投票
1 回答
156 浏览

pandas - python patsy中的分组因子

这是这个较旧的 SO 问题的扩展,但适用于 python 而不是 R。我也认为这个解决方案不是最好的。

假设我有看起来像这样的数据......

我想编写一个 patsy 公式将 State 转换为 Region,然后使用 statsmodels 使用 Region 进行预测。所以桌子看起来像......

我想有一个功能

我认为有两种方法。首先,在原始数据上添加一个查找列或编写一个分类转换器函数供 patsy 处理。

哪种方式更好,如果 patsy 分类转换器更好,那么编程它的好方法是什么?

0 投票
2 回答
3542 浏览

python - Patsy:测试数据中分类字段的新级别

我正在尝试使用 Patsy(带有 sklearn、pandas)来创建一个简单的回归模型。R 风格的公式创建是一个主要的吸引力。

我的数据包含一个名为“ ship_city ”的字段,它可以包含来自印度的任何城市。由于我将数据划分为训练集和测试集,因此有几个城市只出现在其中一个集中。下面给出了一个代码片段:

最后一行抛出以下错误:

patsy.PatsyError:将数据转换为分类时出错:值为“加尔各答”的观察结果与任何预期水平都不匹配

我相信这是一个非常常见的用例,其中训练数据不会包含所有类别领域的所有级别。Sklearn 的DictVectorizer处理得很好。

有什么办法可以让 Patsy 完成这项工作吗?

0 投票
1 回答
6768 浏览

python - python逻辑回归(初级)

我正在使用python自学一些逻辑回归。我正在尝试将此处演练中的课程应用于此处维基百科条目中的小数据集。

有些事情似乎不太对劲。Wikipedia 和 Excel Solver(使用本视频中的方法验证)给出截距 -4.0777 和系数 1.5046,但我从 github 示例构建的代码分别输出 -0.924200 和 0.756024。

我尝试使用的代码如下。有什么明显的错误吗?

0 投票
0 回答
590 浏览

python - statsmodels.api 中的错误 OLS 使用复杂公式预测属性

我正在尝试使用OLS回归来预测ustar的缺失(NAN)值,使用风速(WS)的已知数据,WS按月的变化和辐射(Rn)使用刚刚提到的所有变量的已知值。公式中的所有变量在数据框中的某个点确实有一些缺失的数据,但是我的回归公式给了我与公式中所有变量的强相关性和 0.80 的 R 平方值,所以我知道这种填补空白的方法预测回归数据是可行的。下面是我的代码:

我知道过去曾出现过同样错误的类似问题,但我知道我的公式的复杂性是否在“预测”属性编码中处理得不好。我想知道是否有人对我应该如何解决这个问题有看法。

0 投票
3 回答
45055 浏览

python - Python:如何评估 StatsModels 中的残差?

我想评估残差:(y-hat y)。

我知道该怎么做:

我想知道是否有一种方法可以做到这一点(?)。

0 投票
2 回答
1358 浏览

python - Statsmodels:编写公式的简短方法

使用 statesmodels 的逻辑回归模型:

有没有写公式第二部分的简短方法(怀孕+葡萄糖+ bp +胰岛素+ bmi +血统+年龄)?这里必须明确提及所有列。如果超过 100 列,就很难写,而且语句会很长。