问题标签 [sklearn-pandas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
18313 浏览

python - 如何在python中运行非线性回归

我在python中有以下信息(数据框)

我想运行以下非线性回归估计参数。

a、b 和 c

我想拟合的方程:

在sas中我们通常运行以下模型:(使用高斯牛顿法)

是否有类似的方法可以使用非线性回归估计 Python 中的参数,我如何在 python 中看到该图。

0 投票
1 回答
3590 浏览

python - 在不使用其他库或方法的情况下将 pandas 数据框拟合到 Scikit-Learn 的模型

一方面,人们说 pandasscikit-learn配合得很好。例如,pandas 系列对象非常适合本视频中的 sklearn 模型。另一方面,sklearn-pandas在 Scikit-Learn 的机器学习方法和 pandas 风格的数据框架之间提供了一座桥梁,这意味着需要这样的库。此外,例如,有些人将 pandas 数据帧转换为 numpy 数组以拟合模型。

我想知道是否可以在没有任何其他方法和库的情况下将pandasscikit-learn结合起来。我的问题是,每当我通过以下方式将我的数据集拟合到 sklearn 模型时:

我收到一个错误:

据我了解,这是因为数据结构。但是,互联网上使用类似代码没有任何问题的示例很少。

0 投票
1 回答
531 浏览

python - unorderable types: dict() <= int() in running OneVsRest Classifier

I am running a multilabel classification on the input data with 330 features and about 800 records. I am leveraging RandomForestClassifier with following param_grid:

After cleaning up the data, this is how I am setting up the classifier and fit the model and apply a decision_fucntion:

X_train shape - (800, 334), Y_train shape - (800, 4). Number of classifications - 4. Running the code in sklearn 0.18

However, runnning into the below error message:

0 投票
1 回答
752 浏览

python - Python sklearn 多元回归

我被困在解决这个问题两天了。我有一些数据点放入 ascatter plot并得到这个:

在此处输入图像描述

这很好,但现在我还想添加一条回归线,所以我从 sklearn 中查看了这个示例并将代码更改为

它具有以下输出:

在此处输入图像描述

请注意Xy都是DataFramessize (151, 1)。如有必要,我也可以发布 X 和 y 的内容。

我想要的是一条漂亮的平滑线,但我似乎无法弄清楚如何做到这一点。

[编辑]

这里的问题是:如何获得一条平滑、弯曲的多项式线,而不是看似随机模式的多条多项式线。

[编辑 2]

问题是,当我使用linspace这样的:

我得到一个更随机的模式:

在此处输入图像描述

0 投票
3 回答
15428 浏览

python - sklearn.linear_model.ridge 中的统计汇总表?

在 OLS 形式的 StatsModels 中,results.summary 显示回归结果的汇总(例如 AIC、BIC、R-squared、...)。

有没有办法在 sklearn.linear_model.ridge 中有这个汇总表?

如果有人指导我,我将不胜感激。谢谢你。

0 投票
1 回答
1457 浏览

python - CountVectorizer:transform 方法在单个文本行上返回多维数组

首先,我将它放在短信语料库中:

似乎工作正常:

但是后来我对文本行应用了变换方法,我们知道,结果应该是 (, 8713) 形状,但是我们看到的是:

52 (52, 8713)

这里发生了什么?还有一件事——所有的数字都是零

0 投票
2 回答
4543 浏览

python - Sklearn 数字数据集

我也重新塑造了 x 和 y。我仍然收到一条错误消息:

发现样本数量不一致的输入变量:[1, 1796]

Y 有 1796 个元素的一维数组,而 x 有很多。它如何为 x 显示 1?

0 投票
4 回答
12444 浏览

pandas - GridSearchCV:“TypeError:‘StratifiedKFold’对象不可迭代”

我想在 RandomForestClassifier 中执行 GridSearchCV,但数据不平衡,所以我使用 StratifiedKFold:

但我收到一个错误:

当我写cv=StratifiedKFold(y_train)我有ValueError: The number of folds must be of Integral type.但是当我写`cv = 5时,它可以工作。

我不明白 StratifiedKFold 有什么问题

0 投票
1 回答
539 浏览

pandas - 具有未知特征值的 scikit-learn PCA

我想使用 sklearn 进行 pca 分析(然后是回归和 kmeans 聚类)。我有一个包含 20k 特征、2000k 行的数据集。然而,对于数据集中的每一行,只测量了特征的一个子集(通常是 20k 中的任何 5 个左右)。

我应该如何填充我的 pandas 数据框/设置 sklearn,以便 sklearn 不对未测量值的实例使用功能?(例如,如果我将空特征值设置为 0.0,这会扭曲结果吗?)。

例如:

如果大多数特征值用零填充数据集 - 那么 pca 是否有效?

0 投票
2 回答
79 浏览

python - 在单元格条件下,熊猫中的多个切片行

我想按 ConvID 对这些数据进行分组并按日期对其进行排序。我想要直到“Msgtype”=接受该特定ConvID的行。旨在分析消息数据,直到特定 ConvID 的预订请求被接受。所以对于 ConvID = 689,我想要行直到“Msgtype” = 接受。“接受”之后的其余行不是必需的。

例如:ConvID = 689 不需要这两个

同样,ConvID = 690 不需要此行