问题标签 [sklearn-pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在python中运行非线性回归
我在python中有以下信息(数据框)
我想运行以下非线性回归并估计参数。
a、b 和 c
我想拟合的方程:
在sas中我们通常运行以下模型:(使用高斯牛顿法)
是否有类似的方法可以使用非线性回归估计 Python 中的参数,我如何在 python 中看到该图。
python - 在不使用其他库或方法的情况下将 pandas 数据框拟合到 Scikit-Learn 的模型
一方面,人们说 pandas与scikit-learn配合得很好。例如,pandas 系列对象非常适合本视频中的 sklearn 模型。另一方面,sklearn-pandas在 Scikit-Learn 的机器学习方法和 pandas 风格的数据框架之间提供了一座桥梁,这意味着需要这样的库。此外,例如,有些人将 pandas 数据帧转换为 numpy 数组以拟合模型。
我想知道是否可以在没有任何其他方法和库的情况下将pandas和scikit-learn结合起来。我的问题是,每当我通过以下方式将我的数据集拟合到 sklearn 模型时:
我收到一个错误:
据我了解,这是因为数据结构。但是,互联网上使用类似代码没有任何问题的示例很少。
python - unorderable types: dict() <= int() in running OneVsRest Classifier
I am running a multilabel classification on the input data with 330 features and about 800 records. I am leveraging RandomForestClassifier with following param_grid:
After cleaning up the data, this is how I am setting up the classifier and fit the model and apply a decision_fucntion:
X_train shape - (800, 334), Y_train shape - (800, 4). Number of classifications - 4. Running the code in sklearn 0.18
However, runnning into the below error message:
python - Python sklearn 多元回归
我被困在解决这个问题两天了。我有一些数据点放入 ascatter plot
并得到这个:
这很好,但现在我还想添加一条回归线,所以我从 sklearn 中查看了这个示例并将代码更改为
它具有以下输出:
请注意X
和y
都是DataFrames
size (151, 1)
。如有必要,我也可以发布 X 和 y 的内容。
我想要的是一条漂亮的平滑线,但我似乎无法弄清楚如何做到这一点。
[编辑]
这里的问题是:如何获得一条平滑、弯曲的多项式线,而不是看似随机模式的多条多项式线。
[编辑 2]
问题是,当我使用linspace
这样的:
我得到一个更随机的模式:
python - sklearn.linear_model.ridge 中的统计汇总表?
在 OLS 形式的 StatsModels 中,results.summary 显示回归结果的汇总(例如 AIC、BIC、R-squared、...)。
有没有办法在 sklearn.linear_model.ridge 中有这个汇总表?
如果有人指导我,我将不胜感激。谢谢你。
python - CountVectorizer:transform 方法在单个文本行上返回多维数组
首先,我将它放在短信语料库中:
似乎工作正常:
但是后来我对文本行应用了变换方法,我们知道,结果应该是 (, 8713) 形状,但是我们看到的是:
52 (52, 8713)
这里发生了什么?还有一件事——所有的数字都是零
python - Sklearn 数字数据集
我也重新塑造了 x 和 y。我仍然收到一条错误消息:
发现样本数量不一致的输入变量:[1, 1796]
Y 有 1796 个元素的一维数组,而 x 有很多。它如何为 x 显示 1?
pandas - GridSearchCV:“TypeError:‘StratifiedKFold’对象不可迭代”
我想在 RandomForestClassifier 中执行 GridSearchCV,但数据不平衡,所以我使用 StratifiedKFold:
但我收到一个错误:
当我写cv=StratifiedKFold(y_train)
我有ValueError: The number of folds must be of Integral type.
但是当我写`cv = 5时,它可以工作。
我不明白 StratifiedKFold 有什么问题
pandas - 具有未知特征值的 scikit-learn PCA
我想使用 sklearn 进行 pca 分析(然后是回归和 kmeans 聚类)。我有一个包含 20k 特征、2000k 行的数据集。然而,对于数据集中的每一行,只测量了特征的一个子集(通常是 20k 中的任何 5 个左右)。
我应该如何填充我的 pandas 数据框/设置 sklearn,以便 sklearn 不对未测量值的实例使用功能?(例如,如果我将空特征值设置为 0.0,这会扭曲结果吗?)。
例如:
如果大多数特征值用零填充数据集 - 那么 pca 是否有效?
python - 在单元格条件下,熊猫中的多个切片行
我想按 ConvID 对这些数据进行分组并按日期对其进行排序。我想要直到“Msgtype”=接受该特定ConvID的行。旨在分析消息数据,直到特定 ConvID 的预订请求被接受。所以对于 ConvID = 689,我想要行直到“Msgtype” = 接受。“接受”之后的其余行不是必需的。
例如:ConvID = 689 不需要这两个
同样,ConvID = 690 不需要此行