问题标签 [sklearn-pandas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2247 浏览

python - slearn 标准缩放器变换 VS fit_transform 输出

我正在使用 sklearn 标准缩放器来规范化熊猫数据框中的某些列。虽然 fit_transform 按预期工作,但 transform 没有。这是我所做的:

它工作得很好,但这不起作用:

这是错误消息:

predict_first_stage 中的文件“main_FM.py”,第 286 行

测试[non_categorical_features] = scaler.transform(test[non_categorical_features])

TypeError:“coo_matrix”对象没有属性“ getitem

现在,如果我简单地输入以下内容,一切正常并匹配。

谢谢你的帮助!

0 投票
3 回答
57714 浏览

python - sklearn 基于列的分层抽样

我有一个相当大的 CSV 文件,其中包含我读入熊猫数据框的亚马逊评论数据。我想将数据拆分为 80-20(train-test),但这样做时我想确保拆分数据按比例表示一列(类别)的值,即所有不同类别的评论都存在于火车中并按比例测试数据。

数据如下所示:

我使用以下代码这样做:

它给出了以下错误

由于我对 python 比较陌生,我无法弄清楚我做错了什么,或者这段代码是否会根据列类别进行分层。当我从训练测试拆分中删除分层选项以及类别列时,它似乎工作正常。

任何帮助将不胜感激。

0 投票
3 回答
10286 浏览

python - 是否可以从 pandas.get_dummies 获取特征名称?

我想知道是否可以获得 pandas.get_dummies 的功能名称,以便将其传递给 export_graphviz。我正在使用 get_dummies 为 sklearn DecisionTreeClassifier 编码我的数据集。当我导出树时,我希望节点的输出更易于阅读。

先感谢您!

编辑:

这是我要完成的一个示例:

我希望能够使用 feature_names 参数标记功能

0 投票
1 回答
253 浏览

python - 如何使用 Pandas 组织数据?

我是 Python 的新手。我正在尝试将 CSV 文件组织成可读的网格。当我将我的 Excel 文件转换为 CSV 时,输出变得乱码,逗号和分散的值乱七八糟。我尝试了 list,但它仍然没有按照我想要的方式组织数据。我希望我的代码在 Pandas 网格图中按类别(例如种族和种族根源)进行组织。

这是保存为 CSV 的一些文件(不幸的是,它会出现乱码):

这是用于此数据的代码(我想将其放入 Pandas 网格图中)

到目前为止,这是我的代码:

这是我的输出:

0 投票
1 回答
106 浏览

python - 根据列的值将数据框拆分为两个文件

我需要将数据框分成两部分。例如,如果以下数据帧基于 Col1 随机拆分,则两个文件都应包含来自每个类别 1,2 和 3 的样本。

到目前为止,我可以使用sklearn.cross_validation import train_test_split. 但是我无法弄清楚应该如何进行拆分以从每个类别中提取样本。 所有帮助将不胜感激。谢谢。

0 投票
3 回答
9497 浏览

python - 如何在森林中标记特征重要性?

我使用 sklearn 来绘制森林的特征重要性。数据框被命名为“心脏”。这里是提取排序特征列表的代码:

然后我以这种方式绘制列表:

我得到这样的情节:

在此处输入图像描述

我的问题是:我怎样才能用功能的名称替换功能的 NUMBER 以使情节更容易理解?我试图转换包含特征名称的字符串(即数据框每一列的名称),但我无法达到我的目标。

谢谢

0 投票
0 回答
66 浏览

python - 聚类后​​原始数据集的重复

我需要关于集群的指导或帮助。它给出了重复值;例如,原始数据集的第四行重复的次数与集群中的数据集计数一样多。我想对每一行进行聚类,而不是对原始数据集进行重复。

0 投票
2 回答
1796 浏览

python - 在 Python 中创建稀疏矩阵

处理数据并希望创建一个稀疏矩阵以供以后用于聚类目的。

现在数据看起来像这样:

我需要的输出是这样的:

我尝试过使用 numpy 稀疏矩阵库,但没有成功。

0 投票
1 回答
1284 浏览

python - 将数据拆分为训练/测试文件,以便为两个文件选择至少一个样本

我有一个 csv 文件,它被读入数据框。我根据一列的值将其拆分为训练和测试文件。

假设该列称为“类别”,它具有多个类别名称作为列值,例如 cat1、cat2、cat3 等,它们重复多次。

我需要拆分文件,以便每个类别名称在两个文件中至少出现一次。

到目前为止,我能够根据比率将文件分成两部分。我尝试了很多选择,但这是迄今为止最好的选择。

我不完全理解 test_train_split 中的分层选项。请帮忙。谢谢

0 投票
3 回答
2668 浏览

python - sklearn 线性回归系数有单值输出

我正在使用数据集来查看薪水和大学 GPA 之间的关系。我正在使用 sklearn 线性回归模型。我认为系数应该是截距和 coff。对应特征的值。但是该模型给出了一个单一的值。