问题标签 [sklearn-pandas]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1212 问题

0 投票

1 回答

2247 浏览

python - slearn 标准缩放器变换 VS fit_transform 输出

我正在使用 sklearn 标准缩放器来规范化熊猫数据框中的某些列。虽然 fit_transform 按预期工作，但 transform 没有。这是我所做的：

它工作得很好，但这不起作用：

这是错误消息：

predict_first_stage 中的文件“main_FM.py”，第 286 行

测试[non_categorical_features] = scaler.transform(test[non_categorical_features])

TypeError：“coo_matrix”对象没有属性“ getitem ”

现在，如果我简单地输入以下内容，一切正常并匹配。

谢谢你的帮助！

python scikit-learn scaling sklearn-pandas

2016-04-30T19:55:59.050

0 投票

3 回答

57714 浏览

python - sklearn 基于列的分层抽样

我有一个相当大的 CSV 文件，其中包含我读入熊猫数据框的亚马逊评论数据。我想将数据拆分为 80-20(train-test)，但这样做时我想确保拆分数据按比例表示一列（类别）的值，即所有不同类别的评论都存在于火车中并按比例测试数据。

数据如下所示：

我使用以下代码这样做：

它给出了以下错误

由于我对 python 比较陌生，我无法弄清楚我做错了什么，或者这段代码是否会根据列类别进行分层。当我从训练测试拆分中删除分层选项以及类别列时，它似乎工作正常。

任何帮助将不胜感激。

python pandas scikit-learn sklearn-pandas

2016-05-03T06:56:17.990

0 投票

3 回答

10286 浏览

python - 是否可以从 pandas.get_dummies 获取特征名称？

我想知道是否可以获得 pandas.get_dummies 的功能名称，以便将其传递给 export_graphviz。我正在使用 get_dummies 为 sklearn DecisionTreeClassifier 编码我的数据集。当我导出树时，我希望节点的输出更易于阅读。

先感谢您！

编辑：

这是我要完成的一个示例：

我希望能够使用 feature_names 参数标记功能

python pandas graphviz sklearn-pandas

2016-05-06T16:27:42.023

0 投票

1 回答

253 浏览

python - 如何使用 Pandas 组织数据？

我是 Python 的新手。我正在尝试将 CSV 文件组织成可读的网格。当我将我的 Excel 文件转换为 CSV 时，输出变得乱码，逗号和分散的值乱七八糟。我尝试了 list，但它仍然没有按照我想要的方式组织数据。我希望我的代码在 Pandas 网格图中按类别（例如种族和种族根源）进行组织。

这是保存为 CSV 的一些文件（不幸的是，它会出现乱码）：

这是用于此数据的代码（我想将其放入 Pandas 网格图中）

到目前为止，这是我的代码：

这是我的输出：

python csv numpy pandas sklearn-pandas

2016-05-25T17:16:14.793

0 投票

1 回答

106 浏览

python - 根据列的值将数据框拆分为两个文件

我需要将数据框分成两部分。例如，如果以下数据帧基于 Col1 随机拆分，则两个文件都应包含来自每个类别 1,2 和 3 的样本。

到目前为止，我可以使用sklearn.cross_validation import train_test_split. 但是我无法弄清楚应该如何进行拆分以从每个类别中提取样本。 所有帮助将不胜感激。谢谢。

python sklearn-pandas

2016-06-07T11:34:23.883

0 投票

3 回答

9497 浏览

python - 如何在森林中标记特征重要性？

我使用 sklearn 来绘制森林的特征重要性。数据框被命名为“心脏”。这里是提取排序特征列表的代码：

然后我以这种方式绘制列表：

我得到这样的情节：

我的问题是：我怎样才能用功能的名称替换功能的 NUMBER 以使情节更容易理解？我试图转换包含特征名称的字符串（即数据框每一列的名称），但我无法达到我的目标。

谢谢

python numpy matplotlib scikit-learn sklearn-pandas

2016-06-17T09:10:19.567

0 投票

0 回答

66 浏览

python - 聚类后原始数据集的重复

我需要关于集群的指导或帮助。它给出了重复值；例如，原始数据集的第四行重复的次数与集群中的数据集计数一样多。我想对每一行进行聚类，而不是对原始数据集进行重复。

python python-2.7 scikit-learn nltk sklearn-pandas

2016-06-17T10:27:05.617

0 投票

2 回答

1796 浏览

python - 在 Python 中创建稀疏矩阵

处理数据并希望创建一个稀疏矩阵以供以后用于聚类目的。

现在数据看起来像这样：

我需要的输出是这样的：

我尝试过使用 numpy 稀疏矩阵库，但没有成功。

python numpy scikit-learn sparse-matrix sklearn-pandas

2016-06-21T20:21:34.953

0 投票

1 回答

1284 浏览

python - 将数据拆分为训练/测试文件，以便为两个文件选择至少一个样本

我有一个 csv 文件，它被读入数据框。我根据一列的值将其拆分为训练和测试文件。

假设该列称为“类别”，它具有多个类别名称作为列值，例如 cat1、cat2、cat3 等，它们重复多次。

我需要拆分文件，以便每个类别名称在两个文件中至少出现一次。

到目前为止，我能够根据比率将文件分成两部分。我尝试了很多选择，但这是迄今为止最好的选择。

我不完全理解 test_train_split 中的分层选项。请帮忙。谢谢

python pandas scikit-learn sklearn-pandas

2016-06-22T13:43:23.377

0 投票

3 回答

2668 浏览

python - sklearn 线性回归系数有单值输出

我正在使用数据集来查看薪水和大学 GPA 之间的关系。我正在使用 sklearn 线性回归模型。我认为系数应该是截距和 coff。对应特征的值。但是该模型给出了一个单一的值。

python pandas scikit-learn sklearn-pandas

2016-06-23T07:29:48.747

1 2 3 4 5 6 7 8 9 10