问题标签 [sklearn-pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - slearn 标准缩放器变换 VS fit_transform 输出
我正在使用 sklearn 标准缩放器来规范化熊猫数据框中的某些列。虽然 fit_transform 按预期工作,但 transform 没有。这是我所做的:
它工作得很好,但这不起作用:
这是错误消息:
predict_first_stage 中的文件“main_FM.py”,第 286 行
测试[non_categorical_features] = scaler.transform(test[non_categorical_features])
TypeError:“coo_matrix”对象没有属性“ getitem ”
现在,如果我简单地输入以下内容,一切正常并匹配。
谢谢你的帮助!
python - sklearn 基于列的分层抽样
我有一个相当大的 CSV 文件,其中包含我读入熊猫数据框的亚马逊评论数据。我想将数据拆分为 80-20(train-test),但这样做时我想确保拆分数据按比例表示一列(类别)的值,即所有不同类别的评论都存在于火车中并按比例测试数据。
数据如下所示:
我使用以下代码这样做:
它给出了以下错误
由于我对 python 比较陌生,我无法弄清楚我做错了什么,或者这段代码是否会根据列类别进行分层。当我从训练测试拆分中删除分层选项以及类别列时,它似乎工作正常。
任何帮助将不胜感激。
python - 是否可以从 pandas.get_dummies 获取特征名称?
我想知道是否可以获得 pandas.get_dummies 的功能名称,以便将其传递给 export_graphviz。我正在使用 get_dummies 为 sklearn DecisionTreeClassifier 编码我的数据集。当我导出树时,我希望节点的输出更易于阅读。
先感谢您!
编辑:
这是我要完成的一个示例:
我希望能够使用 feature_names 参数标记功能
python - 如何使用 Pandas 组织数据?
我是 Python 的新手。我正在尝试将 CSV 文件组织成可读的网格。当我将我的 Excel 文件转换为 CSV 时,输出变得乱码,逗号和分散的值乱七八糟。我尝试了 list,但它仍然没有按照我想要的方式组织数据。我希望我的代码在 Pandas 网格图中按类别(例如种族和种族根源)进行组织。
这是保存为 CSV 的一些文件(不幸的是,它会出现乱码):
这是用于此数据的代码(我想将其放入 Pandas 网格图中)
到目前为止,这是我的代码:
这是我的输出:
python - 根据列的值将数据框拆分为两个文件
我需要将数据框分成两部分。例如,如果以下数据帧基于 Col1 随机拆分,则两个文件都应包含来自每个类别 1,2 和 3 的样本。
到目前为止,我可以使用sklearn.cross_validation import train_test_split
. 但是我无法弄清楚应该如何进行拆分以从每个类别中提取样本。
所有帮助将不胜感激。谢谢。
python - 聚类后原始数据集的重复
我需要关于集群的指导或帮助。它给出了重复值;例如,原始数据集的第四行重复的次数与集群中的数据集计数一样多。我想对每一行进行聚类,而不是对原始数据集进行重复。
python - 在 Python 中创建稀疏矩阵
处理数据并希望创建一个稀疏矩阵以供以后用于聚类目的。
现在数据看起来像这样:
我需要的输出是这样的:
我尝试过使用 numpy 稀疏矩阵库,但没有成功。
python - 将数据拆分为训练/测试文件,以便为两个文件选择至少一个样本
我有一个 csv 文件,它被读入数据框。我根据一列的值将其拆分为训练和测试文件。
假设该列称为“类别”,它具有多个类别名称作为列值,例如 cat1、cat2、cat3 等,它们重复多次。
我需要拆分文件,以便每个类别名称在两个文件中至少出现一次。
到目前为止,我能够根据比率将文件分成两部分。我尝试了很多选择,但这是迄今为止最好的选择。
我不完全理解 test_train_split 中的分层选项。请帮忙。谢谢
python - sklearn 线性回归系数有单值输出
我正在使用数据集来查看薪水和大学 GPA 之间的关系。我正在使用 sklearn 线性回归模型。我认为系数应该是截距和 coff。对应特征的值。但是该模型给出了一个单一的值。