问题标签 [sklearn-pandas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
8439 浏览

scikit-learn - sklearn Pipeline 和 DataFrameMapper 有什么区别?

Sklearn 管道:http ://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html

DataFrameMapper:https ://github.com/paulgb/sklearn-pandas

他们之间有什么区别?

在我看来,sklearn 管道具有更多功能,但 DataFrameMapper 对我来说更干净。

0 投票
2 回答
1251 浏览

python-3.x - 使用“pickle”保存时如何更改 Pandas 数据框的列名?

我用“pickle”保存了一个 Pandas DataFrame。当我调用它时,它看起来像图 A(没关系)。但是当我想更改列的名称时,它看起来像图 B。我做错了什么?更改列名称的其他方法是什么?

图A

在此处输入图像描述

图B

在此处输入图像描述

0 投票
2 回答
1711 浏览

python - 处理 tf-idf 中不兼容的矩阵形状

我正在尝试匹配两个不同数据框 df1 和 df2 的公司名称。我正在尝试在两列上实现 tf-idf 和余弦相似度——df1 中的 company1 和 df2 中的 company2。

这给了我一个错误:

这可能是因为:

给我 (78684, 46844) 作为输出。和 -

给我 (39462, 31089) 作为输出。我该如何纠正这个错误?

0 投票
2 回答
2266 浏览

python - 熊猫中的read_table,如何从文本获取输入到数据框

这是我的文本,我需要创建一个数据框,其中 1 列用于州名称,另一列用于城镇名称,我知道如何删除大学名称。但是我如何告诉熊猫每次[编辑]都是一个新状态。

预期输出数据帧

我不确定我是否可以使用 read_table,如果可以的话?我确实将所有内容都导入了数据框中,但州和城市在同一列中。我也尝试了一个列表,但问题仍然是一样的。

我需要一些东西,如果该行中有一个 [edit],那么它之后和下一个 [edit] 行之前的所有值都是中间行的状态

0 投票
3 回答
89 浏览

machine-learning - 哪些观察与带有 sklearn 包实现的 LDA 中的主题模型相关联

我已经在 Sklearn 中成功实现了这个例子,我可以很好地看到主题,但是我如何恢复到形成这些主题的观察结果?我知道使用 SAS 企业矿工可以做到这一点,但我不知道如何在 sklearn 中做到这一点。任何帮助,将不胜感激!谢谢你。

0 投票
1 回答
417 浏览

python - 将 IMDB 数据用于 sci-kit 回归模型包,该包在特征变量中具有文本值

我有一个包含 IMDB 电影收视率数据的 csv 文件。该文件有 27 个特征和 1 个目标变量。我附上了SampleData。数据集也可以从KaggleData下载。我了解到python 的sklearn包要求所有数据都是数字。那么如何使用这些数据进行回归分析呢?现在我使用了下面的代码,但它说“某些导演名称”不能转换为浮点数。

0 投票
1 回答
6467 浏览

python - 数据框中多列的LabelBinarizer

我有一个 csv 文件,它有 25 列,有些是数字的,有些是分类的,有些是演员、导演的名字。我想对这些数据使用回归模型。为此,我必须使用 scikit 包中的 LabelBinarizer 将分类列字符串类型转换为数值。如何在此具有多个分类数据的数据帧上使用 LabelBinarize?

样本数据

本质上,我想对标签进行二值化并将它们添加到数据框中。

在下面的代码中,我检索了要二值化的列列表,但无法弄清楚如何将新列添加回 df?

在下一步中,我想添加tempdfdf删除原始列 df[col]。

0 投票
1 回答
1415 浏览

python - 为什么 ShuffleSplit 比 train_test_split 更多/更少随机(使用 random_state=None)?

考虑以下两个选项:

这是输出的副本:

谁能帮助解释为什么选项 B 中的 ShuffleSplit 函数比选项 C 中的 train_test_split 函数(random_state=None)呈现更多随机结果?

0 投票
6 回答
26289 浏览

python-2.7 - ValueError:此求解器需要数据中至少 2 个类的样本,但数据仅包含一个类:0.0

在将数据集拆分为测试集和训练集后,我在训练集上应用了逻辑回归,但出现了上述错误。我试图解决它,当我尝试在控制台中打印我的响应向量 y_train 时,它会打印整数值,例如 0 或 1。但是当我将它写入文件时,我发现这些值是浮点数,例如 0.0 和 1.0。如果那是问题,我怎么能克服它。

StrackTrace如下,

同时,我浏览了未答复的链接。有没有解决办法。

0 投票
0 回答
671 浏览

python-3.x - 将多个管道作为投票分类器的输入 - sklearn

我正在尝试构建一个以多个管道作为输入的投票分类器。我对此很陌生。以下是我正在使用的代码:

该代码基本上构建了 4 个分类器——多项式朴素贝叶斯、SGD 分类器、带线性核的 SVM 和随机森林分类器。当我尝试拟合我的数据时,它给了我以下错误:

could not convert string to float: "training string here"

如果我尝试在单个分类器上调用 fit,则该模式运行良好。有人可以帮忙吗?