问题标签 [sklearn-pandas]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1212 问题

0 投票

1 回答

8439 浏览

scikit-learn - sklearn Pipeline 和 DataFrameMapper 有什么区别？

Sklearn 管道：http ://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html

DataFrameMapper：https ://github.com/paulgb/sklearn-pandas

他们之间有什么区别？

在我看来，sklearn 管道具有更多功能，但 DataFrameMapper 对我来说更干净。

2016-10-31T23:45:45.220

0 投票

2 回答

1251 浏览

python-3.x - 使用“pickle”保存时如何更改 Pandas 数据框的列名？

我用“pickle”保存了一个 Pandas DataFrame。当我调用它时，它看起来像图 A（没关系）。但是当我想更改列的名称时，它看起来像图 B。我做错了什么？更改列名称的其他方法是什么？

图A

图B

python-3.x numpy pickle sklearn-pandas

2016-11-01T14:37:46.490

0 投票

2 回答

1711 浏览

python - 处理 tf-idf 中不兼容的矩阵形状

我正在尝试匹配两个不同数据框 df1 和 df2 的公司名称。我正在尝试在两列上实现 tf-idf 和余弦相似度——df1 中的 company1 和 df2 中的 company2。

这给了我一个错误：

这可能是因为：

给我 (78684, 46844) 作为输出。和 -

给我 (39462, 31089) 作为输出。我该如何纠正这个错误？

python pandas tf-idf cosine-similarity sklearn-pandas

2016-11-01T18:19:26.943

0 投票

2 回答

2266 浏览

python - 熊猫中的read_table，如何从文本获取输入到数据框

这是我的文本，我需要创建一个数据框，其中 1 列用于州名称，另一列用于城镇名称，我知道如何删除大学名称。但是我如何告诉熊猫每次[编辑]都是一个新状态。

预期输出数据帧

我不确定我是否可以使用 read_table，如果可以的话？我确实将所有内容都导入了数据框中，但州和城市在同一列中。我也尝试了一个列表，但问题仍然是一样的。

我需要一些东西，如果该行中有一个 [edit]，那么它之后和下一个 [edit] 行之前的所有值都是中间行的状态

python python-3.x pandas sklearn-pandas

2016-11-04T00:17:05.757

0 投票

3 回答

89 浏览

machine-learning - 哪些观察与带有 sklearn 包实现的 LDA 中的主题模型相关联

我已经在 Sklearn 中成功实现了这个例子，我可以很好地看到主题，但是我如何恢复到形成这些主题的观察结果？我知道使用 SAS 企业矿工可以做到这一点，但我不知道如何在 sklearn 中做到这一点。任何帮助，将不胜感激！谢谢你。

machine-learning scikit-learn lda unsupervised-learning sklearn-pandas

2016-11-04T06:47:55.667

0 投票

1 回答

417 浏览

python - 将 IMDB 数据用于 sci-kit 回归模型包，该包在特征变量中具有文本值

我有一个包含 IMDB 电影收视率数据的 csv 文件。该文件有 27 个特征和 1 个目标变量。我附上了SampleData。数据集也可以从KaggleData下载。我了解到python 的sklearn包要求所有数据都是数字。那么如何使用这些数据进行回归分析呢？现在我使用了下面的代码，但它说“某些导演名称”不能转换为浮点数。

python python-3.x scikit-learn linear-regression sklearn-pandas

2016-11-05T19:12:42.883

0 投票

1 回答

6467 浏览

python - 数据框中多列的LabelBinarizer

我有一个 csv 文件，它有 25 列，有些是数字的，有些是分类的，有些是演员、导演的名字。我想对这些数据使用回归模型。为此，我必须使用 scikit 包中的 LabelBinarizer 将分类列字符串类型转换为数值。如何在此具有多个分类数据的数据帧上使用 LabelBinarize？

样本数据

本质上，我想对标签进行二值化并将它们添加到数据框中。

在下面的代码中，我检索了要二值化的列列表，但无法弄清楚如何将新列添加回 df？

在下一步中，我想添加tempdf并df删除原始列 df[col]。

python scipy scikit-learn sklearn-pandas

2016-11-07T02:13:40.140

0 投票

1 回答

1415 浏览

python - 为什么 ShuffleSplit 比 train_test_split 更多/更少随机（使用 random_state=None）？

考虑以下两个选项：

这是输出的副本：

谁能帮助解释为什么选项 B 中的 ShuffleSplit 函数比选项 C 中的 train_test_split 函数（random_state=None）呈现更多随机结果？

python scikit-learn cross-validation sklearn-pandas train-test-split

2016-11-08T13:27:48.580

0 投票

6 回答

26289 浏览

python-2.7 - ValueError：此求解器需要数据中至少 2 个类的样本，但数据仅包含一个类：0.0

在将数据集拆分为测试集和训练集后，我在训练集上应用了逻辑回归，但出现了上述错误。我试图解决它，当我尝试在控制台中打印我的响应向量 y_train 时，它会打印整数值，例如 0 或 1。但是当我将它写入文件时，我发现这些值是浮点数，例如 0.0 和 1.0。如果那是问题，我怎么能克服它。

StrackTrace如下，

同时，我浏览了未答复的链接。有没有解决办法。

python-2.7 scikit-learn logistic-regression sklearn-pandas

2016-11-10T10:06:03.617

0 投票

0 回答

671 浏览

python-3.x - 将多个管道作为投票分类器的输入 - sklearn

我正在尝试构建一个以多个管道作为输入的投票分类器。我对此很陌生。以下是我正在使用的代码：

该代码基本上构建了 4 个分类器——多项式朴素贝叶斯、SGD 分类器、带线性核的 SVM 和随机森林分类器。当我尝试拟合我的数据时，它给了我以下错误：

could not convert string to float: "training string here"

如果我尝试在单个分类器上调用 fit，则该模式运行良好。有人可以帮忙吗？

python-3.x machine-learning scikit-learn sklearn-pandas

2016-11-13T01:20:36.027

1 2 3 4 5 6 7 8 9 10

问题标签 [sklearn-pandas]

Reference