“multilabel-classification”的相关标签问题

0 投票

0 回答

219 浏览

machine-learning - Vowpal Wabbit 总是相同的结果

我正在使用大众来尝试预测多类。最奇怪的是，我使用哪个参数都没有关系，结果总是一样的。

应该发生这种情况，也许是因为我的数据？

细节：

大约 90k 行数据。一行数据：

它是一个多类问题，所以命令行是：

改变某些东西的单个参数是从--ect 到--oaa。我尝试添加以下内容，但没有更改最终验证值：

-c -k --passes 20 (一直到 8)
--l1 或 --l2
--power_t
--ignore D 或 --ignore d（或 s 或 su...）

结果总是

我在这里缺少什么吗？

2015-11-27T16:17:56.610

0 投票

0 回答

498 浏览

classification - 使用 xgboost 包的分类模型

作为 xgboost 模型中的有效参数，我将字符转换为因子变量（例如“A”“B”“C”），并进一步转换为数字因子变量（例如“0”“1”“2”）。我可以使用哪个函数将数字因子转换回因子变量？我必须在分类模型中使用它。

classification text-classification multilabel-classification xgboost

2015-11-30T01:02:36.927

0 投票

1 回答

603 浏览

scala - Spark 多类分类 - 分类变量

我有一个数据集作为 csv 文件。它有大约 50 列，其中大部分是分类的。我计划使用新的测试数据集运行 RandomForest 多类分类。

这样做的痛点是处理分类变量。处理它们的最佳方法是什么？我阅读了 Spark 网站http://spark.apache.org/docs/latest/ml-guide.html#example-pipeline中的 Pipeline 指南，它从硬编码序列创建了一个 DataFrame，还具有空格分隔的字符串。这看起来非常具体，我想在他们如何使用 HashingTF 使用我拥有的 CSV 文件的功能方面实现相同的目标。

简而言之，我想实现与链接中相同的功能，但使用 CSV 文件。

有什么建议么？

编辑：数据-> 50 个特征，100k 行，其中大部分是字母数字分类我对 MLlib 很陌生，因此很难从 CSV 中为我的数据找到合适的管道。我尝试从文件中创建一个 DataFrame，但对如何对分类列进行编码感到困惑。我的疑惑如下

scala apache-spark apache-spark-mllib categorical-data multilabel-classification

2015-11-30T04:37:43.897

0 投票

1 回答

17645 浏览

python - Scikit Learn 多标签分类：ValueError：您似乎正在使用旧的多标签数据表示

我正在尝试使用 scikit learn 0.17 和 anaconda 2.7 来解决多标签分类问题。这是我的代码

这是我的数据的样子

训练

测试

但我得到了错误

这是什么意思？

这是完整的堆栈跟踪

我该如何解决？我需要更改数据的格式吗？为什么 gridSearchTS.fit(Xtrain, ytrain) 失败？如何使 X 和 y 适合拟合函数？

编辑

我试过了

但现在我明白了

上

我也必须对 X 进行二值化吗？为什么我需要将 X 维度转换为浮点数？

python machine-learning scikit-learn multilabel-classification

2015-12-10T22:52:57.347

0 投票

1 回答

4462 浏览

python - Python Sci-Kit 学习：多标签分类 ValueError：无法将字符串转换为浮点数：

我正在尝试使用 sci-kit learn 0.17 进行多标签分类，我的数据看起来像

训练

测试

到目前为止我的代码

但现在我明白了

在

我也必须对 X 进行二值化吗？为什么我需要将 X 维度转换为浮点数？

python machine-learning scikit-learn multilabel-classification

2015-12-14T19:54:15.407

0 投票

1 回答

9805 浏览

python - Python多项逻辑回归：ValueError：输入形状错误（326L，559L）

我正在尝试为多标签分类问题创建 LogistcRegression 分类器

但我得到了错误

整个堆栈跟踪是

我应该如何转换/格式化我的 X 维度？

python machine-learning scikit-learn logistic-regression multilabel-classification

2015-12-14T21:20:52.987

0 投票

1 回答

134 浏览

python-2.7 - OnVsRestClassifier 给出 0 精度

我正在尝试解决多标签分类问题

这样，我总是得到 0 准确度。请指出我做错了什么。我是多标签分类的新手。这是我的数据的样子

编辑

感谢您的帮助@lejlot。我想我已经掌握了窍门。这是我尝试过的

所以我的输入数据看起来像

所以这只是我创建的一些测试数据。然后我做

这给了我

然后

给我

在这里我想知道为什么有6列？不应该只有3个吗？ 无论如何，然后我还创建了一个测试数据文件

所以这看起来像

我有PredTags专栏来检查准确性。所以最后我适合并预测为

这给了我

现在，我怎么知道正在预测哪些标签？我如何检查我的PredTags专栏的准确性？

更新

非常感谢@lejlot :) 我也设法获得了如下的准确性

我也只需要对测试集预测列进行二值化:)

python-2.7 machine-learning scikit-learn logistic-regression multilabel-classification

2015-12-15T14:46:23.697

0 投票

1 回答

1363 浏览

python - Python sklearn OneVsRestClassifier：评分函数给出ValueError

我正在研究一个多标签分类问题

给我

然后我根据需要识别和转换列

给我

看看我的数据，这里的 y不应该只有 8 列吗？为什么有 10 列？

然后我拆分、变换、拟合并得分

但我得到了错误

这个错误是什么意思？可能是数据吗？我已经使用具有相似（相同列格式和数据格式）数据的完全相同的算法，并且没有问题。另外，为什么 fit 函数有效？

我在这里做错了什么？

编辑

所以在我的标签列中，数据被读取为字符串。因此 y 中有两个额外的列。我试过了

以适应多个值，但我仍然是同样的错误。至少我得到了正确的 y 列数。

python machine-learning scikit-learn logistic-regression multilabel-classification

2015-12-15T21:46:58.453

0 投票

1 回答

1760 浏览

python - Python sklearn 多标签分类：用户警告：标签不是 226 存在于所有训练示例中

我正在尝试一个多标签分类问题。我的数据看起来像这样

这是我的代码

代码运行良好，但我不断收到这些消息

这是什么意思？这是否表明我的数据不够多样化？

python machine-learning scikit-learn logistic-regression multilabel-classification

2015-12-17T18:51:18.067

0 投票

1 回答

412 浏览

python - 使用 scikit 处理多标签数据的问题

我使用以下代码进行多标签数据分类：-

======输出=====

最后两个是错误预测的，它们都应该是 ['New York', 'London'] 的 [0,0,1]

所以我有这些问题：- 1.] 我的代码到底有什么问题 2.] 这是处理“多标签”数据的正确方法吗？或者有没有其他更好的方法。因为我可以在互联网上找到关于“多标签”数据的所有这些和一两个代码。而对于二进制分类有数千个。请帮助我

python machine-learning text-classification multilabel-classification

user4069366

2015-12-28T15:49:16.823

问题标签 [multilabel-classification]

Reference