问题标签 [multilabel-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
219 浏览

machine-learning - Vowpal Wabbit 总是相同的结果

我正在使用大众来尝试预测多类。最奇怪的是,我使用哪个参数都没有关系,结果总是一样的。

应该发生这种情况,也许是因为我的数据?

细节:

大约 90k 行数据。一行数据:

它是一个多类问题,所以命令行是:

改变某些东西的单个参数是从--ect 到--oaa。我尝试添加以下内容,但没有更改最终验证值:

  • -c -k --passes 20 (一直到 8)
  • --l1 或 --l2
  • --power_t
  • --ignore D 或 --ignore d(或 s 或 su...)

结果总是

我在这里缺少什么吗?

0 投票
0 回答
498 浏览

classification - 使用 xgboost 包的分类模型

作为 xgboost 模型中的有效参数,我将字符转换为因子变量(例如“A”“B”“C”),并进一步转换为数字因子变量(例如“0”“1”“2”)。我可以使用哪个函数将数字因子转换回因子变量?我必须在分类模型中使用它。

0 投票
1 回答
603 浏览

scala - Spark 多类分类 - 分类变量

我有一个数据集作为 csv 文件。它有大约 50 列,其中大部分是分类的。我计划使用新的测试数据集运行 RandomForest 多类分类。

这样做的痛点是处理分类变量。处理它们的最佳方法是什么?我阅读了 Spark 网站http://spark.apache.org/docs/latest/ml-guide.html#example-pipeline中的 Pipeline 指南,它从硬编码序列创建了一个 DataFrame,还具有空格分隔的字符串。这看起来非常具体,我想在他们如何使用 HashingTF 使用我拥有的 CSV 文件的功能方面实现相同的目标。

简而言之,我想实现与链接中相同的功能,但使用 CSV 文件。

有什么建议么?

编辑:数据-> 50 个特征,100k 行,其中大部分是字母数字分类我对 MLlib 很陌生,因此很难从 CSV 中为我的数据找到合适的管道。我尝试从文件中创建一个 DataFrame,但对如何对分类列进行编码感到困惑。我的疑惑如下

0 投票
1 回答
17645 浏览

python - Scikit Learn 多标签分类:ValueError:您似乎正在使用旧的多标签数据表示

我正在尝试使用 scikit learn 0.17 和 anaconda 2.7 来解决多标签分类问题。这是我的代码

这是我的数据的样子

训练

测试

但我得到了错误

这是什么意思?

这是完整的堆栈跟踪

我该如何解决?我需要更改数据的格式吗?为什么 gridSearchTS.fit(Xtrain, ytrain) 失败?如何使 X 和 y 适合拟合函数?

编辑

我试过了

但现在我明白了

我也必须对 X 进行二值化吗?为什么我需要将 X 维度转换为浮点数?

0 投票
1 回答
4462 浏览

python - Python Sci-Kit 学习:多标签分类 ValueError:无法将字符串转换为浮点数:

我正在尝试使用 sci-kit learn 0.17 进行多标签分类,我的数据看起来像

训练

测试

到目前为止我的代码

但现在我明白了

我也必须对 X 进行二值化吗?为什么我需要将 X 维度转换为浮点数?

0 投票
1 回答
9805 浏览

python - Python多项逻辑回归:ValueError:输入形状错误(326L,559L)

我正在尝试为多标签分类问题创建 LogistcRegression 分类器

但我得到了错误

整个堆栈跟踪是

我应该如何转换/格式化我的 X 维度?

0 投票
1 回答
134 浏览

python-2.7 - OnVsRestClassifier 给出 0 精度

我正在尝试解决多标签分类问题

这样,我总是得到 0 准确度。请指出我做错了什么。我是多标签分类的新手。这是我的数据的样子

编辑

感谢您的帮助@lejlot。我想我已经掌握了窍门。这是我尝试过的

所以我的输入数据看起来像

所以这只是我创建的一些测试数据。然后我做

这给了我

然后

给我

在这里我想知道为什么有6列?不应该只有3个吗? 无论如何,然后我还创建了一个测试数据文件

所以这看起来像

我有PredTags专栏来检查准确性。所以最后我适合并预测为

这给了我

现在,我怎么知道正在预测哪些标签?我如何检查我的PredTags专栏的准确性?

更新

非常感谢@lejlot :) 我也设法获得了如下的准确性

我也只需要对测试集预测列进行二值化:)

0 投票
1 回答
1363 浏览

python - Python sklearn OneVsRestClassifier:评分函数给出ValueError

我正在研究一个多标签分类问题

给我

然后我根据需要识别和转换列

给我

看看我的数据,这里的 y不应该只有 8 列吗?为什么有 10 列?

然后我拆分、变换、拟合并得分

但我得到了错误

这个错误是什么意思?可能是数据吗?我已经使用具有相似(相同列格式和数据格式)数据的完全相同的算法,并且没有问题。另外,为什么 fit 函数有效?

我在这里做错了什么?

编辑

所以在我的标签列中,数据被读取为字符串。因此 y 中有两个额外的列。我试过了

以适应多个值,但我仍然是同样的错误。至少我得到了正确的 y 列数。

0 投票
1 回答
1760 浏览

python - Python sklearn 多标签分类:用户警告:标签不是 226 存在于所有训练示例中

我正在尝试一个多标签分类问题。我的数据看起来像这样

这是我的代码

代码运行良好,但我不断收到这些消息

这是什么意思?这是否表明我的数据不够多样化?

0 投票
1 回答
412 浏览

python - 使用 scikit 处理多标签数据的问题

我使用以下代码进行多标签数据分类:-

======输出=====

最后两个是错误预测的,它们都应该是 ['New York', 'London'] 的 [0,0,1]

所以我有这些问题:- 1.] 我的代码到底有什么问题 2.] 这是处理“多标签”数据的正确方法吗?或者有没有其他更好的方法。因为我可以在互联网上找到关于“多标签”数据的所有这些和一两个代码。而对于二进制分类有数千个。请帮助我