machine-learning - 文本分类：多文本分类与多类文本分类

Question

我对处理多标签分类问题的方法有疑问。

根据文献回顾，我发现一种最常用的方法是问题转换方法。它将多标签问题转化为多个单标签问题，分类结果只是每个单标签分类器的简单联合，使用二元相关方法。

由于单个标签问题可以分类为二分类问题（如果有两个标签）或多类分类问题（如果有多个标签，即标签>2），当前的转换方法似乎都将多标签问题转换为多个二进制问题。但这会导致数据不平衡问题，因为负类可能比正类拥有更多的文档。

所以我的问题是，为什么不转化为多个多类问题，然后应用直接多类分类算法来避免数据不平衡问题。在这种情况下，对于一个测试文档，每个训练的单标签多类分类器将预测是否分配标签，所有此类单标签多类分类器预测结果的并集将是该测试文档的最终标签集。

综上所述，与将多标签分类问题转化为多个二分类问题相比，将多标签分类问题转化为多个多类分类问题可以避免数据不平衡问题。除此之外，以上两种方法的一切都保持不变：您需要构造|L|（|L|表示分类问题中不同标签的总数）单标签（二元或多类）分类器，您需要准备 |L| 训练数据集和测试数据集，您需要在测试文档上测试每个单标签分类器，每个单标签分类器的预测结果的并集是测试文档的最终标签集。

希望有人能帮我解惑，非常感谢！

score 3 · Accepted Answer

您描述的是一种已知的多类问题转换策略，称为标签幂集转换策略。

这种方法的缺点：

LP 变换可能导致高达 2^|L| 转换后的标签。
类不平衡问题。

参考：Cherman、Everton Alvares、Maria Carolina Monard 和 Jean Metz。“多标签问题转换方法：案例研究”。CLEI 电子期刊 14.1 (2011)：4-4。

machine-learning - 文本分类：多文本分类与多类文本分类

1 回答 1

Related

Reference