r - 多标签分类正确吗？

Question

假设我有一个数据集，可以使用 weka 的 J48 或 R 中的 randomForest 对其进行整齐分类。现在假设我有另一个训练文件，其中每个数据点包含两个分类。

我如何将这两者结合起来才能将新数据点分类为这两个类？

（所以我需要“两次通过”培训。）

我应该改用 MLP（如受限玻尔兹曼机）吗？

score 1 · Accepted Answer

我假设你的两个数据集看起来像这样......

数据集 1：

(x_11, x_12, ... , x_1N) = 1
(x_21, x_22, ... , x_2N) = 0
....

数据集 2：

(x_11, x_12, ... , x_1N) = (1, 1)
(x_21, x_22, ... , x_2N) = (0, 1)
....

假设这就是您的问题的样子，我会将其分为两个问题：预测两个不同的标签。我认为这可以通过概率公式来证明：

p(L1,L2|X) = p(L2|L1,X)p(L1|X)

其中 L1 和 L2 是两个类标签，X 是数据。

我的建议是使用数据集 1 和 2 以及 L1 作为目标变量训练 p(L1|X) 模型，然后使用数据集 2 和 L1 训练 p(L2|L1,X) 模型，L2 作为目标多变的。为了预测一对新标签，您应用第一个模型来获得 L1 的估计值，然后使用第二个模型使用 L1 的估计值来获得 L2 的估计值。

我认为反对这种方法的一个论点是，尽管公式是正确的，但可能是 p(L1,L2|X) 比 p(L2|L1,X) 和 p(L1|X) 更容易学习. 但是，在没有更多细节的情况下，我真的不知道。

1 回答 1