假设我有一个数据集,可以使用 weka 的 J48 或 R 中的 randomForest 对其进行整齐分类。现在假设我有另一个训练文件,其中每个数据点包含两个分类。
我如何将这两者结合起来才能将新数据点分类为这两个类?
(所以我需要“两次通过”培训。)
我应该改用 MLP(如受限玻尔兹曼机)吗?
假设我有一个数据集,可以使用 weka 的 J48 或 R 中的 randomForest 对其进行整齐分类。现在假设我有另一个训练文件,其中每个数据点包含两个分类。
我如何将这两者结合起来才能将新数据点分类为这两个类?
(所以我需要“两次通过”培训。)
我应该改用 MLP(如受限玻尔兹曼机)吗?
我假设你的两个数据集看起来像这样......
数据集 1:
(x_11, x_12, ... , x_1N) = 1
(x_21, x_22, ... , x_2N) = 0
....
数据集 2:
(x_11, x_12, ... , x_1N) = (1, 1)
(x_21, x_22, ... , x_2N) = (0, 1)
....
假设这就是您的问题的样子,我会将其分为两个问题:预测两个不同的标签。我认为这可以通过概率公式来证明:
p(L1,L2|X) = p(L2|L1,X)p(L1|X)
其中 L1 和 L2 是两个类标签,X 是数据。
我的建议是使用数据集 1 和 2 以及 L1 作为目标变量训练 p(L1|X) 模型,然后使用数据集 2 和 L1 训练 p(L2|L1,X) 模型,L2 作为目标多变的。为了预测一对新标签,您应用第一个模型来获得 L1 的估计值,然后使用第二个模型使用 L1 的估计值来获得 L2 的估计值。
我认为反对这种方法的一个论点是,尽管公式是正确的,但可能是 p(L1,L2|X) 比 p(L2|L1,X) 和 p(L1|X) 更容易学习. 但是,在没有更多细节的情况下,我真的不知道。