我已经实现了具有良好文本过滤的 Naive-Bayes 文档分类,并且我已经接受了具有良好准确性的统计结果,我需要使用 EM 算法来增强我的结果。
但我不知道我是否可以将 EM 算法与 Naive-Bayes 结果应用或将算法应用于数据并重新开始,因此我可以比较结果
在这两种情况下,我都需要了解这个问题上的 EM 算法,因为这真的让我很困惑
任何解释清楚的文件将不胜感激
我已经实现了具有良好文本过滤的 Naive-Bayes 文档分类,并且我已经接受了具有良好准确性的统计结果,我需要使用 EM 算法来增强我的结果。
但我不知道我是否可以将 EM 算法与 Naive-Bayes 结果应用或将算法应用于数据并重新开始,因此我可以比较结果
在这两种情况下,我都需要了解这个问题上的 EM 算法,因为这真的让我很困惑
任何解释清楚的文件将不胜感激
EM 通常可以帮助您处理未标记的数据。如果你有一些未标记的数据,你基本上像这样循环使用它
estimate some initial parameters, perhaps even randomly
while not converged:
relabel data using estimates
update estimates using new labels
如果您正在进行监督学习,那么重新标记步骤会破坏您的标签,并且可能会使您的分类变得更糟。
另一方面,这是一个关于用于文本分类的半监督朴素贝叶斯的不错的详细教程。如果你有一小部分标记的文档和一大堆未标记的文档,你可以使用它们来估计初始参数,然后对未标记的数据进行迭代步骤,最终得到一个更好的分类器。