使用朴素贝叶斯文本分类技术,您通常计算训练数据中的单词并计算 p(label | document),其中文档是一串单词?
对于文本分类,为什么我们不能直接计算 P(label | word1, word2, etc) 来预测标签?(即为什么我们需要使用贝叶斯定理)
鉴于文件,我们有完整的数据......似乎应该能够直接计算 p(label and w1 and w2 ) / p(w1 and w2) ?
我意识到训练集不是基本事实。用贝叶斯定理计算能解决这个问题吗?如果是这样,怎么做?你能说明数学是如何工作的吗?