0

我想找到以下概率:

P(y=1/n=k; thetha) 

读作:

概率,预测是第 1 类给定的单词数 = k,由 thetha 参数化

传统分类没有条件概率(右)

P(y = 1; thetha) 

我该如何解决这个问题?

编辑:

例如,假设我想根据附件的数量来预测电子邮件是否为垃圾邮件。让我们y=1指出垃圾邮件和y=0非垃圾邮件。

所以,

P(y = 1/num_attachements=0; some attributes)
and so on!!

这有意义吗?

4

2 回答 2

1

使用朴素的 Baisean 分类器。您可以很快自己编写代码或使用/查看 nltk 库。

于 2012-02-23T23:46:03.407 回答
1

通常附件数量只是另一个属性,因此您的概率与

P(y = 1 | all attributes)

但是,如果您对附件有一些特殊处理(例如,其他属性是数字,附件是布尔值),您可以单独计算它们,然后组合为:

P(C|A, B) = P(C|A) * P(C|B) / P(C)

其中C代表 event y = 1A- 代表附件和B其他属性。

有关几个 Nave Bayes 分类器的描述,请参阅本文

于 2012-02-24T00:07:32.250 回答