0

我已经研究这篇论文(http://www.siefkes.net/papers/mrf-spamfiltering.pdf)超过几天了,但无法理解其中的任何公式第 3 节或之后。

特别是,我不明白这些部分是什么意思:

P(w|C(w) = s) /* 以给定单词为垃圾邮件为条件的文档为垃圾邮件的概率?*/

P(w|C(w) = spam) /* 这和前面的表达式的概率一样吗?为什么是“垃圾邮件”而不是“s”,反之亦然?*/

{带下标“cliques c”的乘积运算符}({带下标c的乘积运算符}(w,垃圾邮件))

/* 论文中说最里面的表达式是局部概率,但是符号我看不懂。跟在乘积算子后面的 (w, spam) 是有序集还是函数?它的功能是什么?*/

我也不理解其中包含二项式系数的任何公式,但至少对于那些我认为我知道我应该开始阅读什么的人。

4

1 回答 1

1

关于前两个,第一个在我看来是s作为 S 中 s 的变量。第二个只讨论 C(w) = spam,即 s = spam 的情况。您可以看到这一点,因为他们在定义中使用了 Z_{s} 和 V^{s},并且在示例中使用了 Z_{spam} 和 C(w) = spam,因此他们针对 C(w) = spam 的情况进行了演示,但定义是通用的,即涵盖 C(w) = spam 和 C(w) = nonspam。

关于这一点:
{Product operator with subscript "cliques c"} ({Product operator with subscript c} (w, spam)) (w,spam)
的定义没有在集合符号中给出,而只是在前面的段落中非正式地给出该术语用作local probability for (w_{i}, w_{j}), given C(w) = s。恐怕我不知道局部概率是什么意思,我认为它与马尔可夫理论有关?

关于加权方案定义,我真的不知道。

于 2013-06-15T22:25:25.387 回答