给定一个主题,我如何计算文档“属于”该主题(即体育)的概率
这是我必须处理的:
1)我知道与该主题相关的文档中的常用词(消除所有停止词),以及包含该词的文档的百分比例如,如果主题是体育,我知道:
75% of sports documents have the word "play"
70% have the word "stadium"
40% have the word "contract"
30% have the word "baseball"
2)鉴于此,以及包含一堆单词的文档,我如何计算该文档属于该主题的概率?