我正在尝试将推文分为两类(例如,basketball
和non-basketball
)。显然,数据集是动态的,即文档集合不固定为一组N
文档(即推文):数据集在爬取 Twitter 时一遍又一遍地膨胀。
应该尝试应用的一件事是朴素贝叶斯分类器,它广泛用于文本分类。此处提供了解释。然而,一个疑问仍然存在。
我可以从训练集开始计算模型(并说明词汇表V
是由训练集中包含的术语组成的)。现在,人们可以收集一条新的、未分类的推文,其中包含不存在的V
术语(即,没有出现在训练集中的术语)。朴素贝叶斯分类器是否仍然适用?
概括问题:朴素贝叶斯分类器能否应用于词汇表不完全已知的情况?
先感谢您。