我正在使用朴素贝叶斯做文本分类机器学习问题。我将每个单词作为一个特征。我已经能够实现它并且我得到了很好的准确性。
我可以使用单词元组作为特征吗?
例如,如果有两个课程,政治和体育。政府这个词可能出现在他们俩身上。然而,在政治中我可以有一个元组(政府、民主),而在体育课上我可以有一个元组(政府、运动员)。所以,如果一个新的文本文章是政治的,元组(政府,民主)的概率比元组(政府,运动员)的概率更大。
我问这是因为这样做我违反了朴素贝叶斯问题的独立性假设,因为我也将单个单词视为特征。
另外,我正在考虑为特征添加权重。例如,3 元组特征的权重将低于 4 元组特征。
从理论上讲,这两种方法是否不会改变朴素贝叶斯分类器的独立性假设?另外,我还没有开始使用我提到的方法,但这会提高准确性吗?我认为准确度可能不会提高,但获得相同准确度所需的训练数据量会更少。