我尝试了朴素贝叶斯分类器,它的工作非常糟糕。SVM 工作得更好一些,但仍然很糟糕。我读过的大多数关于 SVM 和朴素贝叶斯的论文都有一些变化(n-gram、POS 等),但它们都给出了接近 50% 的结果(文章的作者谈论 80% 和高,但我不能得到同样准确真实数据)。
除了词法分析,还有更强大的方法吗?SVM 和贝叶斯假设单词是独立的。这些方法称为“词袋”。如果我们假设这些词是相关联的呢?
例如:使用先验算法检测如果句子包含“bad and wrong”,那么该句子有 70% 的概率是否定的。我们也可以使用单词之间的距离等等。
这是个好主意还是我正在发明自行车?