我正在对网站进行分类。其中一项任务是过滤掉色情内容。我使用的是带有词袋的二进制 SVM 分类器。我有一个关于我应该在 BoW 中包含的词的问题:它应该只是与色情相关的词(色情网站上常见的词)还是还应该包括色情网站上很少发现但在其他网站上经常出现的词好吧(例如,“数学”、“工程”、“吉他”、“出生”等)?
我遇到的问题是医学和家庭相关网站上的误报。如果我只寻找与色情相关的词,那么这些网站的向量最终会非常稀疏。像“性”这样的词经常出现,但在完全无辜的上下文中。
我也应该包括非色情词吗?还是我应该看看其他解决误报的方法?建议是最受欢迎的。