machine-learning - 机器学习的特征选择

Question

我正在对网站进行分类。其中一项任务是过滤掉色情内容。我使用的是带有词袋的二进制 SVM 分类器。我有一个关于我应该在 BoW 中包含的词的问题：它应该只是与色情相关的词（色情网站上常见的词）还是还应该包括色情网站上很少发现但在其他网站上经常出现的词好吧（例如，“数学”、“工程”、“吉他”、“出生”等）？

我遇到的问题是医学和家庭相关网站上的误报。如果我只寻找与色情相关的词，那么这些网站的向量最终会非常稀疏。像“性”这样的词经常出现，但在完全无辜的上下文中。

我也应该包括非色情词吗？还是我应该看看其他解决误报的方法？建议是最受欢迎的。

score 2 · Accepted Answer

主题建模（尝试潜在 Dirichlet 分配http://en.wikipedia.org/wiki/Latent_Dirichlet_allocation）将能够很好地处理这个问题。

将文档主题作为特征提供给分类器将有助于避免您遇到的问题。

score 2 · Accepted Answer

另一种可能的方法是专门为色情网站制作语言模型。我认为，如果您有 n-gram（例如 3-gram），则应该更容易识别特定单词“sex”是否与色情或其他领域有关。

一个理论上的猜测：如果你有这样的语言模型，你甚至不需要分类器。（困惑，n-gram 的可能性应该足以决定......）

score 1 · Accepted Answer

您应该包含尽可能多的单词；理想情况下是一本完整的字典。分类器能够通过确定网站与您定义的类的相似程度来识别网站。您需要为其提供识别两个类的方法，而不仅仅是其中一个。想想被要求识别图片中的猫，但只是被展示猫来训练。虽然对于任何特定的图片，您可能会说它看起来不像猫（或者更确切地说是您见过的任何猫），但您无法确定是否有足够的猫性来让它成为一只猫。

score 1 · Accepted Answer

包括所有的词，让 SVM 决定哪些是有用的 - 分类器需要能够区分正面和负面，负面也可以用不在目标域（色情）中的词来表征，从而使示例之间的拆分可能更清晰。

最好不仅使用单个单词，还使用 n-gram（例如，高于某个频率的 2 或 3-gram）作为附加特征（这应该有助于解决药物误报的问题）。如果您使用 TF-IDF 加权，N-gram 也将适合您的方法。

machine-learning - 机器学习的特征选择

4 回答 4

Related

Reference