machine-learning - 机器学习当数据集只包含一类实例时使用什么方法？

Question

我有一个特定领域的数据集（比如运动 - 1 类）。我想要做的是，当我将网页提供给分类器/集群时，我想得到一个结果，无论该实例（网页）是否与运动相关。

weka 中的大多数分类器都不能处理一元类数据集，除了 LibSVM（包装器）。我用 LibSVM 做了一些测试，但问题是在对不相关的数据集进行测试期间，即使实例是空的，我也能正确分类它们！有什么建议么？
如果我在这里使用余弦相似度测量怎么办？

score 3 · Accepted Answer

我假设您的意思是，当您针对另一个不是“体育”的数据集运行分类器时，它会得到错误分类的结果（即误报），例如“这是体育”。

你确定你的数据集只包含一个类吗？您是否确保数据集不包含任何空实例？（不要嘲笑，这曾经发生在我身上）。

在前面提到的线程的评论中，有一个关于调整 SVM 的 PDF 链接：http ://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf - 我会说 SVM 是一个比其他常见的分类器更难。

作为替代方案，您不能将问题切换到二进制分类吗？获得好的结果要容易得多，对于大多数问题，有很多不属于该类别的示例，例如体育网站与有趣的图像网站，编程网站等...

PS：您可以使用其他算法进行异常值检测：http ://en.wikipedia.org/wiki/Outlier_detection

1 回答 1