0

我有一个特定领域的数据集(比如运动 - 1 类)。我想要做的是,当我将网页提供给分类器/集群时,我想得到一个结果,无论该实例(网页)是否与运动相关。

weka 中的大多数分类器都不能处理一元类数据集,除了 LibSVM(包装器)。我用 LibSVM 做了一些测试,但问题是在对不相关的数据集进行测试期间,即使实例是空的,我也能正确分类它们!有什么建议么?
如果我在这里使用余弦相似度测量怎么办?

4

1 回答 1

3

在weka中见过这个线程一元类文本分类吗?这篇文章https://list.scms.waikato.ac.nz/mailman/htdig/wekalist/2007-October/011631.html

我假设您的意思是,当您针对另一个不是“体育”的数据集运行分类器时,它会得到错误分类的结果(即误报),例如“这是体育”。

你确定你的数据集只包含一个类吗?您是否确保数据集不包含任何空实例?(不要嘲笑,这曾经发生在我身上)。

在前面提到的线程的评论中,有一个关于调整 SVM 的 PDF 链接:http ://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf - 我会说 SVM 是一个比其他常见的分类器更难。

作为替代方案,您不能将问题切换到二进制分类吗?获得好的结果要容易得多,对于大多数问题,有很多不属于该类别的示例,例如体育网站与有趣的图像网站,编程网站等...

PS:您可以使用其他算法进行异常值检测:http ://en.wikipedia.org/wiki/Outlier_detection

于 2012-05-13T15:05:02.057 回答