我有一个特定领域的数据集(比如运动 - 1 类)。我想要做的是,当我将网页提供给分类器/集群时,我想得到一个结果,无论该实例(网页)是否与运动相关。
weka 中的大多数分类器都不能处理一元类数据集,除了 LibSVM(包装器)。我用 LibSVM 做了一些测试,但问题是在对不相关的数据集进行测试期间,即使实例是空的,我也能正确分类它们!有什么建议么?
如果我在这里使用余弦相似度测量怎么办?
我有一个特定领域的数据集(比如运动 - 1 类)。我想要做的是,当我将网页提供给分类器/集群时,我想得到一个结果,无论该实例(网页)是否与运动相关。
weka 中的大多数分类器都不能处理一元类数据集,除了 LibSVM(包装器)。我用 LibSVM 做了一些测试,但问题是在对不相关的数据集进行测试期间,即使实例是空的,我也能正确分类它们!有什么建议么?
如果我在这里使用余弦相似度测量怎么办?
你在weka中见过这个线程一元类文本分类吗?这篇文章https://list.scms.waikato.ac.nz/mailman/htdig/wekalist/2007-October/011631.html?
我假设您的意思是,当您针对另一个不是“体育”的数据集运行分类器时,它会得到错误分类的结果(即误报),例如“这是体育”。
你确定你的数据集只包含一个类吗?您是否确保数据集不包含任何空实例?(不要嘲笑,这曾经发生在我身上)。
在前面提到的线程的评论中,有一个关于调整 SVM 的 PDF 链接:http ://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf - 我会说 SVM 是一个比其他常见的分类器更难。
作为替代方案,您不能将问题切换到二进制分类吗?获得好的结果要容易得多,对于大多数问题,有很多不属于该类别的示例,例如体育网站与有趣的图像网站,编程网站等...
PS:您可以使用其他算法进行异常值检测:http ://en.wikipedia.org/wiki/Outlier_detection