1

我正在使用 libsvm(3.11) 工具在我的项目中实现 SVM 分类(使用多代理的文本分类)。但是每次我预测结果时,它都会为所有测试文档提供相同的标签,即 +1 或 -1,尽管我使用的是不同类型的数据。

我正在使用以下过程对纯文本文档执行 libsvm 分类:

-> 会有一套训练文本文件

-> 我正在使用 TF-IDF 权重将这些文本文档转换为 libsvm 支持的格式(我正在使用两个文件夹,代表两个类 .. 对于第一个文件夹,我分配了标签 -1,对于第二个文件夹,它是 +1 遵循 TF -该文本文档的 IDF 值)

-> 之后,我将这些词包放入一个纯文本文档中......然后通过使用这些词,我生成带有一些标签的测试文档向量(我只接受一个测试文档,所以 IDF 将始终为 1 并且将只有一个向量...我希望标签无关紧要)...

-> 之后,我使用默认选项应用 libsvm 函数 svm_train 和 svm_predict

我在做正确的程序吗?..如果有任何错误的程序请随时通知我..它真的会帮助我..

并且 Y 这个 libsvm 总是只给出一个标签的结果?..我的程序有什么问题吗?..还是工具有问题??提前致谢..

4

1 回答 1

1

为什么要使用新的标准来制作测试文件?测试培训文档集都应该来自您的原始“培训文本文档”集。我把这些放在引号中是因为你可以取其中的一个子集并将它们用于测试。最终,确保您的训练和测试文本文档集与原始文档集不同。

于 2012-08-13T22:39:48.143 回答