我正在尝试将 SVM 用于文本分类问题。我发现了一个名为 SVM light 的 SVM 实现及其派生的 SVM 多类(用于超过 2 个类的分类问题)。但是我真的无法理解用于训练和测试分类器的文件格式。我知道我需要创建一个特征向量(让我们假设我将文档中的每个单词作为一个特征)然后对于每个文档我必须指定它的类,它包含的特征(实际上是特征的索引)特征向量)和一个特征值来创建训练文件。我对这个“特征价值”感到困惑。可能是什么?这是本文档中该功能的计数吗?或者是别的什么?该网站包含的示例火车文件没有整数作为特征值,这表明形成特征值的不是频率
另外我想知道是否有一些工具/软件可以从一个简单的文档创建这个训练文件。我通常使用 Java;所以Java中的一些包可以做到这一点对我来说也足够了。我尝试搜索谷歌,但找不到任何相关内容。
我还想知道是否有其他更好的方法可以使用 SVM 进行文本分类。
在这方面的任何帮助将不胜感激。