java - 使用 Java 的 LIBSVN 库进行文本分类的 SVM

Question

我正在尝试构建一个 java 应用程序，该应用程序在一组文本文档上训练一个 SVM 模型，并根据该模型对新文档进行分类。我已经在 java 中寻找了很多可以做到这一点的包，并发现 libsvm 实现是最好的。

1) 我的训练输入本质上是一个包含文档文本和正确标签的文本文件。我知道 libsvm 包目前仅适用于数字数据，这意味着我必须将我的文本文件和特征（单词）转换为数字形式。TF-IDF 是一个很好的方法吗？是否有可以生成 TF-IDF 的 java 库？

2）数据必须以表格形式输入模型

<class label> <feature 1>:<value 1> <feature 2>:<value 2> ...... <feature n>:<value n>

在我的例子中，特征是文档中的一个词，值是 TF-IDF 值。我的解释对吗？

有没有使用 libsvm 的类似示例？我做了一些搜索，但没有任何运气！

score 0 · Accepted Answer

有几个例子。您可以rcv1在LIBSVM 数据集页面上查看数据集。这是一个文档分类数据集（在 LIBSVM 表示中已经是 TF-IDF 格式）。存在许多关于该主题的论文，例如Joachims的 Text Categorization with Support Vector Machines。

1 回答 1