0

我正在尝试构建一个 java 应用程序,该应用程序在一组文本文档上训练一个 SVM 模型,并根据该模型对新文档进行分类。我已经在 java 中寻找了很多可以做到这一点的包,并发现 libsvm 实现是最好的。

1) 我的训练输入本质上是一个包含文档文本和正确标签的文本文件。我知道 libsvm 包目前仅适用于数字数据,这意味着我必须将我的文本文件和特征(单词)转换为数字形式。TF-IDF 是一个很好的方法吗?是否有可以生成 TF-IDF 的 java 库?

2)数据必须以表格形式输入模型

<class label> <feature 1>:<value 1> <feature 2>:<value 2> ...... <feature n>:<value n>

在我的例子中,特征是文档中的一个词,值是 TF-IDF 值。我的解释对吗?

有没有使用 libsvm 的类似示例?我做了一些搜索,但没有任何运气!

4

1 回答 1

0

有几个例子。您可以rcv1LIBSVM 数据集页面上查看数据集。这是一个文档分类数据集(在 LIBSVM 表示中已经是 TF-IDF 格式)。存在许多关于该主题的论文,例如Joachims的Text Categorization with Support Vector Machines

于 2013-07-15T20:37:40.810 回答