我正在尝试构建一个 java 应用程序,该应用程序在一组文本文档上训练一个 SVM 模型,并根据该模型对新文档进行分类。我已经在 java 中寻找了很多可以做到这一点的包,并发现 libsvm 实现是最好的。
1) 我的训练输入本质上是一个包含文档文本和正确标签的文本文件。我知道 libsvm 包目前仅适用于数字数据,这意味着我必须将我的文本文件和特征(单词)转换为数字形式。TF-IDF 是一个很好的方法吗?是否有可以生成 TF-IDF 的 java 库?
2)数据必须以表格形式输入模型
<class label> <feature 1>:<value 1> <feature 2>:<value 2> ...... <feature n>:<value n>
在我的例子中,特征是文档中的一个词,值是 TF-IDF 值。我的解释对吗?
有没有使用 libsvm 的类似示例?我做了一些搜索,但没有任何运气!