我正在尝试将文本文档分类为类别,例如:
文档1:“篮球是一项很好的运动”---> 分类:运动
文件 2:“第二次世界大战 ..” ---> 类别:历史
...
我的目标是使用 SVM 算法创建 Java 接口!
所以,我应该使用 SVM Java Library ,我找到了两个:
- SVMLIGH
- LIBSVM
我应该使用第一个还是第二个?
我做了很多研究,我发现我应该做两件事:
我应该准备一份培训文件。
在 SVM 中,这个文件有一种特殊的格式(例如:1 1:317.5)
但问题是:我应该从什么生成这个文件?仅从文件中?还是来自别的东西?我应该有一个测试文件,这意味着要分类的新文件。我应该转换新文档以分类为 SVM 测试文件格式吗?
那是正确的吗?
请指导我,我真的迷路了,我不知道该怎么办!PLZ