1

我正在尝试将文本文档分类为类别,例如:

文档1:“篮球是一项很好的运动”---> 分类:运动
文件 2:“第二次世界大战 ..” ---> 类别:历史
...

我的目标是使用 SVM 算法创建 Java 接口!
所以,我应该使用 SVM Java Library ,我找到了两个:

  • SVMLIGH
  • LIBSVM

我应该使用第一个还是第二个?

我做了很多研究,我发现我应该做两件事:

  • 我应该准备一份培训文件。
    在 SVM 中,这个文件有一种特殊的格式(例如:1 1:317.5)
    但问题是:我应该从什么生成这个文件?仅从文件中?还是来自别的东西?

  • 我应该有一个测试文件,这意味着要分类的新文件。我应该转换新文档以分类为 SVM 测试文件格式吗?

那是正确的吗?

请指导我,我真的迷路了,我不知道该怎么办!PLZ

4

1 回答 1

1

是的,您应该将格式更改为 svm 标准您的 svm 分类器对文本一无所知,首先您应该将文本(火车,测试)更改为标准格式您可以使用Weka启动您的分类器,weka 有简单的 GUI,您可以对您的分类器进行分类当您对分类器及其准确性充满信心时,只需单击几下即可获取数据集,然后在 java 中实现它,您也可以在 java 代码中使用 Weka

PS: 1- WEKA 文本分类第一次和初学者用户:http ://www.youtube.com/watch?v=IY29uC4uem8

2- http://www.cs.waikato.ac.nz/ml/weka/ ‎</p>

于 2014-02-02T11:39:32.073 回答