我是 Weka 和文本分类的初学者。我在 java 程序中使用 weka,因为我想用它来对我的网站帖子的标题进行分类。例如:
“如何从 youtube 下载视频”、“2013 年最佳安卓手机”、“微软今年宣布推出一款新平板电脑”等......
我有 23 个类别:运动、技术、科学、健康等...
对于每个类别,我找到了 5 个网站,我可以从中获取培训文本。例如,在 Weka 中为 Techonology 类别添加了 engadget.com 文章的文本内容。
现在问题来了。我应该在 Weka 中添加什么样的文本?
到目前为止,我得到了所有网站的文章标题,将它们按单词之间的空格分开,并将单数单词添加到类别(unigrams)中。例如,如果标题是“如何修复计算机”,这就是我所做的:
将“如何”添加到技术,将“是”添加到技术,将“修复”添加到技术等等......(显然我正在使用停用词列表来删除无用的词)。
但我得到的结果并不好。
根据您的经验,我该怎么办?我是不是该:
a) 将文章标题的全文添加到类别中;b) 将文章内容的全文添加到类别中;c) 将文章内容的文本拆分成单数词(unigrams)并添加到一个类别中;d) 还有什么?
谢谢你。