-1

我知道如何通过 Weka 对文本进行分类,我可以在 Weka GUI 中插入一个文本文件夹,并尝试不同的算法,如果其中一个文本对某个主题是正面/负面的,它可以告诉我。

现在我需要一些不同的东西,我想构建一个应用程序,当用户插入单个文本文件时,它可以告诉文本的主题。

Weka有没有可能做到这一点?如果有人能给我一个提示,我会很高兴的。

4

2 回答 2

2

你必须使用Weka吗?如果没有,还有其他很好的文本分类系统,可以开放/免费访问主题分类。我建议尝试可以下载或使用网络服务的Open Calais 。

于 2013-10-14T21:28:38.683 回答
1

“主题”是什么意思?这是一个非常广泛的概念,但在大多数情况下,它只是可能的文本类别的有限集合,例如“科学”、“运动”等,您可以将其称为C,并将其视为监督分类问题,就像您对“正/负”分类。分类为多个类别并没有什么特别之处。然而,您仍然需要为每个类别提供一个训练集。

总而言之-您可以以与二进制分类完全相同的方式使用 WEKA,只需使用更多标签执行分类(如果您的类别是互斥的,即没有任何文本是关于“科学”和“运动”的)或创建|C|二进制分类器,如果您的文本可以是类别的任何子集的一部分(这更合理,因为文档通常“介于”某些主题之间)并简单地回答相应分类器回答“是”的类别集(肯定)。

如果您想以无监督的方式(没有训练集)执行此操作,那么需要通过某种文本摘要/主题建模技术对主题进行实际建模,这将是一项更为复杂的任务,据我所知,这在 WEKA 中没有实现。事实上,据我所知,这种方法还不够成熟,无法谈论任何“好的”解决方案——这些是相当多的研究领域,有很多方法和混合的结果。

于 2013-10-14T16:38:12.473 回答