4

我正在尝试构建一个模型,该模型将尝试识别所提供文本的兴趣类别/主题。例如:

“喜欢早点踢一场足球比赛。”

将解析为顶级类别,例如:

“运动”。

我不确定我在这里想要实现的正确术语是什么,所以谷歌没有找到任何可以提供帮助的库。考虑到这一点,我的方法是这样的:

  1. 从文本中提取特征。使用标记对每个特征进行分类/识别名称/地点。可能会为此使用 NTLK 或 Topia。
  2. 为每个兴趣类别(“体育”、“视频游戏”、“政治”等)运行朴素贝叶斯分类器,并获得每个类别的相关性百分比。
  3. 确定哪个类别的准确率最高,并对文本进行分类。

我的方法可能涉及为每个兴趣类别设置单独的语料库,我相信准确性会相当糟糕——我知道它永远不会那么准确。

通常寻找一些关于我想要完成的可行性的建议,但我的问题的症结在于:a)我的方法是否正确?b) 是否有任何图书馆/资源可以提供帮助?

4

2 回答 2

6

你似乎知道很多正确的术语。尝试搜索“文档分类”。这是您要解决的一般问题。在代表性语料库上训练的分类器将比您想象的更准确。

  • (a) 没有一种正确的方法。但是,您概述的方法将起作用。
  • (b) Scikit Learn 是此类工作的绝佳图书馆。

网上还有很多关于这个主题的其他信息,包括教程:

  • github 上的这个朴素贝叶斯分类器可能已经完成了您想要完成的大部分工作。
  • NLTK 教程深入解释了该主题。
  • 如果你真的想深入研究,我相信谷歌学术搜索会找到数千篇关于这个主题的计算机科学和语言学学术文章。
于 2013-07-06T14:14:35.113 回答
4

您应该查看 Latent Dirichlet Allocation 它将为您提供没有标签的类别,因为 ed chens bolg总是一个好的开始。

于 2013-07-07T11:21:07.123 回答