1

我希望编写一个脚本来解析用户的推文并将其分类为先前指定的类别。例如:

“如果 Ed Miliband 被 Blairites '引诱',他将失去选举,”工会主席说http://bit.ly/145CRAD

将在域政治中分类。

“亲爱的萨钦,你已经 40 岁了。买一辆跑车,和 20 岁的金发女郎约会。享受你的中年危机。把 IPL 留给男孩 - 你的粉丝”

将在域 Cricket 中进行分类。

做这个的最好方式是什么?

4

4 回答 4

4

您正在寻找“主题模型”。技术包括潜在狄利克雷分配等。Wikipedia 文章包含指向诸如Mallet之类的资源的链接,这些资源应该对您有所帮助。

您没有具体说明您想使用什么语言,也没有说明“最佳”是什么意思?最容易实施、最快还是最好的结果?

另一种选择是使用人工(例如 Amazon Mechanical Turk),这可能会为您提供“最好”的推文结果,因为所有的缩写、讽刺和哈希标签都很难分类……#notAnEasyProblem。

于 2013-04-24T17:53:53.307 回答
1

这是自然语言处理(NLP)领域的一个复杂问题,称为文档分类。最好的开源库之一由斯坦福 NLP Group维护。祝你好运!

于 2013-04-25T17:40:40.777 回答
1
  1. 主题分类(传统分类技术)
  2. 例如,实体提取和更复杂的技术来识别与人或推文帐户相关的主题。

这篇论文将是一个很好的起点…… http://dl.acm.org/citation.cfm?id=1835643 http://www.tmrfindia.org/ijcsa/v9i15.pdf

于 2013-04-24T17:43:27.207 回答
0

lda怎么样?主题模型!

你可以在 python 中尝试 online-lda

http://www.cs.princeton.edu/~blei/topicmodeling.html

那么如果你想尝试分布式lda(更快)

你可以试试 light-lda

于 2016-04-16T15:58:32.980 回答