我希望编写一个脚本来解析用户的推文并将其分类为先前指定的类别。例如:
“如果 Ed Miliband 被 Blairites '引诱',他将失去选举,”工会主席说http://bit.ly/145CRAD “
将在域政治中分类。
“亲爱的萨钦,你已经 40 岁了。买一辆跑车,和 20 岁的金发女郎约会。享受你的中年危机。把 IPL 留给男孩 - 你的粉丝”
将在域 Cricket 中进行分类。
做这个的最好方式是什么?
我希望编写一个脚本来解析用户的推文并将其分类为先前指定的类别。例如:
“如果 Ed Miliband 被 Blairites '引诱',他将失去选举,”工会主席说http://bit.ly/145CRAD “
将在域政治中分类。
“亲爱的萨钦,你已经 40 岁了。买一辆跑车,和 20 岁的金发女郎约会。享受你的中年危机。把 IPL 留给男孩 - 你的粉丝”
将在域 Cricket 中进行分类。
做这个的最好方式是什么?
这是自然语言处理(NLP)领域的一个复杂问题,称为文档分类。最好的开源库之一由斯坦福 NLP Group维护。祝你好运!
这篇论文将是一个很好的起点…… http://dl.acm.org/citation.cfm?id=1835643 http://www.tmrfindia.org/ijcsa/v9i15.pdf
lda怎么样?主题模型!
你可以在 python 中尝试 online-lda
http://www.cs.princeton.edu/~blei/topicmodeling.html
那么如果你想尝试分布式lda(更快)
你可以试试 light-lda