2

我即将开始一个项目,我的最终目标是将短文本分类为:“可能对访问 X 地点感兴趣”:“不感兴趣或中立”。地点由一组关键字描述(例如膳食或里程类型,如“中国菜”)。所以理想情况下,我需要一些方法来基于短文本分析来模拟用户的欲望——然后根据欲望分数或欲望概率进行分类——这个领域有什么最先进的吗?谢谢

4

1 回答 1

6

这个问题和文本的情感分析完全一样。但是,与传统的二元分类不同,您似乎有“中立”的意见。情感分析的最新技术高度依赖于领域。例如,在电影分类方面表现出色的技术在商业产品上表现不佳。

此外,即使是特征选择也高度依赖于领域。例如,一元组在电影评论分类方面效果很好,但一元组和二元组的组合在分类推特文本方面表现更好。

我最好的建议是“玩转”不同的功能。由于您正在查看短文本,因此 Twitter 可能是一个很好的激励示例。我会从一元和二元作为我的特征开始。确切的算法不是很重要。SVM 通常在正确的参数调整下表现得非常好。在对更大的数据集进行实验之前,使用少量保留数据来调整这些参数。

这个问题更有趣的部分是排名!最近在以下论文中为此目的使用了“纯度分数”(我认为它们是最先进的):

  • 情感总结:评估和学习用户偏好。勒曼、布莱尔-戈尔登索恩和麦克唐纳。EACL。2009 年。
  • 网络衍生极性词典的可行性。维利科维奇、布莱尔-戈尔登索恩、汉南和麦克唐纳。NAACL。2010 年。
于 2012-04-23T16:40:14.263 回答