3

我计划完成关于自然语言处理(使用 NLTK)的最后一年项目,我感兴趣的领域是Facebook 等社交媒体网站的评论摘要。例如,我正在尝试做这样的事情:

图片中的随机 Facebook 评论:

  1. 哇!美丽的。
  2. 看起来真的很漂亮。
  3. 非常漂亮,好图。

现在,所有这些评论都将被映射(使用基于模板的评论摘要技术)成如下内容:

3个人觉得这张照片很“漂亮”。

输出将包含“美丽”这个词,因为它在评论中比“漂亮”这个词更常用(而且美丽和漂亮是同义词)。为了完成这项任务,我将使用跟踪关键字频率关键字得分等方法(在这种情况下,“美丽”“漂亮”的得分非常接近)。 这是最好的方法吗?

到目前为止,通过我的研究,我已经能够提出以下论文,但没有一篇论文涉及这种评论摘要:

该领域还有哪些其他论文解决了类似的问题?

除此之外,我还希望我的摘要器在每次摘要任务中都得到改进。在这方面我如何应用机器学习

4

1 回答 1

8

您正在寻找主题模型聚类。

在 Google Scholar 上搜索“主题模型聚类”将为您提供有关主题模型聚类的大量参考资料。

要理解它们,除了机器学习的一般基础知识之外,您还需要熟悉以下任务的方法。

  1. 聚类:余弦距离聚类、k-means聚类
  2. 排名:PageRank、TF-IDF、互信息增益、最大边际相关性
于 2014-10-12T09:13:05.050 回答