-3

有一个情感分析工具可以找出人们对社交网络的看法。该工具可以: (1) 将文档分解为一组句子。

(2)将每个句子分解成一组词,并进行过滤,只保留产品名称和形容词。

例如“这台 MacBook 棒极了。索尼比 Macbook 更好。”

处理后,我们可以得到:

{MacBook,真棒}

{索尼,更好}。(不是事实:D)

我们只是假设存在一个我们将永远关心的产品名称列表 P,并且存在一个我们永远关心的形容词列表 A。

我的问题是:

  1. 我们能否将这个问题简化为一个专门的关联规则挖掘问题?如何解决?如果是,则需要注意任何事情,例如缩减、参数设置(minsup 和 minconf)、附加约束以及修改 Aprior 算法以解决问题。

  2. 有什么方法可以人为地向结果发送垃圾邮件,例如在前 1 个形容词中添加“可怕”?有什么好的方法可以防止这种垃圾邮件吗?

谢谢。

4

1 回答 1

0

你考虑过数数吗?

对于每种产品,计算每个形容词出现的频率。

报告每种产品的前 3 个形容词。

只需对您的数据进行一次遍历,并且不会使用大量内存(除非您有数百万个产品要跟踪)。

没有理由使用关联规则挖掘。关联规则挖掘仅在您寻找大型项目集(即 4 个或更多项)时才有效,而且它们同样重要。如果您知道某个术语是特殊的(例如产品名称与形容词),则通过此唯一键拆分数据集,然后使用计数是有意义的。

于 2014-06-06T12:37:07.497 回答