有一个情感分析工具可以找出人们对社交网络的看法。该工具可以: (1) 将文档分解为一组句子。
(2)将每个句子分解成一组词,并进行过滤,只保留产品名称和形容词。
例如“这台 MacBook 棒极了。索尼比 Macbook 更好。”
处理后,我们可以得到:
{MacBook,真棒}
{索尼,更好}。(不是事实:D)
我们只是假设存在一个我们将永远关心的产品名称列表 P,并且存在一个我们永远关心的形容词列表 A。
我的问题是:
我们能否将这个问题简化为一个专门的关联规则挖掘问题?如何解决?如果是,则需要注意任何事情,例如缩减、参数设置(minsup 和 minconf)、附加约束以及修改 Aprior 算法以解决问题。
有什么方法可以人为地向结果发送垃圾邮件,例如在前 1 个形容词中添加“可怕”?有什么好的方法可以防止这种垃圾邮件吗?
谢谢。