我正在尝试提出一种算法,以在同一个句子中找到该产品最常用的前 3 个形容词。我想使用关联规则挖掘(Apriori 算法)。
为此,我计划使用 twitter 数据。我可以或多或少地将 twits 分解成句子,然后通过过滤,我可以找到产品名称和形容词。
例如,过滤后我有类似的数据;
ipad mini,不错
ipad mini,太可怕了
三星galaxy s2,最好的
... ETC。
产品名称和形容词是先前定义的。所以我有一组产品名称和一组我正在寻找的形容词。
我读过几篇关于情感分析和规则挖掘的论文,他们都说使用了 Apriori 算法。但他们没有说他们是如何使用它的,也没有提供细节。
Therefore how can I reduce my problem to association rule mining problem?
What values should I use for minsup and minconf?
How can I modify Apriori algorithm to solve this problem?
我在想的是;
我应该为每个产品分别找到常用的形容词。然后通过排序,我可以获得前 3 个形容词。但我不知道它是否正确。