当使用SVMlight
或LIBSVM
为了将短语分类为正面或负面(情绪分析)时,有没有办法确定哪些是影响算法决策的最有影响力的词?例如,发现这个词"good"
有助于确定一个短语是积极的,等等。
问问题
655 次
2 回答
5
如果您使用线性内核,那么可以 - 只需计算权重向量:
w = SUM_i y_i alpha_i sv_i
在哪里:
sv
- 支持向量alpha
- 使用 SVMlight 找到的系数y
- 相应等级(+1 或 -1)
(在某些实现alpha
中,已经乘以y_i
,所以它们是正/负)
一旦你有w
,这是1 x d
你d
的数据维度(词袋中的词数/tfidf表示)的维度,只需选择具有高绝对值的维度(无论是正的还是负的),以找到最重要的特征(字)。
如果您使用一些内核(如 RBF),那么答案是否定的,因为分类过程以完全不同的方式执行,所以没有直接的方法可以取出最重要的特征。
于 2013-12-29T23:27:55.940 回答