0

我有一个包含积极和消极词的情感词典以及它们的情感强度值。我的主要工作是检查这个强度值是否对最终分类有影响。这意味着我想检查带有单词“good”(强度= 6)的文本和带有出色(强度= 9)的单词是否具有不同的最终情绪得分。

我在为SVM. 如果我使用TF-IDF测量或POS tagging它不检查强度值。所以我的主要问题是如何在 SVM 中使用这个强度值以及如何生成包含单词强度值的特征向量?

例如,

"This book is good." 

对于这句话,如何生成考虑强度值的特征向量?

  • 首先,我想将强度值与词频相乘并将这个加权分数用作特征输入,但这只会增加词频。例如“good”出现了 2 次,然后我将它乘以它的强度值 6,然后它的值变成 12,所以它只会增加单词“good”的出现,对吗?

  • 所以请谁能告诉我是否可以使用情绪强度值SVM以及如何使用它?

  • 如何使用它们的值生成特征向量?

4

1 回答 1

0

只是一些建议:

构建一个词汇表

该词汇表用作字典。您不会将字典中不存在的任何单词包含到您的特征向量中。假设您的字典包含 5000 个单词。

为词汇表中的每个单词准备情感强度

当然,您可以为那些您不知道其情感强度的单词设置一些默认值。

为要分类的每个文本构建特征向量

对于任何给定的文本,例如,

This book is good.

构造一个 5000 维的特征向量。每个维度对应于它的 Tf-Idf 分数,或者只是一个单词在字典中出现的次数。假设在你的字典中,你有

strength(book) = 0.01
strength(good) = 6.0, 

并且您没有thisor的条目is。然后你最终会得到一个包含 5000 个元素的向量(我在下面的示例中使用出现次数而不是 Tf-Idf。随意以类似的方式尝试 Tf-Idf)。

          book,good
[0,0,0, ..., 1,1,0,0,....,0]

book除了与和对应的两个元素外,所有元素都是零good。插入你的情绪强度,你会得到:

           book,good
[0,0,0, ...,0.01,6.0,0,0,....,0]

将强度值乘以出现次数可能会增加或减少相应元素的值。这很好,因为您确实希望通过其情绪强度来增强或削弱组件的贡献。

训练 SVM

当为每个特征向量提供目标值或类标签时,您现在可以训练您的 SVM。

希望他们有所帮助。

于 2013-01-27T05:27:47.927 回答