machine-learning - 使用情感字典值作为 SVM 中的特征

Question

我有一个包含积极和消极词的情感词典以及它们的情感强度值。我的主要工作是检查这个强度值是否对最终分类有影响。这意味着我想检查带有单词“good”（强度= 6）的文本和带有出色（强度= 9）的单词是否具有不同的最终情绪得分。

我在为SVM. 如果我使用TF-IDF测量或POS tagging它不检查强度值。所以我的主要问题是如何在 SVM 中使用这个强度值以及如何生成包含单词强度值的特征向量？

例如，

"This book is good."

对于这句话，如何生成考虑强度值的特征向量？

首先，我想将强度值与词频相乘并将这个加权分数用作特征输入，但这只会增加词频。例如“good”出现了 2 次，然后我将它乘以它的强度值 6，然后它的值变成 12，所以它只会增加单词“good”的出现，对吗？
所以请谁能告诉我是否可以使用情绪强度值SVM以及如何使用它？
如何使用它们的值生成特征向量？

score 0 · Accepted Answer

只是一些建议：

构建一个词汇表

该词汇表用作字典。您不会将字典中不存在的任何单词包含到您的特征向量中。假设您的字典包含 5000 个单词。

当然，您可以为那些您不知道其情感强度的单词设置一些默认值。

对于任何给定的文本，例如，

This book is good.

构造一个 5000 维的特征向量。每个维度对应于它的 Tf-Idf 分数，或者只是一个单词在字典中出现的次数。假设在你的字典中，你有

strength(book) = 0.01
strength(good) = 6.0,

并且您没有thisor的条目is。然后你最终会得到一个包含 5000 个元素的向量（我在下面的示例中使用出现次数而不是 Tf-Idf。随意以类似的方式尝试 Tf-Idf）。

          book,good
[0,0,0, ..., 1,1,0,0,....,0]

book除了与和对应的两个元素外，所有元素都是零good。插入你的情绪强度，你会得到：

           book,good
[0,0,0, ...,0.01,6.0,0,0,....,0]

将强度值乘以出现次数可能会增加或减少相应元素的值。这很好，因为您确实希望通过其情绪强度来增强或削弱组件的贡献。

当为每个特征向量提供目标值或类标签时，您现在可以训练您的 SVM。

希望他们有所帮助。