data-mining - 使用 R 对文本进行情感分类

Question

我有一个巨大的文本数据集，我从中分离出包含特定关键字/s的文本。这是具有特定关键字的数据集。现在我的下一个任务是根据8 个情绪和 2 个情绪对这个数据集进行分类，总共会有10 个不同的类别。我从NRC 情感词典中得到了这个想法，该词典包含 14182 个不同的单词及其情感+情感类。NRC 的主要工作http://saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm. 我知道朴素贝叶斯分类或聚类适用于二元分类（例如，两类正面和负面情绪）。但是当 10 类问题来了，我不知道我将如何进一步处理。我非常感谢您的建议。我正在用 R 做作业。最终结果如下：

|==================================|====================================|
|   SentencesWithKeywords          |      emotion or sentiment class    |
-----------------------------------|------------------------------------|
|conflict need resolved turned     | anger/anticipation/disgust/fear/joy|
|conversation  exchange ideas      |     negative/positive/sadness/     | 
|richer environment                |            surprise/trust          | 
|                                  |                                    |
|----------------------------------|------------------------------------|
|     sentence2                    |anger/anticipation/disgust/fear/joy |
|                                  |     negative/positive/sadness/     |
|                                  |           surprise/trust           |
|----------------------------------|------------------------------------|

score 0 · Accepted Answer

您应该查看 caret 包（http://topepo.github.io/caret/index.html）。您要做的是两种不同的分类（一种是多类问题，一种是两类问题）。将文档表示为词频向量并运行您选择的分类算法。SVM 通常适用于词袋方法。

data-mining - 使用 R 对文本进行情感分类

1 回答 1

Related

Reference