0

我有一个巨大的文本数据集,我从中分离出包含特定关键字/s的文本。这是具有特定关键字的数据集。现在我的下一个任务是根据8 个情绪和 2 个情绪对这个数据集进行分类,总共会有10 个不同的类别。我从NRC 情感词典中得到了这个想法,该词典包含 14182 个不同的单词及其情感+情感类。NRC 的主要工作http://saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm. 我知道朴素贝叶斯分类或聚类适用于二元分类(例如,两类正面和负面情绪)。但是当 10 类问题来了,我不知道我将如何进一步处理。我非常感谢您的建议。我正在用 R 做作业。最终结果如下:

|==================================|====================================|
|   SentencesWithKeywords          |      emotion or sentiment class    |
-----------------------------------|------------------------------------|
|conflict need resolved turned     | anger/anticipation/disgust/fear/joy|
|conversation  exchange ideas      |     negative/positive/sadness/     | 
|richer environment                |            surprise/trust          | 
|                                  |                                    |
|----------------------------------|------------------------------------|
|     sentence2                    |anger/anticipation/disgust/fear/joy |
|                                  |     negative/positive/sadness/     |
|                                  |           surprise/trust           |
|----------------------------------|------------------------------------|
4

1 回答 1

0

您应该查看 caret 包(http://topepo.github.io/caret/index.html)。您要做的是两种不同的分类(一种是多类问题,一种是两类问题)。将文档表示为词频向量并运行您选择的分类算法。SVM 通常适用于词袋方法。

于 2016-08-14T08:33:31.197 回答