我有一个巨大的文本数据集,我从中分离出包含特定关键字/s的文本。这是具有特定关键字的数据集。现在我的下一个任务是根据8 个情绪和 2 个情绪对这个数据集进行分类,总共会有10 个不同的类别。我从NRC 情感词典中得到了这个想法,该词典包含 14182 个不同的单词及其情感+情感类。NRC 的主要工作http://saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm
. 我知道朴素贝叶斯分类或聚类适用于二元分类(例如,两类正面和负面情绪)。但是当 10 类问题来了,我不知道我将如何进一步处理。我非常感谢您的建议。我正在用 R 做作业。最终结果如下:
|==================================|====================================|
| SentencesWithKeywords | emotion or sentiment class |
-----------------------------------|------------------------------------|
|conflict need resolved turned | anger/anticipation/disgust/fear/joy|
|conversation exchange ideas | negative/positive/sadness/ |
|richer environment | surprise/trust |
| | |
|----------------------------------|------------------------------------|
| sentence2 |anger/anticipation/disgust/fear/joy |
| | negative/positive/sadness/ |
| | surprise/trust |
|----------------------------------|------------------------------------|