2

我正在做一个机器学习项目,我正处于进展的第一阶段。我正在提取功能并测试要使用或不使用的功能。我有一个由 2 个类组成的数据集。我想检查情绪和作为其中任何一个群体之间是否存在关系。我的数据如下所示:

group_a this is a tweet
group_b this is another tweet
group_b this is another tweet
group_a this is another tweet

如何找到情绪和群体之间的相关性?因为这是我项目的功能选择部分,所以我可以使用任何工具而不是手动实现它。WEKA、PRTools 或任何其他工具,如果您能告诉我如何操作,欢迎您。

PS:实际上在实现算法之前,我想检查是否可以得到类似的东西:

即 group_a 比 group_b 更负面

所以在我的测试数据中,当我得到一个句子时,我可以说如果它是一个负面情绪句子,它可能与 group_a 有关

4

2 回答 2

0

根据您的问题,我假设您正在尝试将二元情绪分类为正面与负面情绪。我建议在 Weka 中使用 C4.5 决策树分类器。如果您想深入了解 C4.5 中使用的熵度量如何模拟您要达到的目标的理论细节,请查看第 2 章。4马克霍尔的论文

于 2013-01-08T18:05:23.143 回答
0

这是一篇关于如何在 NLTK 中执行情感分析的好文档。

http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/

此外,scikit-learn 是 Python 编程语言的开源机器学习库。由于您也只将其分类为 2 个类,因此 Bernoulli Naive Bayes 分类器应该能够有效地解决您的任务。

http://scikit-learn.org/stable/modules/naive_bayes.html#bernoulli-naive-bayes

您的解决方案 = nltk + scikit

干杯。

于 2014-05-11T09:20:46.643 回答