data-analysis - 使用机器学习算法对 python 中的推文进行情感分析

Question

假设我下载了“n”条推文并从中删除长度 <= 2 的单词，然后将每条推文标记为“否定”或“非否定”，这样就形成了我的训练集。

但是，在我的数据集中，没有像 Iris 数据集如何具有萼片长度、萼片宽度、花瓣长度和花瓣宽度那样定义明确的属性，而是每个单词都成为一个属性，不同的示例推文将具有不同数量的属性。

我可以使用这个数据集并将我的问题视为分类问题吗？并尝试预测一条新推文是负面的还是非负面的？

或者你会建议什么作为预测推文是否负面的最佳方法？

score 4 · Accepted Answer

您正在描述标准文本分类问题。在此设置中，特征集是（有限）单词集，而不是萼片长度、宽度、...

结果，每个文档都针对所有此类特征表示（所有文档具有相同数量的特征），但大多数值将为零，从而创建了一个非常稀疏的向量。

这是预测极性/情绪的最佳方法，但您应该进一步提高对该主题的了解。我建议阅读Sebastiani 关于文本分类的调查。

问候，

1 回答 1