4

我正在做一个关于 twitter 情绪分析的项目,但有些事情我正在思考。

由于推文非常短(少于 140 个字符),因此文本分析技术最适用。例如。词干提取和在长篇文章中一样有效吗?

那么 n-gram 呢?推文的简短性对他们来说是最好的还是最坏的?

k-nearest 会比词性标注更准确吗?

随着时间的推移,我的自定义 Twitter 数据集会变得无关紧要/损坏吗?由于 Twitter 及其上的信息变化如此之快,这对我来说也是一个主要问题。

非常感谢您的时间。

PS:你有什么好的推特情绪数据集吗?如果能定期更新就好了。

4

2 回答 2

5

我做了一些课堂作业,分析名人的推文并比较他们的相似之处。

您认为最重要的是推文的长度。在 140 个字符处,许多单词被缩短,或不寻常的“txt-speech”。因此,即使是像Porter这样知名的词干分析器也会给出一些奇怪的结果。最好保留几乎所有内容,仅在字数、向量等之后进行规范化。

对于从单词进行推断,n-gram 和后续链接是质量推理的一个重要因素。我只能容忍 4 克的空间和时间要求,但即使创建简单的 2 克也有很大的改进。

如果你注意到我之前说的“几乎所有”。在我只关注流行的名人推文的情况下,我遇到了一个问题,即他们的很多推文都是指向他们的活动或赞助商等的链接或大喊大叫。所以很大一部分是删除大量重复的垃圾邮件。

对于提取准确情绪或您正在寻找的任何衡量标准的方法,我会首先尝试基于朴素贝叶斯的方法。它是简单且相对准确的基线。K-means 会做得相当好,但请记住,它没有考虑方差和协方差,但仍然是另一个可以尝试的基准。

希望能提供一些见解。

于 2012-12-05T00:23:42.570 回答
2

我最近在推特的基础上对一部电影进行了分析,以了解人们在推特上关于这部电影的内容,他们喜欢与否的天气。这个链接http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/帮助了我很多。此外,我还必须收集在推文时通常使用的快捷方式列表,其中涵盖了情绪。

另外,一个人的推文只能保存到 3000 条(或 3.5k 不确定?),您自己的时间线流也有类似的限制。因此,您可以使用http://topsy.com获取您选择或主题的推文,并从那里获取特定主题的旧推文进行分析。您可能还希望定期保存推文以供将来参考,因为 twitter 不会为您保存。

:)

于 2012-12-12T08:51:57.957 回答