我正在做一个关于 twitter 情绪分析的项目,但有些事情我正在思考。
由于推文非常短(少于 140 个字符),因此文本分析技术最适用。例如。词干提取和在长篇文章中一样有效吗?
那么 n-gram 呢?推文的简短性对他们来说是最好的还是最坏的?
k-nearest 会比词性标注更准确吗?
随着时间的推移,我的自定义 Twitter 数据集会变得无关紧要/损坏吗?由于 Twitter 及其上的信息变化如此之快,这对我来说也是一个主要问题。
非常感谢您的时间。
PS:你有什么好的推特情绪数据集吗?如果能定期更新就好了。