为了解决这个问题,我希望你给我一些建议。在大学里,我一直在解决意见挖掘任务,但在 Twitter 上,方法完全不同。例如,我使用集成学习方法对用户对西班牙某家酒店的看法进行分类。当然,我得到了一个包含正面和负面意见的训练集,然后我用测试集进行了测试。但是现在,有了推特,我发现这种分类非常困难。
我需要训练集吗?如果这个问题的答案是肯定的,你不觉得 twitter 这么短暂,所以如果我有那个设置,我在未来主题上的表现会很差吗?
我正在考虑获取一本字典(主要是形容词)并将我的推文与它交叉并获得一个术语文档矩阵,但我没有为任何推特分配类。此外,积极形容词和消极形容词可能会因主题和时间而异。那么,如何处理呢?
如何处理语言问题?例如,我想研究用英语和西班牙语写的推文,但要分开研究。
你建议用哪种编程语言来做这样的事情?我一直在尝试使用 R 包,例如 tm、twitteR。