标题说明了一切; 我有一个 SQL 数据库,其中包含在线对话文本。我已经在 Python 中完成了这个项目的大部分工作,所以我想使用 Python 的 NLTK 库来完成这项工作(除非有充分的理由不这样做)。
数据按Thread、Username和Post组织。每个线程或多或少都集中在讨论我有兴趣分析的类别的一个“产品”。最终,当这完成后,我希望每个用户对他们在某个时候讨论过的任何产品都有一个估计的意见(喜欢/不喜欢某种交易)。
所以,我想知道的是:
1)我怎样才能确定每个线程是关于什么产品的?我正在阅读有关关键字提取的信息……这是正确的方法吗?
2)如何根据帖子确定特定用户的情绪?根据我有限的理解,我必须首先“训练”NLTK 识别某些意见指标,然后我是否只是确定这些词出现在文本中时的上下文?
正如您现在可能已经猜到的那样,我之前没有使用 NLP 的经验。从我目前的阅读来看,我认为我可以应付学习它。如果有人能指出我正确的方向,即使现在只是一个基本而粗略的工作模型也会很棒。谷歌对我帮助不大。
PS我有权分析这些数据(以防万一)