在等待人工智能领域研究人员的答案时,我会给你一些关于你可以快速做些什么的线索。
尽管该主题需要自然语言处理、机器学习甚至心理学方面的知识,但除非您绝望或对该领域正在进行的研究质量不信任,否则您不必从头开始。
情感分析的一种可能方法是将其视为监督学习问题,其中您有一些小型训练语料库,其中包括人工注释(稍后会介绍)和一个测试语料库,您可以在该语料库上测试您的方法/系统的执行情况. 对于训练,您将需要一些分类器,如 SVM、HMM 或其他一些分类器,但要保持简单。我将从二进制分类开始:好,坏。您可以对从正面到负面的连续范围的意见范围执行相同的操作,即获得一个排名,如谷歌,其中最有价值的结果排在首位。
对于开始检查libsvm 分类器,它能够进行分类 {good, bad} 和回归(排名)。注释的质量将对您获得的结果产生巨大影响,但是从哪里获得呢?
我发现了一个与餐馆有关的情绪分析项目。既有数据又有代码,所以你可以看到他们是如何从自然语言中提取特征的,以及哪些特征在分类或回归中得分高。该语料库包含顾客对他们最近访问过的餐馆的意见,并就食物、服务或氛围提供了一些反馈。他们的观点和数字世界的联系以他们给餐厅的星数来表达。您在一个站点上有自然语言,在另一个站点上有餐厅的价格。
查看此示例,您可以针对所述问题设计自己的方法。看看nltk。使用 nltk,您可以进行词性标注,运气好的话,您还可以获取名称。完成此操作后,您可以向分类器添加一个功能,如果在 n 个单词(跳过 n-gram)中有表达意见的单词(查看餐厅语料库)或使用您已经拥有的权重,它将为名称分配分数,但它是最好依靠分类器来学习权重,那是他的工作。