我计划开发一个系统来预测给定文本的情绪(简称情绪分析)。
我也更喜欢 apache mahout,因为它是非常庞大的数据,并且系统应该是实时可扩展的。请向我推荐 apache mahout 提供的算法,这些算法适用于情绪分析。
我计划开发一个系统来预测给定文本的情绪(简称情绪分析)。
我也更喜欢 apache mahout,因为它是非常庞大的数据,并且系统应该是实时可扩展的。请向我推荐 apache mahout 提供的算法,这些算法适用于情绪分析。
如果您已经标记了训练数据,那么您可以尝试朴素贝叶斯分类器,它是目前最简单的监督学习算法之一(并且由 Mahout 支持)。如果由于某种原因这还不够,那么您可以尝试更多涉及的算法,例如逻辑回归等。
如果您没有标记数据,那么您就不走运了-您需要获得一些才能使其正常工作(例如,通过亚马逊的 Mechanical Turk雇用某人为您标记数据)
顺便说一句,我们在谈论什么大小的数据?(如果它高达几百 GB,那么您不需要 hadoop/mahout 来训练这种类型的模型 - 除非您当然已经将这些数据放在 hadoop 中......)