text-mining - 客观 - 主观文本分类器：

问问题 2015-07-20T10:43:06.970

349 次

1

我正在尝试使用 imdb data 为主观和客观文本构建分类器。对于客观数据点，我使用电影的情节摘要作为输入，而对于主观数据点，我使用电影评论。

我将完整的情节摘要作为一个数据点，在评论的情况下，单个用户的每条评论都是一个数据点。在我的数据库中，不同用户对同一部电影的不同评论作为不同的数据点输入。

在此之后，我清理了特殊字符的单词，删除了停用词，计算了信息增益以创建字典，并使用词频应用朴素贝叶斯计算概率。

现在我的问题是

我构建分类器的算法是否正确？
我的分类器严重偏向客观。我在创建训练数据时犯了错误吗？
我想创建一个通用分类器，可用于推文或
从博客中提取的东西。影评数据是否足够？现在它甚至不适用于电影评论数据

0 回答 0