我正在尝试使用 imdb data 为主观和客观文本构建分类器。对于客观数据点,我使用电影的情节摘要作为输入,而对于主观数据点,我使用电影评论。
我将完整的情节摘要作为一个数据点,在评论的情况下,单个用户的每条评论都是一个数据点。在我的数据库中,不同用户对同一部电影的不同评论作为不同的数据点输入。
在此之后,我清理了特殊字符的单词,删除了停用词,计算了信息增益以创建字典,并使用词频应用朴素贝叶斯计算概率。
现在我的问题是
- 我构建分类器的算法是否正确?
- 我的分类器严重偏向客观。我在创建训练数据时犯了错误吗?
- 我想创建一个通用分类器,可用于推文或
从博客中提取的东西。影评数据是否足够?现在它甚至不适用于电影评论数据