1

我要问的问题可能听起来与使用示例数据或 Web 服务的句子的 NLTK python 的情绪分析后非常相似?, 但是我已经完成了对文本句子的解析和标记化。我的问题是

  1. 到目前为止,我在 NLTK 电影评论示例中看到的任何示例似乎都与我的问题最相似,但是对于 movie_review,训练文本已经是一种形式,因为它有两个文件夹 pos 和 neg,并且文本存储在那里。我怎样才能对我的大文本进行分类,我是否手动读取数据并将它们存储到两个文件夹中。这是否使语料库。之后我可以像示例中的 movie_review 数据一样使用它们吗?

2.如果上述问题的答案是肯定的,是否有任何方法可以通过任何工具加速该任务。例如,我只想使用内容中包含“Monty Python”的文本。然后我手动对它们进行分类,然后将它们存储在 pos 和 neg 文件夹中。那样有用吗?

请帮我

4

1 回答 1

3

是的,您需要一个训练语料库来训练分类器。或者您需要其他方法来检测情绪。

要创建训练语料库,您可以手动分类,可以让其他人为您分类(机械土耳其人很受欢迎),或者您可以进行语料库引导。对于情绪,这可能涉及创建 2 个关键字列表,即积极词和消极词。使用这些,您可以创建一个初始训练语料库,手动更正它,然后训练一个分类器。这是一个迭代过程,要记住的关键是“垃圾进,垃圾出”。换句话说,如果你的训练语料库是错误的,你就不能指望你的分类器是正确的。

于 2012-05-20T23:52:55.110 回答