我要问的问题可能听起来与使用示例数据或 Web 服务的句子的 NLTK python 的情绪分析后非常相似?, 但是我已经完成了对文本句子的解析和标记化。我的问题是
- 到目前为止,我在 NLTK 电影评论示例中看到的任何示例似乎都与我的问题最相似,但是对于 movie_review,训练文本已经是一种形式,因为它有两个文件夹 pos 和 neg,并且文本存储在那里。我怎样才能对我的大文本进行分类,我是否手动读取数据并将它们存储到两个文件夹中。这是否使语料库。之后我可以像示例中的 movie_review 数据一样使用它们吗?
2.如果上述问题的答案是肯定的,是否有任何方法可以通过任何工具加速该任务。例如,我只想使用内容中包含“Monty Python”的文本。然后我手动对它们进行分类,然后将它们存储在 pos 和 neg 文件夹中。那样有用吗?
请帮我