我遇到了一些与正则表达式和CategorizedPlaintextCorpusReader
Python 有关的问题。
我想创建一个自定义分类语料库并在其上训练一个朴素贝叶斯分类器。我的问题如下:我想要两个类别,“pos”和“neg”。正面文件都在一个目录中,main_dir/pos/*.txt
,而负面文件在一个单独的目录中,main_dir/neg/*.txt
。
如何使用CategorizedPlaintextCorpusReader
来加载和标记 pos 目录中的所有正文件,并对负文件执行相同操作?
Movie_reviews
注意:设置与语料库完全相同( ~nltk_data\corpora\movie_reviews
)。