0

我正在尝试在 NLTK 中创建自己的语料库。我一直在阅读一些关于此的文档,它似乎相当复杂......我想做的只是“克隆”电影评论语料库,但使用我自己的文本。现在,我知道我可以将 move 评论语料库中的文件更改为我自己的文件……但这限制了我一次只能使用一个这样的语料库(即,我必须不断地交换文件)。有什么办法可以克隆电影评论语料库?

谢谢亚历克斯

4

2 回答 2

1

CategorizedPlaintextCorpusReader与全班一起阅读电影评论。直接使用它来加载您的语料库。以下内容适用于电影语料库的精确副本:

mr = CategorizedPlaintextCorpusReader(path_to_your_reviews, r'(?!\.).*\.txt',
        cat_pattern=r'(neg|pos)/.*')

里面的任何机器cat_pattern都是类别:在这种情况下,negpos。如果您的语料库有不同的类别(例如,电影类型而不是正面/负面评价),请更改目录结构并调整cat_pattern参数以匹配。

PS。对于不同结构的分类语料,nltk提供了丰富的分类方式;阅读CategorizedPlaintextCorpusReader.

于 2012-06-04T12:59:18.117 回答
0

你为什么不通过复制 in 的定义来定义一个新的movie_reviews语料库nltk.corpus?您可以使用新目录执行此操作,然后复制目录结构并替换文件。

于 2012-06-04T02:45:18.057 回答