python - Python NLTK 标记 AssertionError

Question

在使用 NLTK 使用 PlainTextCorpusReader 处理大约 5000 个帖子时，我遇到了一个奇怪的断言错误。对于我们的一些数据集，我们没有任何重大问题。然而，在极少数情况下，我遇到了：

File "/home/cp-staging/environs/cpstaging/lib/python2.5/site-packages/nltk/tag/api.py", line 51, in batch_tag
return [self.tag(sent) for sent in sentences]
File "nltk/corpus/reader/util.py", line 401, in iterate_from
File "nltk/corpus/reader/util.py", line 343, in iterate_from
AssertionError

我的代码（基本上）像这样工作：

from nltk.corpus import brown
brown_tagged_sents = brown.tagged_sents()
tag0 = ArcBaseTagger('NN')
tag1 = nltk.UnigramTagger(brown_tagged_sents, backoff=tag0)
posts = PlaintextCorpusReader(posts_path, '.*')
tagger = nltk.BigramTagger(brown_tagged_sents, backoff=tag1)
tagged_sents = tagger.batch_tag(posts.sents())

似乎 nltk 在文件缓冲区中失去了它的位置，但我不是 100% 的。知道什么可能导致这种情况发生吗？似乎它与我正在处理的数据有关。也许是一些时髦的角色？

score 0 · Accepted Answer

当一个写入函数使我的语料库为空时，我也遇到了这个问题。确保我们正在读取的文件不为空可以避免这个错误。

score -1 · Accepted Answer

-1

从解析中删除了一些空文件，问题解决了。

于 2011-02-22T23:36:23.717 回答

python - Python NLTK 标记 AssertionError

2 回答 2

Related

Reference