我有数百个文档的语料库,我正在使用 NLTK PlaintextCorpusReader 来处理这些文件。唯一的问题是我需要for
循环处理一个文件,这样我就可以计算这些文件的相似性。
如果我像这样初始化阅读器,
corpusReader = PlaintextCorpusReader(root, fileids = ".*")
它只会消耗所有文档,并且我找不到如何迭代文件而不是令牌的方法。
一种解决方案可能是为每个文件初始化 corpusReader,迭代其令牌,然后再次为另一个文件创建新的阅读器,但我认为这不是处理如此大数据的非常有效的方法。
感谢您的任何建议:)