0

在尝试创建我的语料库时,我目前在处理所有子文件夹中包含文件的问题时遇到了一些愚蠢的问题。

CorpusList = CategorizedPlaintextCorpusReader('X:\\HardPath\\SF001\\SF001_009\\TextForAnalysis\\', r'.*/.txt', cat_file='CAT.txt', cat_delimiter=',')

我的问题是我所有的文本文件都不在一个文件夹中。它们都在子文件夹中。如何包含此目录和所有子目录中的所有文本文件?如果我在“TextForAnalysis”文件夹中有所有文件,那么一切都只是文件。

4

1 回答 1

1

尝试使用以下cat_pattern选项:

CorpusList = CategorizedPlaintextCorpusReader(
    'X:\\HardPath\\SF001\\SF001_009\\TextForAnalysis\\',
    r'.*/.txt',
    cat_file='CAT.txt',
    cat_delimiter=',',
    cat_pattern='(.+)/*')
于 2013-04-03T23:19:33.467 回答