0

我是 NLTK 和 Python 的新手。如何将我们自己的文件添加或上传到 nltk 语料库?例如,我如何将自己的 .TXT 文件上传到 ieer 语料库?可能吗?谢谢。

4

1 回答 1

1

您可能正在尝试使用 nltk 软件读取您自己的文件。如果您有一个/home/me/corpusdir包含 ieer 格式文件的目录,您应该可以使用以下命令打开它们

myreader = nltk.corpus.reader.ieer.IEERCorpusReader(r'/home/me/corpusdir', '*.txt')

然后,您可以调用与真实 ieer 语料库相同的方法。查看CorpusReaderieer模块(我从未使用过)的文档以了解详细信息。

如果您真的想将文件添加到现有语料库中,您应该将它们放入目录中,nltk_data或者(更复杂但从长远来看更好)将您的语料库目录中的符号链接放到 nltk ieer 目录中,以便您的读者将将原始 ieer 文件视为语料库的子目录。

于 2012-07-13T10:05:41.613 回答