在阅读了很多帖子之后,我仍然有可能在 nltk 中制作自定义语料库。我有一个标记句子的文本文件,每个项目的字符串形式为 ... word/tag 。我想用这些东西训练一个标注器。我正在尝试使用一个名为 train-tagger 的 nltk 包来训练各种类型的标注器。2个问题。1) train-tagger 可以使用文本文件作为输入还是仅使用 nltk 语料库对象?2)如果只使用语料库,如何从文本文件创建一个?我尝试了以下代码来创建语料库...
import nltk
from nltk.corpus import PlaintextCorpusReader
corpus_root = './'
newcorpus = PlaintextCorpusReader(corpus_root, '.*')
print newcorpus.raw('IOBHarrisonsTraining.txt') .... this is my tagged text file
似乎工作,但我找不到输出。应该在运行此代码的文件夹中创建一个语料库,或者在 nltk_data/corpora 中创建一个语料库,但没有找到。语料库模块中是否有一些方法可以保存我创建的“新语料库”?然后可以将其用作训练标记器的输入?另外,我应该使用标记句子文件作为 PlaintextCorpusReader 的输入还是只是一组未标记的句子?