我最初使用的是来自 NLTK 的以下 Penn Treebank 标记器:
POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=DefaultTagger('NN'))
但是,这在口语文本方面有所不足。例如,“你好”不应该被识别为感叹词。我从这里读到(在 NLTK pos_tag 中,为什么“hello”被归类为名词?)如果我想标记口语文本,我将“需要在整个 Penn Treebank 上训练标记器,其中包括大约 300 万个单词英语口语。” 我现在的问题是我该怎么做?我来过这里(Penn Treebank Project),但在上面找不到任何东西。
如果对整个 Penn Treebank 进行培训太难了,还有什么替代方案?我正在考虑使用 Brown 语料库,但是 POS 标签不同,这让我不得不重写程序的其他部分。