2

我有一个纯文本语料库,我想标记并保存它,以便进一步使用它。最好的方法是什么?

我已经制作了我的标记器,但我想不出一种方法来更改不凌乱的语料库

4

2 回答 2

1

查看其他标记的语料库,例如 brown,以获取输出示例。这将使您了解标记的语料库应该是什么样子。接下来,加载您的语料库(使用PlaintextCorpusReader)并遍历句子,标记每个句子。然后通过从标记的句子中创建一个字符串将每个标记的句子写入文件,如' '.join([tuple2str(t) for t in tagged_sent])(在你做之后from nltk.tag.util import tuple2str)。如果你的代码“乱七八糟”也没关系,只要它能正确地完成工作。您在这里不是在寻找优雅的算法,而是在运行一个非常具体的脚本来创建自定义语料库。

于 2011-07-22T18:49:19.393 回答
0

你是在做简单的一元标记,还是真的在解析文本?我相信 NLTK 解析/标记使得每个令牌的输出都是(令牌,PoS)。元组数组是否不能用于存储您的语料库?为什么你觉得这很乱?

于 2011-07-22T04:23:36.800 回答