5

我想使用 NLTK 对德语文本进行 POS 标记。我在网上找到了一些参考资料,但大部分都已过时。一些参考,例如“EUROPARL”词库,但看起来只有“EUROPARL_raw”仍然可用。而且那个没有POS标记。我还发现了一些关于使用 TIGER 语料库的参考资料,但最新版本似乎是我无法用开箱即用的 NLTK 解析的格式。

我知道一些非 NTLT 替代方案,但我更喜欢使用 NLTK。有人可以提供一个基于德国语料库的 POS 标记的简单示例吗?

4

3 回答 3

3

我找不到与 NLTK 一起使用的标记语料库。如果你需要一个预先标记的语料库,你可能对 NLTK 不走运。这个问题有一个未解决的问题票,但没有任何进展(阅读 Negra Corpus 文件

您可以使用NLTK TrainerNegra Corpus标记您自己的语料库。它需要德语语法知识,但不需要编码。请参阅NLTK-Trainer的演示。

于 2013-12-08T16:10:06.830 回答
2

使用 TIGER 语料库来训练标注器是一个很好的方法。它现在还提供 CONLL09 格式,可以使用 NLTK 加载。我将它与 Philipp Nolte 的ClassifierBasedGermanTagger结合使用,准确率约为 96%。我写了一篇关于使用 NLTK 对德语文本进行 POS 标记的博客文章,解释了如何运行它。

于 2016-07-13T14:39:31.180 回答
0

您可以使用 TIGER 语料库。它可在http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html下免费用于研究和评估。要导入它,请使用 ConllCorpusReader:

root = '/Users/scott/nltk/tiger'
fileid = 'tiger.16012013.conll09'
columntypes = ['ignore', 'words', 'ignore', 'ignore', 'pos']
corp = nltk.corpus.ConllCorpusReader(root, fileid, columntypes, encoding='utf8')

然后使用这个标记的语料库来训练http://www.nltk.org/book/ch06.html中描述的 ConsecutivePosTagger 。但我的准确率只有 77%。为了获得更好的结果,您可能会考虑其他序列分类方法中描述的其他方法

于 2014-05-12T11:00:16.060 回答