python - Pos 使用 NLTK 标记德语文本

Question

我想使用 NLTK 对德语文本进行 POS 标记。我在网上找到了一些参考资料，但大部分都已过时。一些参考，例如“EUROPARL”词库，但看起来只有“EUROPARL_raw”仍然可用。而且那个没有POS标记。我还发现了一些关于使用 TIGER 语料库的参考资料，但最新版本似乎是我无法用开箱即用的 NLTK 解析的格式。

我知道一些非 NTLT 替代方案，但我更喜欢使用 NLTK。有人可以提供一个基于德国语料库的 POS 标记的简单示例吗？

score 3 · Accepted Answer

我找不到与 NLTK 一起使用的标记语料库。如果你需要一个预先标记的语料库，你可能对 NLTK 不走运。这个问题有一个未解决的问题票，但没有任何进展（阅读 Negra Corpus 文件）

您可以使用NLTK Trainer和Negra Corpus标记您自己的语料库。它需要德语语法知识，但不需要编码。请参阅NLTK-Trainer的演示。

score 2 · Accepted Answer

使用 TIGER 语料库来训练标注器是一个很好的方法。它现在还提供 CONLL09 格式，可以使用 NLTK 加载。我将它与 Philipp Nolte 的ClassifierBasedGermanTagger结合使用，准确率约为 96%。我写了一篇关于使用 NLTK 对德语文本进行 POS 标记的博客文章，解释了如何运行它。

score 0 · Accepted Answer

您可以使用 TIGER 语料库。它可在http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html下免费用于研究和评估。要导入它，请使用 ConllCorpusReader：

root = '/Users/scott/nltk/tiger'
fileid = 'tiger.16012013.conll09'
columntypes = ['ignore', 'words', 'ignore', 'ignore', 'pos']
corp = nltk.corpus.ConllCorpusReader(root, fileid, columntypes, encoding='utf8')

然后使用这个标记的语料库来训练http://www.nltk.org/book/ch06.html中描述的 ConsecutivePosTagger 。但我的准确率只有 77%。为了获得更好的结果，您可能会考虑其他序列分类方法中描述的其他方法。

python - Pos 使用 NLTK 标记德语文本

3 回答 3

Related

Reference