没有选项可以传递给 NLTK 的 POS 标记和词形还原函数,使它们能够处理其他语言。
一种解决方案是为每种语言获取一个训练语料库,并使用 NLTK 训练您自己的词性标注器,然后为每种语言找出一个可能基于字典的词形还原解决方案。
不过,这可能有点过头了,因为意大利语、法语、西班牙语和德语(以及许多其他语言)的这两个任务已经有了一个一站式解决方案:TreeTagger。它不像英语中的词性标注器和词形还原器那样先进,但它仍然做得很好。
您想要的是在您的系统上安装 TreeTagger 并能够从 Python 调用它。这是miotto 的 GitHub 存储库,可让您做到这一点。
以下代码段向您展示了如何测试您是否正确设置了所有内容。如您所见,我可以在一个函数调用中进行 POS 标记和词形还原,而且我可以用英语和法语轻松地做到这一点。
>>> import os
>>> os.environ['TREETAGGER'] = "/opt/treetagger/cmd" # Or wherever you installed TreeTagger
>>> from treetagger import TreeTagger
>>> tt_en = TreeTagger(encoding='utf-8', language='english')
>>> tt_en.tag('Does this thing even work?')
[[u'Does', u'VBZ', u'do'], [u'this', u'DT', u'this'], [u'thing', u'NN', u'thing'], [u'even', u'RB', u'even'], [u'work', u'VB', u'work'], [u'?', u'SENT', u'?']]
>>> tt_fr = TreeTagger(encoding='utf-8', language='french')
>>> tt_fr.tag(u'Mon Dieu, faites que ça marche!')
[[u'Mon', u'DET:POS', u'mon'], [u'Dieu', u'NOM', u'Dieu'], [u',', u'PUN', u','], [u'faites', u'VER:pres', u'faire'], [u'que', u'KON', u'que'], [u'\xe7a', u'PRO:DEM', u'cela'], [u'marche', u'NOM', u'marche'], [u'!', u'SENT', u'!']]
由于这个问题被问了很多(并且由于安装过程不是超级直接,IMO),我将写一篇关于这个问题的博客文章,并在完成后立即更新这个答案并附上指向它的链接。
编辑:
这是上面提到的博客文章。