python-3.x - 如何 POS_TAG 一个法语句子？

Question

我正在寻找pos_tag一种法语句子的方法，例如以下代码用于英语句子：

def pos_tagging(sentence):
    var = sentence
    exampleArray = [var]
    for item in exampleArray:
        tokenized = nltk.word_tokenize(item)
        tagged = nltk.pos_tag(tokenized)
        return tagged

score 16 · Accepted Answer

这是完整的代码源，它非常适用于 Standford NLP 的下载链接https://nlp.stanford.edu/software/tagger.shtml#About

from nltk.tag import StanfordPOSTagger
jar = 'C:/Users/m.ferhat/Desktop/stanford-postagger-full-2016-10-31/stanford-postagger-3.7.0.jar'
model = 'C:/Users/m.ferhat/Desktop/stanford-postagger-full-2016-10-31/models/french.tagger'
import os
java_path = "C:/Program Files/Java/jdk1.8.0_121/bin/java.exe"
os.environ['JAVAHOME'] = java_path

pos_tagger = StanfordPOSTagger(model, jar, encoding='utf8' )
res = pos_tagger.tag('je suis libre'.split())
print (res)

score 4 · Accepted Answer

NLTK 不附带法语的预建资源。我推荐使用Stanford tagger，它带有一个训练有素的法国模型。此代码显示了如何设置 nltk 以与斯坦福的法语 POS 标记器一起使用。请注意，代码已经过时（对于 Python 2），但您可以将其用作起点。

或者，NLTK 可以很容易地在标记的语料库上训练您自己的词性标注器，并将其保存以供以后使用。如果您可以访问（足够大的）法语语料库，您可以按照nltk 书中的说明，简单地使用您的语料库代替布朗语料库。您不太可能与斯坦福标记器的性能相匹配（除非您可以为您的特定域训练标记器），但您无需安装任何东西。

python-3.x - 如何 POS_TAG 一个法语句子？

2 回答 2

Related

Reference