nlp - nltk.word_tokenize 和 nltk.pos_tag 支持哪些语言

Question

我需要对多种语言的文本进行名称实体提取：西班牙语、葡萄牙语、希腊语、捷克语、中文。

是否有这两个功能的所有支持语言的列表？有没有一种方法可以使用其他语料库以便包含这些语言？

score 4 · Accepted Answer

默认情况下，这两个函数都只支持英文文本。它实际上不在文档中，但您可以通过查看源代码来查看它：

该pos_tag()函数从这个文件加载一个标记器： 'taggers/maxent_treebank_pos_tagger/english.pickle'. （见这里）
该word_tokenize()函数使用 Treebank 标记器，它使用正则表达式来标记文本，如（英语）Penn Treebank Corpus 中的那样。（见这里）

score 1 · Accepted Answer

NLTK 分词器支持的语言列表如下：

它对应于存储在 C:\Users\XXX\AppData\Roaming\nltk_data\tokenizers\punkt 中的泡菜（在 Windows 中）。这是您在标记时使用“语言”键输入的内容，例如

nltk.word_tokenize(text, language='italian')

2 回答 2