我需要对多种语言的文本进行名称实体提取:西班牙语、葡萄牙语、希腊语、捷克语、中文。
是否有这两个功能的所有支持语言的列表?有没有一种方法可以使用其他语料库以便包含这些语言?
NLTK 分词器支持的语言列表如下:
它对应于存储在 C:\Users\XXX\AppData\Roaming\nltk_data\tokenizers\punkt 中的泡菜(在 Windows 中)。这是您在标记时使用“语言”键输入的内容,例如
nltk.word_tokenize(text, language='italian')