4

我需要对多种语言的文本进行名称实体提取:西班牙语、葡萄牙语、希腊语、捷克语、中文。

是否有这两个功能的所有支持语言的列表?有没有一种方法可以使用其他语料库以便包含这些语言?

4

2 回答 2

4

默认情况下,这两个函数都只支持英文文本。它实际上不在文档中,但您可以通过查看源代码来查看它:

  1. pos_tag()函数从这个文件加载一个标记器: 'taggers/maxent_treebank_pos_tagger/english.pickle'. (见这里

  2. word_tokenize()函数使用 Treebank 标记器,它使用正则表达式来标记文本,如(英语)Penn Treebank Corpus 中的那样。(见这里

于 2013-02-28T13:35:34.813 回答
1

NLTK 分词器支持的语言列表如下:

  • “捷克”
  • “丹麦语”
  • “荷兰语”
  • '英语'
  • “爱沙尼亚语”
  • '芬兰'
  • '法语'
  • '德语'
  • '希腊语'
  • “意大利语”
  • '挪威'
  • '抛光'
  • '葡萄牙语'
  • '俄语'
  • '斯洛文尼亚',
  • '西班牙语'
  • '瑞典'
  • '土耳其'

它对应于存储在 C:\Users\XXX\AppData\Roaming\nltk_data\tokenizers\punkt 中的泡菜(在 Windows 中)。这是您在标记时使用“语言”键输入的内容,例如

nltk.word_tokenize(text, language='italian')
于 2022-02-10T17:35:13.217 回答