0

我在 nltk 中尝试使用 semcor corpus。

我在这里找到了这段代码:

>>> list(map(str, semcor.tagged_chunks(tag='both')[:3])) 
['(DT The)', "(Lemma('group.n.01.group') (NE (NNP Fulton County Grand Jury)))", "(Lemma('state.v.01.say') (VB said))"]

我在 colab 上尝试了同样的方法(检查笔记本中的最后一个单元格):

>>> list(map(str, semcor.tagged_chunks(tag='both')[:3]))
['(DT The)',
 '(group.n.01 (NE (NNP Fulton County Grand Jury)))',
 '(say.v.01 (VB said))']

这是colab的屏幕截图:

在此处输入图像描述

问题

请注意,在 nltk 页面上,Fulton County Grand Jury输出为Lemma('group.n.01.group'),但在 colab 上,我得到group.n.01. 所以我没有理解/同义词集引理。

  • group.n.01.group
    • 首先group是“词干”
    • 最后group是“输入词干”
  • group.n.01
    • (第一个也是唯一的)group是“输入词干”
    • 不返回“词干”

奇怪的是它昨天给了我正确的输出。这个笔记本将消除疑问,因为它今天和昨天执行了相同的两行。昨天(2/9/2021),我收到了格式的标签group.n.01.group,但今天我收到了group.n.01格式的标签(注意红色和蓝色评论):

在此处输入图像描述

我在这里缺少什么?

4

1 回答 1

0

我知道semcor使用wordnet感官来标记brown语料库的子集。但我不知道semcorAPI可以在有或没有wordnet预下载的情况下工作,它会在这些不同的场景中提供不同格式的标签。老实说,我觉得至少semcorAPI 文档应该对此有所提及。

因此,如果没有wordnet预下载,它不会返回意义词干:

在此处输入图像描述

wordnet预下载后,它会返回感觉词干:

在此处输入图像描述

于 2021-09-05T08:57:47.130 回答