nlp - 获取 nltk semcor 语料库词的意义词干

Question

我在 nltk 中尝试使用 semcor corpus。

我在这里找到了这段代码：

>>> list(map(str, semcor.tagged_chunks(tag='both')[:3])) 
['(DT The)', "(Lemma('group.n.01.group') (NE (NNP Fulton County Grand Jury)))", "(Lemma('state.v.01.say') (VB said))"]

我在 colab 上尝试了同样的方法（检查此笔记本中的最后一个单元格）：

>>> list(map(str, semcor.tagged_chunks(tag='both')[:3]))
['(DT The)',
 '(group.n.01 (NE (NNP Fulton County Grand Jury)))',
 '(say.v.01 (VB said))']

这是colab的屏幕截图：

问题

请注意，在 nltk 页面上，Fulton County Grand Jury输出为Lemma('group.n.01.group')，但在 colab 上，我得到group.n.01. 所以我没有理解/同义词集引理。

在group.n.01.group
- 首先group是“词干”
- 最后group是“输入词干”
在group.n.01
- （第一个也是唯一的）group是“输入词干”
- 不返回“词干”

奇怪的是它昨天给了我正确的输出。这个笔记本将消除疑问，因为它今天和昨天执行了相同的两行。昨天（2/9/2021），我收到了格式的标签group.n.01.group，但今天我收到了group.n.01格式的标签（注意红色和蓝色评论）：

我在这里缺少什么？

score 0 · Accepted Answer

我知道semcor使用wordnet感官来标记brown语料库的子集。但我不知道semcorAPI可以在有或没有wordnet预下载的情况下工作，它会在这些不同的场景中提供不同格式的标签。老实说，我觉得至少semcorAPI 文档应该对此有所提及。

因此，如果没有wordnet预下载，它不会返回意义词干：

wordnet预下载后，它会返回感觉词干：

nlp - 获取 nltk semcor 语料库词的意义词干

1 回答 1

Related

Reference