我在 nltk 中尝试使用 semcor corpus。
我在这里找到了这段代码:
>>> list(map(str, semcor.tagged_chunks(tag='both')[:3]))
['(DT The)', "(Lemma('group.n.01.group') (NE (NNP Fulton County Grand Jury)))", "(Lemma('state.v.01.say') (VB said))"]
我在 colab 上尝试了同样的方法(检查此笔记本中的最后一个单元格):
>>> list(map(str, semcor.tagged_chunks(tag='both')[:3]))
['(DT The)',
'(group.n.01 (NE (NNP Fulton County Grand Jury)))',
'(say.v.01 (VB said))']
这是colab的屏幕截图:
问题
请注意,在 nltk 页面上,Fulton County Grand Jury
输出为Lemma('group.n.01.group')
,但在 colab 上,我得到group.n.01
. 所以我没有理解/同义词集引理。
- 在
group.n.01.group
- 首先
group
是“词干” - 最后
group
是“输入词干”
- 首先
- 在
group.n.01
- (第一个也是唯一的)
group
是“输入词干” - 不返回“词干”
- (第一个也是唯一的)
奇怪的是它昨天给了我正确的输出。这个笔记本将消除疑问,因为它今天和昨天执行了相同的两行。昨天(2/9/2021),我收到了格式的标签group.n.01.group
,但今天我收到了group.n.01
格式的标签(注意红色和蓝色评论):
我在这里缺少什么?