根据文档,我可以像这样在 nltk 中加载带有感觉标记的语料库:
>>> from nltk.corpus import wordnet_ic
>>> brown_ic = wordnet_ic.ic('ic-brown.dat')
>>> semcor_ic = wordnet_ic.ic('ic-semcor.dat')
我也可以得到definition
, pos
, offset
,examples
像这样:
>>> wn.synset('dog.n.01').examples
>>> wn.synset('dog.n.01').definition
但是如何从语料库中获取同义词集的频率呢?分解问题:
- 首先如何计算一个同义词集是否出现了一个有义标记的语料库?
- 然后下一步是除以计数除以给定特定引理的所有同义词集出现的计数总数。