nltk - 如何从原始文本中获取正确的同义词集？

问问题 2015-01-18T23:18:21.080

645 次

我需要使用 path_similarity 方法创建一个表，其中包含来自任何原始文本的单词（同义词集）之间的关系。

>>> from nltk.corpus import wordnet as wn
>>> sent = "I went to the bank to deposit money".split()
>>> wn.synsets('bank')
[Synset('bank.n.01'), Synset('depository_financial_institution.n.01'), Synset('bank.n.03'), Synset('bank.n.04'), Synset('bank.n.05'), Synset('bank.n.06'), Synset('bank.n.07'), Synset('savings_bank.n.02'), Synset('bank.n.09'), Synset('bank.n.10'), Synset('bank.v.01'), Synset('bank.v.02'), Synset('bank.v.03'), Synset('bank.v.04'), Synset('bank.v.05'), Synset('deposit.v.02'), Synset('bank.v.07'), Synset('trust.v.01')]

如何从原始文本中获取每个单词的正确同义词集？

我可以像这样获得引理和 POS 标签：

>>> from nltk import pos_tag
>>> from nltk.stem import WordNetLemmatizer
>>> wnl = WordNetLemmatizer()
>>> wnl.lemmatize('banks')
u'bank'
>>> pos_tag(['banks'])
[('banks', 'NNS')]

但是我如何获得正确的同义词集/感觉编号？

nltk - 如何从原始文本中获取正确的同义词集？

0 回答 0

Related

Reference