python - 使用 Python 从 nltk 树结构中提取特定的叶值

Question

我对 NLTK 的树函数有一些疑问。我正在尝试从树结构中提取某个单词，如下所示。

test = Tree.parse('(ROOT(SBARQ(WHADVP(WRB How))(SQ(VBP do)(NP (PRP you))(VP(VB ask)(NP(DT a)(JJ total)(NN stranger))(PRT (RP out))(PP (IN on)(NP (DT a)(NN date)))))))')

print "Input tree: ", test
print test.leaves()

(SBARQ
    (WHADVP (WRB How))
    (SQ
      (VBP do)
      (NP (PRP you))
      (VP
        (VB ask)
        (NP (DT a) (JJ total) (NN stranger))
        (PRT (RP out))
        (PP (IN on) (NP (DT a) (NN date)))))))

['How', 'do', 'you', 'ask', 'a', 'total', 'stranger', 'out', 'on', 'a', 'date']

我可以使用 Leaves() 函数找到所有单词的列表。有没有办法只获得特定的叶子？例如：我只想从 NP 短语中获取第一个/最后一个名词？第一个名词的答案是“陌生人”，最后一个名词是“日期”。

score 11 · Accepted Answer

虽然名词短语可以嵌套在其他类型的短语中，但我相信大多数语法总是在名词短语中包含名词。所以你的问题可能可以改写为：你如何找到第一个和最后一个名词？

您可以简单地获取所有tuple单词和 POS 标签并像这样过滤，

>>> [word for word,pos in test.pos() if pos=='NN']
['stranger', 'date']

在这种情况下只有两个，所以你完成了。如果您有更多名词，您只需将列表索引到[0]和[-1]。

如果您正在寻找可以在不同短语中使用的另一种 POS，但您只希望在特定短语中使用它，或者如果您有一种奇怪的语法允许 NP 之外的名词，您可以执行以下操作...

你可以通过做找到subtrees，'NP'

>>> NPs = list(test.subtrees(filter=lambda x: x.node=='NP'))
>>> NPs
[Tree('NP', [Tree('PRP', ['you'])]), Tree('NP', [Tree('DT', ['a']), Tree('JJ', ['total']), Tree('NN', ['stranger'])]), Tree('NP', [Tree('DT', ['a']), Tree('NN', ['date'])])]

继续缩小子树，我们可以使用这个结果来查找'NN'单词，

>>> NNs_inside_NPs = map(lambda x: list(x.subtrees(filter=lambda x: x.node=='NN')), NPs)
>>> NNs_inside_NPs
[[], [Tree('NN', ['stranger'])], [Tree('NN', ['date'])]]

所以这是每个短语list中list所有s 中的一个。在这种情况下，每个短语中恰好只有零个或一个名词。'NN''NP'

现在我们只需要遍历'NP's 并获取所有leaves单个名词（这实际上意味着我们只想访问的'stranger'部分Tree('NN', ['stranger'])）。

>>> [noun.leaves()[0] for nouns in NNs_inside_NPs for noun in nouns]
['stranger', 'date']

python - 使用 Python 从 nltk 树结构中提取特定的叶值

1 回答 1

Related

Reference