我正在尝试编写一个包含两个句子并检查它们是否相似的程序。我不想使用成熟的解析器,而是使用我认为最常遇到的简单语法创建了一个。现在,我的兴趣是句子中的名词短语。检查标记为名词短语的子树的相等性很容易。我想为此添加更多内容,并让用户决定是否接受丢失/不匹配的确定器(部分匹配)。
输出树的形式是(S(NP The/DT bag/NN)is/VBZ(JP blue/JJ)),其中我定义了语法名词短语(NP)和形容词短语(JP)
为了进行匹配,我考虑了一些路线:
- 删除相关树中的确定器节点,然后进行比较
- 将所有确定器节点的值更改为一个公共值,例如 X
- 列出除标记为“DT”的所有叶节点之外的所有叶节点
我是 python 新手,在这里遇到了一些问题:
如果我编写一个递归函数来遍历名词短语树,直到它到达带有确定器的叶子,我无法修改原始树中的值,因为它只是传递值。
我发现的关于 nltk 树的唯一删除函数是一个需要删除节点相对于树根的确切索引的函数,如果它是最左边的子节点,则采用 [0,0] 之类的格式根节点的最左边的孩子。这很难得到,因为它很可能涉及每个节点的随树的高度增长的整数列表
我创建了一个列表列表,其中每个列表都有一个名词短语的所有叶子,不包括限定词,并比较了这些叶子。
所以,我的问题是,
如何在不首先以 [0,0,1,0,...] 形式获取其索引的情况下从 NLTK 树中删除节点?
如何在不使用索引的情况下再次修改叶值?(我想使用递归函数,每当函数遇到我想要修改的叶时,我想修改它)
如果这些都不可能,我怎样才能获得叶子的索引?我难住了。Nltk 树有一个树位置函数,但这仅适用于子树。与其他节点相比,Python 是否认为叶子是不同的类型?因为树位置对我的叶子不起作用。这可能是因为我的叶子是元组而不仅仅是字符串,但我不知道如何更改它,因为那是 pos 标记器的输出。那么有什么方法可以替换我的叶子,它是 [the/DT] 形式的元组与形式 (DT the) 的子树?再次定义递归过程不会修改原始树。
有什么建议/意见吗?