我有一棵树,特别是一棵解析树,节点上有标签,叶子上有字符串/单词。我想将这棵树作为输入传递给神经网络,同时保留其结构。
当前方法假设我们有一些单词字典 w1,w2.....wn 将出现在解析树中的单词编码为 n 维二进制向量,只要解析树中的单词是 wi,就会在第 i 个位置显示 1
现在树结构怎么样?对于出现在叶子上的 n 个单词,大约有 2^n 个可能的父标签因此我们不能设置输入单词的最大长度,然后只是蛮力枚举所有树。
现在我能想到的就是通过选择叶子的直接父级来近似树。这也可以用一个二进制向量来表示,其维度等于不同类型标签的数量——我想大约是 100 个。我的输入是二维的。第一个只是单词的向量表示,第二个是其父标签的向量表示
除了这会丢失句子中的很多结构。有解决这个问题的标准/更好的方法吗?