1

我有一个句子以及树形的语法。我需要从中训练一个概率上下文无关语法,以便我可以为它提供最好的解析。我正在使用 Viterbi CKY 算法来获得最佳解析。句子的树形格式如下: NP(明天NN))))))(PUNC。))

我已经建立了一个系统,它从 Penn Treebank 的 ATIS 部分学习了概率语法,现在可以为上述句子提供可能的解析输出。

我阅读了水平和垂直马尔科夫化技术,这些技术可以通过使用注释来帮助提高准确性。我对它们的工作方式有点困惑。有人可以指导我一些解释性示例或说明它们如何工作以及它们如何影响准确性。

4

1 回答 1

3

值得一看的是 Klein 和 Manning 的这篇论文:

http://nlp.stanford.edu/~manning/papers/unlexicalized-parsing.pdf

垂直马尔可夫化是一种为给定规则提供上下文的技术。从上面的论文:

例如,主语 NP 扩展与宾语 NP 扩展非常不同:主语 NP 仅作为代词扩展的可能性是宾语 NP 的 8.7 倍。对主语和宾语 NP 使用单独的符号可以捕获这种变化并用于改进解析评分。捕获这种外部上下文的一种方法是使用父注释,如 Johnson (1998) 所述。例如,具有 S 父母(如主体)的 NP 将被标记为 NP^S,而具有 VP 父母(如客体)的 NP 将被标记为 NP^VP。

通过使用此附加父注释重写这些规则,我们正在添加有关您正在重写的规则的位置的信息,并且此附加信息提供了特定规则重写的更准确概率。

这个实现非常简单。使用训练数据,从底部的非终结符开始(这些是重写为 DT、NNP、NN、VB 等终结符的规则),并在其父非终结符后附加一个 ^。在您的示例中,第一次重写将是 NP^S,依此类推。继续上树,直到到达 TOP(您不会重写)。在您的情况下,最终的重写将是 S^TOP。剥离输出中的标签将为您提供最终的解析树。

至于水平马尔可夫化,请参阅此线程以获得很好的讨论: 水平马尔可夫化

于 2013-03-21T09:10:51.690 回答