NLP 中的一般方法是一个流程链,如下所示:
- 代币化
- 形态分析
- 词性标注
- 句法分析,或命名实体识别,或名词短语分块等。
- 分类(或程序的任何“最终目标”)
我总是觉得奇怪的是,每一步都在没有“咨询”后面的步骤的情况下做出决定。例如,您可以将一个词 POS 标记为名词,即使它使任何句法分析在处理过程中变得不可能。
我想知道是否有一些考虑到后验步骤的一般 NLP 问题的方法。一种信仰传播,如果你愿意的话。
NLP 中的一般方法是一个流程链,如下所示:
我总是觉得奇怪的是,每一步都在没有“咨询”后面的步骤的情况下做出决定。例如,您可以将一个词 POS 标记为名词,即使它使任何句法分析在处理过程中变得不可能。
我想知道是否有一些考虑到后验步骤的一般 NLP 问题的方法。一种信仰传播,如果你愿意的话。
您可能想查看 Hollingshead 和 Roark 的“Pipeline Iteration” (http://acl.ldc.upenn.edu/P/P07/P07-1120.pdf),以及 Kristy Hollingshead 的后续关于管道的一般工作和通信管道阶段。
您描述的管道通常是结构化的应用程序数量,但它不是唯一可能的架构。一些方法涉及多次通过管道,其中一个阶段的信息在下一个阶段使用。其他工作结合了您列出的一些步骤,例如形态分析和 PoS 标记。我最近阅读了一篇名为“A Hierarchical Dirichlet Process Model for Joint POS and Morphology Induction”的论文,其中 PoS 标签和形态学是一起诱导的,因为它们是相互依赖的。