这可能更像是一个数学问题,但我在其他地方找不到任何相关文档。
我只是想弄清楚在 GIZA++ 中使用哪个方程来计算对齐分数。
可能有人有想法吗?
提前谢谢你的帮助。
这可能更像是一个数学问题,但我在其他地方找不到任何相关文档。
我只是想弄清楚在 GIZA++ 中使用哪个方程来计算对齐分数。
可能有人有想法吗?
提前谢谢你的帮助。
如果有帮助,我找到了这个文档,其中包括以下描述:
实现完整的 IBM-4 对齐模型,如 (Brown et al. 1993) 中所述,具有词类的依赖关系
跟进该参考资料会引出一篇题为“统计机器翻译的数学:参数估计”的论文,您可以在此处找到 PDF 格式的论文。
该论文详细介绍了 5 个对齐模型的数学基础,并且过于冗长,无法在此处粘贴。也许您可以在其对模型 4 的描述中看到这是否足够详细,我认为这是 GIZA++ 使用的。
还有这个 PDF,它总结了模型和训练过程。
简而言之,单词对齐和翻译概率是在期望最大值算法的多次迭代中学习的。
Philip Koehn 的“统计机器翻译”有一章是关于词对齐的。查看statmt.org了解更多信息。