9

我正在寻找单词对齐工具和算法。
我正在处理双语英语 - 印地语文本,目前正在研究

您能否建议任何其他与语言无关且可以实现并行英语印地语语料库及其评估的统计词对齐的算法/工具。
有些工具最适合某些语言;你能告诉我这是多么真实吗?如果是这样,你能否提供一个更适合印地语等亚洲语言的例子。也欢迎我不应该对此类语言使用的反例。

我听说过一些关于Uplug 字对齐器的信息......有人可以告诉我这个工具是否对我的目的有用。

谢谢.. :)

4

4 回答 4

6

伯克利校准器非常好。通过对 IBM 单词对齐模型进行联合训练,它能够获得比 GIZA++ 等旧软件包低得多的对齐错误率 (AER)。

它还支持一些更高级的功能,例如句法失真(即,使用解析树信息来获得更好的对齐)。为此,您只需要其中一个语言对的解析树。因此,您应该可以使用印地语<->英语,因为有大量免费可用且良好的英语解析器。

如果您决定不使用 Berkeley Aligner,您可能应该只使用 GIZA++。多年来,它基本上是机器翻译社区中的标准词对齐器。

于 2010-03-18T04:08:24.227 回答
3

Uplug 是一个很棒的工具,我一直在使用它来对齐英语<->马其顿语文本。它本质上是通过添加所谓的线索对齐方式建立在 Giza++ 之上的。它的高级设置实际上结合了线索对齐和 Giza++ 并执行 3 次这样的迭代。您提供的线索(pos-tags,lemmas ...)越多,结果就会越好。但我不得不提一下,你不应该期望仅仅使用 Giza++ 就能得到完全不同的结果。

无论如何,如果你打算认真研究SMT这个话题,我建议你阅读关于Uplug的论文(博士论文),这对你很有帮助。

于 2010-05-14T00:08:19.547 回答
0

Moses是一个统计机器翻译套件,您可能想看看。它的单词对齐组件是基于 GIZA++ 构建的,但可以进行调整以比纯 GIZA++ 更好地处理某些语言对。他们的邮件列表和您可以在http://www.statmt.org/上找到的资源也可能是比 SO 提出问题的更好地方。一件事你没有说,但我认为更成问题的是从哪里获得平行语料库印地语 <-> 英语。

于 2010-03-12T19:06:05.453 回答
-1

你有一个模糊而广泛的问题。

试试: http ://scholar.google.com/scholar?q=algorithm+language+independent+statistical+word+alignment&hl=en&safe=off&client=firefox-a&hs=hJt&rls=com.ubuntu:en-US:official&um=1&ie= UTF-8&oi=schoart

获取该领域的论文列表。

于 2010-03-12T00:30:29.013 回答