2

概括

我正在尝试设计一种启发式方法来匹配翻译中的句子(从原始语言到翻译语言),并希望得到指导和提示。也许有一个启发式已经做了类似的事情?所以给定两个文本文件,我希望能够匹配句子(所以我可以挑选一个句子并说这是那个句子的翻译)。

细节

输入文本将是翻译小说。所以我不希望翻译是字面的,尽管使用谷歌翻译之类的东西可能是测试启发式准确性的好方法。

为了帮助我,我有一个库,它可以修饰翻译文本的内容,并为我提供句子中单词的定义。我知道的其他事情:

  • 保留章节和顺序;我知道第三章的第一句话会与翻译的第三章的第一句匹配(注意,这并不完全正确;第一句可能会匹配前两句,甚至第二句)
  • 我可以计算整体大小(字符、句子、段落);这可以让我了解句子大小的平均差异(例如,翻译可能长 30%)。

看看我的一些书,翻译版的句子比原文多出 30% 左右。

执行

(如果重要的话)

  • 我打算用 Java 来做这件事——但我并不那么大惊小怪——任何语言都可以。
  • 我不太关心速度。

我想为了确保匹配,可能需要一些用户反馈。就像说“是的,这句话肯定和那句话匹配”。这将为启发式提供更多立足点。这意味着用户需要对语言有一点熟练程度。

背景

(对于那些有兴趣的人)

我想做这个的原因是我希望它有助于我的外语学习。我正在学习日语,发现很难找到“好”的材料(其中“好”是由我喜欢的东西定义的)。已经有工具可以对视频中的字幕做类似的事情(更简单的任务 - 使用视频的时间信息)。但据我所知,没有任何文本。

4

1 回答 1

1

NLP 研究中使用了一些称为“句子对齐器”的工具,可以完全满足您的需求。

我建议 hunalign:

http://mokk.bme.hu/resources/hunalign/

和 MS 句子对齐器:

http://research.microsoft.com/en-us/downloads/aafd5dcf-4dcc-49b2-8a22-f7055113e656/

两者都很好,但请记住,没有什么是完美的。太难对齐的句子将被丢弃,并且某些句子可能会错误对齐。

于 2011-06-23T19:07:51.013 回答