概括
我正在尝试设计一种启发式方法来匹配翻译中的句子(从原始语言到翻译语言),并希望得到指导和提示。也许有一个启发式已经做了类似的事情?所以给定两个文本文件,我希望能够匹配句子(所以我可以挑选一个句子并说这是那个句子的翻译)。
细节
输入文本将是翻译小说。所以我不希望翻译是字面的,尽管使用谷歌翻译之类的东西可能是测试启发式准确性的好方法。
为了帮助我,我有一个库,它可以修饰翻译文本的内容,并为我提供句子中单词的定义。我知道的其他事情:
- 保留章节和顺序;我知道第三章的第一句话会与翻译的第三章的第一句匹配(注意,这并不完全正确;第一句可能会匹配前两句,甚至第二句)
- 我可以计算整体大小(字符、句子、段落);这可以让我了解句子大小的平均差异(例如,翻译可能长 30%)。
看看我的一些书,翻译版的句子比原文多出 30% 左右。
执行
(如果重要的话)
- 我打算用 Java 来做这件事——但我并不那么大惊小怪——任何语言都可以。
- 我不太关心速度。
我想为了确保匹配,可能需要一些用户反馈。就像说“是的,这句话肯定和那句话匹配”。这将为启发式提供更多立足点。这意味着用户需要对语言有一点熟练程度。
背景
(对于那些有兴趣的人)
我想做这个的原因是我希望它有助于我的外语学习。我正在学习日语,发现很难找到“好”的材料(其中“好”是由我喜欢的东西定义的)。已经有工具可以对视频中的字幕做类似的事情(更简单的任务 - 使用视频的时间信息)。但据我所知,没有任何文本。