我有一个文本语料库,它已经通过构造在句子级别对齐 - 它是一对英语字符串及其翻译成另一种语言的列表。我有大约 10 000 个字符串,每个字符串 5 到 20 个单词及其翻译。我的目标是尝试建立一个翻译质量的衡量标准——当然是自动的,因为我正在处理我一无所知的语言:)
我想从这个翻译列表中构建一个字典,它将源英语字符串中的每个单词(最可能的)翻译成另一种语言。我知道这本词典远非完美,但我希望当一个词的翻译不一致时,我能有足够好的东西来标记,例如,如果我的词典说“Store”要由“Magasin”翻译成法语那么如果我发现某个地方“商店”被翻译为“精品店”,我就会怀疑有什么问题。
所以我需要:
- 从我的语料库构建字典
- 对齐字符串/翻译对中的单词
您对如何执行此操作有很好的参考吗?已知算法?我发现了许多关于文本对齐的链接,但它们似乎更多的是在句子级别而不是在单词级别......
任何其他关于如何自动检查翻译是否一致的建议将不胜感激!
提前致谢。