5

我想用难词的翻译为外语学习者自动注释文本。

例如,如果原始文本是:

El gato esta en la casa de mis vecinos

变成

El gato esta en la casa de mis vecinos邻居

第一步是确定哪些词是难词。这可以通过对原始文本中的单词进行词形还原并将它们与“简单单词”列表(1500-2000 个单词的基本词汇表)进行比较来完成。未在此列表中找到的将被指定为“硬词”。使用 Python 的自然语言工具包 (NLTK),这个过程似乎很简单。

必须成对翻译的单词有一些困难,例如“新婚”,或短语动词“他起来”或德语“er ruft mich an ”(anrufen)。这里不能单独对待单词。对于短语动词等,可能需要对语法有所了解。

第二步涉及根据困难词出现的上下文获得正确的翻译。据我了解,这有效地应用了谷歌翻译等统计机器翻译系统的前半部分。我相信这个问题可以使用 Google Translate Research API 解决,它可以让您发送要翻译的文本,并且响应包括有关翻译中的哪个单词对应于原始文本中的哪个单词的信息。因此,您可以输入整个句子,然后从响应中找出您想要的单词。但是,您必须申请使用此 API,并且它们有使用限制,这可能对我的应用程序来说是个问题。我宁愿找到另一种解决方案。我希望没有任何解决方案可以提供 100% 正确的翻译,并且必须手动检查,

感谢您的意见。

大卫

4

1 回答 1

1

对于初始步骤,无需依赖先验词汇表 - 只需在训练语料库中累积标记计数并标记测试集中未出现在排序词汇表中的截止点之前的标记就足够了。

http://vuw.academia.edu/JosephSorell/Papers/549885/Zipfs_Law_and_Vocabulary

对于第二步,“根据出现的上下文获取难词的正确翻译”,是的,您需要访问 MT API 和/或人工翻译。选择最佳方法取决于您的目标。

你可以有一个正确的翻译,一个快速的翻译,或者一个便宜的翻译——我知道你不可能同时拥有这三个。

于 2012-06-12T17:52:29.703 回答