我想用难词的翻译为外语学习者自动注释文本。
例如,如果原始文本是:
El gato esta en la casa de mis vecinos
变成
El gato esta en la casa de mis vecinos(邻居)
第一步是确定哪些词是难词。这可以通过对原始文本中的单词进行词形还原并将它们与“简单单词”列表(1500-2000 个单词的基本词汇表)进行比较来完成。未在此列表中找到的将被指定为“硬词”。使用 Python 的自然语言工具包 (NLTK),这个过程似乎很简单。
必须成对翻译的单词有一些困难,例如“新婚”,或短语动词“他叫我起来”或德语“er ruft mich an ”(anrufen)。这里不能单独对待单词。对于短语动词等,可能需要对语法有所了解。
第二步涉及根据困难词出现的上下文获得正确的翻译。据我了解,这有效地应用了谷歌翻译等统计机器翻译系统的前半部分。我相信这个问题可以使用 Google Translate Research API 解决,它可以让您发送要翻译的文本,并且响应包括有关翻译中的哪个单词对应于原始文本中的哪个单词的信息。因此,您可以输入整个句子,然后从响应中找出您想要的单词。但是,您必须申请使用此 API,并且它们有使用限制,这可能对我的应用程序来说是个问题。我宁愿找到另一种解决方案。我希望没有任何解决方案可以提供 100% 正确的翻译,并且必须手动检查,
感谢您的意见。
大卫