4

我试图想出一种方法来估计从日语翻译成的英语单词的数量。日语有三种主要的文字——汉字平假名片假名——每一种都有不同的平均字词比(汉字最低,片假名最高)。

例子:

  • 电脑:コンピュータ(片假名 - 6 个字符);计算机(汉字:3个字)
  • 鲸鱼:くじら(平假名——3个字符);鲸(汉字:1个字符)

作为数据,我有大量的日文词汇及其英文翻译,以及相当大的匹配日文源文档及其英文翻译的语料库。我想提出一个公式来计算源文本中的汉字、平假名和片假名字符的数量,并估计这可能变成的英语单词的数量。

4

7 回答 7

3

以下是 Borland(现为 Embarcadero)对英语到非英语的看法:

英文字符串的长度(以字符为单位)

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

我认为您可以将这个(稍加修改)应用于日语到非日语。

您可能要考虑的另一个因素是语言的语气。在英语中,指令被表述为命令式,如“Press OK”。但在日语中,祈使语气被认为是粗鲁的,你必须用敬语(或 keigo)来表达指令,如“OKボタンを押してください”。

注意三个字母的汉字组合。许多大词翻译成三四个字母的汉字组合,例如国际化(国际化:20个字符),高可用性(高可用性:17个字符)。

于 2008-09-28T05:02:00.160 回答
1

嗯,它比名词中的字符数与英语相比要复杂一些,例如,日语与英语相比也有不同的语法结构,所以在日语中某些句子会使用 MORE 词,而其他句子会使用 LESS 词. 我真的不懂日语,所以请原谅我以韩语为例。

在韩语中,句子通常比英语句子短,主要是因为它们通过使用上下文来填补缺失的单词而被缩短。例如,说“我爱你”可以短如사랑해(“sarang hae”,简称动词“love”),或者只要完全限定的句子저는 당신을 살앙해요(I [topic] you [object ] love [动词+礼貌修饰语]。在文本中如何写取决于上下文,这通常由段落中较早的句子设置。

无论如何,有一个算法来真正知道这种事情会非常困难,所以你可能会好得多,只使用统计数据。您应该做的是使用已知日文文本和英文文本具有相同含义的随机样本。样本越大(越随机)越好……虽然如果它们真的是随机的,那么你有多少超过几百不会有太大区别。

现在,另一件事是这个比例会完全改变正在翻译的文本类型。例如,高度技术性的文档很可能比一部烂小说具有更高的日文/英文长度比率。

至于简单地使用您的词对词翻译词典 - 这可能效果不佳(并且可能是错误的)。同一个词不会每次都用不同的语言翻译成同一个词(尽管在技术讨论中更有可能发生)。例如,美丽这个词。在韩语中我不仅可以指定一个以上的词(即有一个选择),而且有时我会失去那个选择,就像在句子(那个食物很美)中,我不是说食物看起来好的。我的意思是它的味道很好,而且我对这个词的翻译选项发生了变化。这是一个非常普遍的情况。

另一个大问题是最佳翻译。人类非常不擅长的事情,而计算机更不擅长的事情。每当我校对从其他文本翻译成英文的文档时,我总能看到各种方法将其缩短得多。

因此,尽管使用统计数据,您将能够计算出翻译之间的相当好的平均长度比率,但这与所有翻译都是最优的情况大不相同。

于 2008-09-28T05:00:24.000 回答
1

我将从线性近似开始:approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3,系数 a1、a2、a3 使用线性最小二乘法从您的数据中拟合。

如果这不能很好地近似,那么看看最坏的情况,因为它们不适合(专业词等)。

于 2008-09-28T18:26:47.027 回答
1

根据我作为翻译和本地化专家的经验,一个好的经验法则是每个英文单词 2 个日文字符。

于 2008-12-13T17:42:37.687 回答
1

作为一名经验丰富的日英翻译,我可以说这很难量化,但根据我的经验,从日文翻译而来的英文文本通常几乎是源文本的 200%。在日语中,有许多文化特定的短语和名词无法直译,需要用英语解释。在翻译时,我通常会取一个日语句子并从中制作一个英语段落,以便将意思传达给读者。我这里的顶部是一个例子:

「懐かしい」</p>

这字面意思是怀旧。但是,在日语中,它可以用作感叹词中的单个短语。然而,在英语中,为了传达一种怀旧的感觉,我们需要更多的上下文。例如,您可能需要将单个短语变成一个句子:

“当我走过我的旧小学时,我被过去的记忆淹没了。”

这就是为什么日语和英语之间的机器翻译是不可能的。

于 2009-02-11T09:47:20.340 回答
0

看起来很简单——你只需要找出比率。

对于每个脚本,计算词汇表中脚本字符和英语单词的数量并计算出比率。

假设您可以检测日语单词在哪个脚本中以及翻译中的英语等效短语是什么,则可以使用日语源文档来增强这一点。否则,您将不得不猜测比率或将其作为源数据忽略,

然后,正如您所说,计算源文本的每个脚本中的单词数,进行乘法运算,您应该有一个粗略的估计。

于 2008-09-28T04:38:18.140 回答
0

我(尽管很小)的经验似乎表明,无论是什么语言,文本块都需要相同数量的印刷空间来传达相同的信息。因此,对于较大的文本块,您可以为英文中的每个字符分配一个宽度计数(从 Times New Roman 等常见字体中获取),同样使用相同点大小的常见日文字体来计算需要的字符数。

于 2009-04-09T20:03:25.100 回答